نویسنده (ها): Anirban Bhattacharjee
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
در جریان کار چاپی و اسکن مدرن ، اسناد بازسازی یک مؤلفه مهم است ، به ویژه در محیط هایی که با قالب های ورودی متنوع ، زبان های مختلف و چیدمان هایی که در محیط های مدرن شرکت ها رایج است ، است. الگوریتم های سنتی مبتنی بر قانون اغلب در تفسیر دقیق و تطبیق چنین محتوا کم می شوند. در اینجا ما بررسی می کنیم که چگونه می توان از مدل های AI چند حالته برای انجام اسناد هوشمند که مستقیماً بر روی دستگاه های چاپگر اصلاح می شود ، استفاده کرد. با ادغام درک بصری ، متنی و چیدمان ، مدل های چند حالته می توانند اسناد پیچیده را به خروجی های آماده چاپ با وفاداری بالا تبدیل کنند. ما در ادامه نحوه استقرار این مدل ها را به طور مؤثر بر روی سخت افزار لبه محدود شده با منابع معمولی در دستگاه های چاپگر ، بهینه سازی مدل اهرم و سایر تکنیک ها برای تعادل عملکرد با محدودیت های محاسباتی ارزیابی می کنیم.
صنعت چاپ با ظهور قابلیت های Edge Edge در حال تحول است. چاپگرها دیگر نقاط پایانی منفعل نیستند بلکه شرکت کنندگان فعال در پردازش محتوا هستند. یک چالش مهم برای چاپگرها ، توانایی اصلاح اسناد است که اغلب در انواع قالب های متناقض و بدون ساختار دریافت می شود-به نسخه های تمیز و آماده چاپی. این کار هنگام برخورد با محتوای چند زبانه ، اسناد اسکن شده و چیدمان های غیر متعارف حتی چالش برانگیز تر می شود.
روشهای سنتی اصلاحات به شدت به قوانین یا الگوهای از پیش تعریف شده متکی هستند ، که نمی توانند در انواع اسناد متنوع مقیاس شوند. پیشرفت های اخیر در هوش مصنوعی ، به ویژه مدلهای چند حالته که ترکیبی از بینش و زبان را دارند ، یک راه حل امیدوارکننده برای این مشکل ارائه می دهد.
بیانیه مشکل
سیستم های مبتنی بر قانون اغلب شکسته می شوند و برای سازگاری با انواع جدید اسناد نیاز به تلاش دستی دارند. آنها در هنگام مواجهه با طرح بندی ها یا زبان های غیب ، توانایی تعمیم و اغلب شکستن را ندارند. سیستم های مبتنی بر هوش مصنوعی می توانند بهتر عمل کنند ، با این حال ، به طور سنتی بیشتر پردازش هوش مصنوعی روی ابر اتفاق افتاده است. پردازش AI مبتنی بر ابر ، در حالی که قدرتمند است ، نگرانی های حریم خصوصی و تأخیر را معرفی می کند و به در دسترس بودن یک شبکه پهنای باند بالا برای عملکرد بیش از حد وابسته است.
برای پرداختن به این چالش ها ، راه حلی پیشنهاد شده است که قابلیت های هوش مصنوعی چندمودال را مستقیماً در چاپگر جاسازی می کند و امکان اصلاح اسناد را در دستگاه خود قرار می دهد. این رویکرد اعتماد به زیرساخت های خارجی را کاهش می دهد و پردازش سریعتر و امن تر را تضمین می کند.
هوش مصنوعی چند حالته برای درک اسناد
مدل های زبان بصری دسته خاصی از مدل های AI چند حالته ، محتوای متنی ، طرح بصری و ساختار مکانی را برای دستیابی به درک عمیق تر اسناد ادغام می کند.
از مدل های مختلف زبان بصری می توان برای کارهای مختلف اصلاحات استفاده کرد – تعداد معدودی مورد ارزیابی قرار گرفتند:
• Qwen 2.5 VL: یک مدل چند حالته که توسط Alibaba Cloud ساخته شده است ، قادر به دستیابی به متن ، تصاویر و سایر روش ها است
• شار (مدل های انتشار): مدل های انتشار شار مدل های تولید متن به تصویر هستند که از یک معماری ترکیبی بلوک های ترانسفورماتور چند مدلی و موازی استفاده می کنند. آنها به دلیل توانایی خود در تولید تصاویر با کیفیت بالا و دقیق در حالی که از نزدیک به متن متن پیروی می کنند ، شناخته شده اند.
• layoutlmv3: برای درک اسناد ، متن ، تصویر و ویژگی های چیدمان را ترکیب می کند.
• پیراشکی (ترانسفورماتور درک اسناد): یک مدل بدون OCR که با استفاده از مدل سازی تصویر و دنباله ، اسناد را به پایان می رساند.
• Pix2Struct: ورودی های بصری را به خروجی های متن ساختار یافته تبدیل می کند ، برای تحول به طرح به ساختار مفید است.
• TATR: TATR از مایکروسافت یک است تشخیص شیء مدل که جداول را از ورودی تصویر تشخیص می دهد.
این مدل ها می توانند بخش های اسناد را شناسایی کنند ، محتوای مربوطه را استخراج کرده و آن را با حداقل نظارت با فرمت مورد نظر سازماندهی کنند. مدل های زیر انتخاب شدند – مدل QWEN 2.5 VL ، مدل FLEX و تعداد کمی دیگر برای انجام وظایف اصلاح اسناد برای استقرار واقعی.
مدل QWEN 2.5VL در رسیدگی به ورودی های بصری پیچیده ، از جمله تصاویر با اندازه های مختلف و فیلم های طولانی مدت ، عالی است ، در حالی که عملکرد زبانی قوی را نیز حفظ می کند.
موارد استفاده
موارد استفاده چندگانه برای چاپگرها و سایر گردش کار مشابه امکان پذیر است – چند نمونه
• داده های جدولی را استخراج کرده و به نمودارها تغییر دهید: داده های جدول را از صفحات استخراج کرده و آن را در توطئه ها و نمودارها بازپرداخت کرده و در صفحه چاپ کنید تا چاپ شود
• تولید و اصلاح تصویر: کارت تبریک را با تغییر سریع ، تغییر رنگ اشیاء جداگانه ، تغییر اطلاعات متنی ، تغییر مرز و غیره ایجاد کنید.
• تصحیح متن تصویر و افزودن متن: متن را انتخاب کنید تا اصلاح شود و همان را تصحیح کند
• فاکتور و فرمت فرمت: بازسازی خودکار فرم های اسکن شده در الگوهای استاندارد.
• رسیدگی به محتوای چند زبانه: حمایت از ترجمه و بازتاب اسناد به زبان های مختلف.
• بهینه سازی دسترسی: تطبیق چیدمان برای کاربران کم بینا با افزایش اندازه قلم ، کنتراست و ساده سازی طراحی.
خط لوله پردازش داده ها
این خط لوله کاملاً از طریق دستگاه انجام می شود و از زمان واقعی ، کم تأخیر و پردازش حریم خصوصی محافظت می کند.
• ورودی: در قالب تصویر یا PDF
• کسب ورودی: چاپگر اسناد را با فرمت تصویر/PDF ضبط یا دریافت می کند.
• پیش پردازش: روال های سبک وزن وضوح ، صفحات بخش را عادی می کنند و از کاهش نویز استفاده می کنند.
• استنتاج مدل: یک مدل چند مدلی کمی محتوا را تفسیر می کند ، عناصر کلیدی را مشخص می کند و طرح بازسازی شده را پیش بینی می کند.
• پردازش پس از آن: متن بازتاب یافته ایجاد می کند ، قالب بندی را تراز می کند و یک طرح آماده چاپ ایجاد می کند
جنبه های استقرار در دستگاه های محدود شده منابع
چاپگرهای Edge به طور معمول با محاسبات محدود ، حافظه و ذخیره سازی محدود عمل می کنند. پیکربندی استقرار مثال پردازنده مبتنی بر x86 و تسلا T4 بود GPU با حافظه 16 گیگابایت. برای پشتیبانی از بارهای کار هوش مصنوعی که در آن محدودیت های منابع در دستگاه های لبه وجود دارد ، از استراتژی های زیر استفاده شده است:
• پایین آمدن تصویر: در طول پیش پردازش تصاویر پایین ، در حالی که وضوح تصویر را کاهش می دهد ، با کاهش میزان داده هایی که باید پردازش شود ، کارایی عملکرد پردازش تصویر را به میزان قابل توجهی بهبود می بخشد.
• بومی سازی و زمین بندی شی: برخی از وظایف مانند یافتن دقیق اشیاء در تصاویر با استفاده از جعبه های محدود و مختصات نقطه برای استدلال مکانی پیشرفته می توانند با استفاده از توانایی های مدل پایه Qwen به جای اجرای خط لوله سفارشی انجام شوند.
• کمیت مدل: اندازه مدل را کاهش می دهد و استنتاج را با حداقل از دست دادن در دقت تسریع می کند. برای QWEN 2.5 VL (پارامتر 7 BN) مدل 4 بیتی و از فرمت GGUF برای مدل استفاده شد. GGUF به عنوان روشی کارآمدتر و انعطاف پذیر برای ذخیره و استفاده معرفی شد LLMS برای استنباط و طراحی شده برای عملکرد خوب در سخت افزار رایانه ای درجه مصرف کننده.
• بهینه سازی مدل انتشار مدل انتشار: سفارشی سازی Ksampler و Scheduler در مدل های انتشار امکان عملکرد بهتر را با فعال کردن کنترل بیشتر بر فرآیند نمونه برداری ، بهینه سازی کارآیی و بهبود کیفیت تصاویر تولید شده فراهم می کند. با تنظیم دقیق الگوریتم ها و پارامترهای نمونه برداری ، این مدل متناسب با نیازهای خاص است و منجر به خروجی های دقیق تر می شود.
• زمان Runtimes: کتابخانه بهینه شده از Nvidia-Tensorrt برای استقرار در T4 GPU مورد استفاده قرار گرفت
تمام مراحل فوق به کاهش زمان استنباط و ردپای حافظه برای استقرار در SOC های چاپگر معمولی کمک کرد.
چالش ها و استراتژی های کاهش
برای استقرار دنیای واقعی در چاپگرها ، چند چالش نیاز به حل آنها دارد
• دست زدن به سند بزرگ: استفاده از تقسیم بندی اسناد و پردازش دسته ای برای مدیریت بار حافظه.
• دقت استنتاج: به روزرسانی های منظم و تنظیم دقیق در مورد استفاده مناسب مورد مجموعه داده ها به حفظ عملکرد کمک خواهد کرد.
• محدودیت های حرارتی و قدرت: برنامه ریزی کارآمد و شتاب سخت افزاری برای به حداقل رساندن مصرف برق مورد نیاز است.
نتیجه گیری و دستورالعمل های آینده
مدل های هوش مصنوعی چند مدلی نشان دهنده پیشرفت تحول آمیز برای اصلاح اسناد در چاپگرها است. با استفاده از چنین مدلهایی به طور مستقیم در دستگاه ، تولید کنندگان می توانند راه حل های چاپی باهوش تر ، ایمن تر و سازگار تر را ارائه دهند. موارد استفاده چندگانه با استفاده از قدرت چنین مدلهایی قابل انجام است.
این رویکرد مرحله ای را برای دوره جدیدی از چاپ لبه هوشمند تعیین می کند ، جایی که درک محتوا و اصلاح مجدد یکپارچه در نقطه تولید اتفاق می افتد.
منتشر شده از طریق به سمت هوش مصنوعی