نویسنده(های): فلوریان جون
در ابتدا منتشر شد به سمت هوش مصنوعی.
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
امروز، بیایید نگاهی به یکی از آخرین پیشرفتها در تجزیه و تحلیل PDF و هوشمندسازی اسناد بیندازیم.
در عصر دیجیتال ما، توانایی درک اسناد فراتر از استخراج متن بسیار مهم است. اسناد چند صفحه ای، مانند قراردادهای حقوقی، مقالات علمی و دستورالعمل های فنی، چالش های منحصر به فردی را ایجاد می کنند.
روشهای سنتی درک سند به شدت بر تکنیکهای تشخیص کاراکتر نوری (OCR) تکیه میکنند، که چالش مهمی را ایجاد میکند: ناکارآمدی و عملکرد کند راهحلهای مبتنی بر OCR در هنگام پردازش اسناد چند صفحهای با وضوح بالا.
این روش ها هزاران توکن بصری را تنها برای یک صفحه تولید می کنند که منجر به هزینه های محاسباتی بالا و زمان استنتاج طولانی می شود. به عنوان مثال، InternVL 2 برای درک یک صفحه به طور متوسط به 3000 توکن بصری نیاز دارد که در نتیجه سرعت پردازش کند است.
همانطور که در شکل 1 نشان داده شده است، یک مطالعه جدید به نام MPLUG-DOCOWL2 (کد منبع باز) با کاهش شدید تعداد نشانه های بصری در حالی که دقت درک مطلب را حفظ یا حتی افزایش می دهد، به این موضوع رسیدگی می کند.
یک… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی