اجازه دهید هوش مصنوعی اسناد سنگین را فوراً تجزیه کند: جادوی فشرده سازی کارآمد MPLUG-DOCOWL2

نویسنده(های): فلوریان جون

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

امروز، بیایید نگاهی به یکی از آخرین پیشرفت‌ها در تجزیه و تحلیل PDF و هوشمندسازی اسناد بیندازیم.

در عصر دیجیتال ما، توانایی درک اسناد فراتر از استخراج متن بسیار مهم است. اسناد چند صفحه ای، مانند قراردادهای حقوقی، مقالات علمی و دستورالعمل های فنی، چالش های منحصر به فردی را ایجاد می کنند.

روش‌های سنتی درک سند به شدت بر تکنیک‌های تشخیص کاراکتر نوری (OCR) تکیه می‌کنند، که چالش مهمی را ایجاد می‌کند: ناکارآمدی و عملکرد کند راه‌حل‌های مبتنی بر OCR در هنگام پردازش اسناد چند صفحه‌ای با وضوح بالا.

این روش ها هزاران توکن بصری را تنها برای یک صفحه تولید می کنند که منجر به هزینه های محاسباتی بالا و زمان استنتاج طولانی می شود. به عنوان مثال، InternVL 2 برای درک یک صفحه به طور متوسط به 3000 توکن بصری نیاز دارد که در نتیجه سرعت پردازش کند است.

منبع: https://towardsai.net/p/l/let-ai-instantly-parse-heavy-documents-the-magic-of-mplug-docowl2s-efficient-compression