اجازه دهید هوش مصنوعی اسناد سنگین را فوراً تجزیه کند: جادوی فشرده سازی کارآمد MPLUG-DOCOWL2


نویسنده(های): فلوریان جون

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

امروز، بیایید نگاهی به یکی از آخرین پیشرفت‌ها در تجزیه و تحلیل PDF و هوشمندسازی اسناد بیندازیم.

در عصر دیجیتال ما، توانایی درک اسناد فراتر از استخراج متن بسیار مهم است. اسناد چند صفحه ای، مانند قراردادهای حقوقی، مقالات علمی و دستورالعمل های فنی، چالش های منحصر به فردی را ایجاد می کنند.

روش‌های سنتی درک سند به شدت بر تکنیک‌های تشخیص کاراکتر نوری (OCR) تکیه می‌کنند، که چالش مهمی را ایجاد می‌کند: ناکارآمدی و عملکرد کند راه‌حل‌های مبتنی بر OCR در هنگام پردازش اسناد چند صفحه‌ای با وضوح بالا.

این روش ها هزاران توکن بصری را تنها برای یک صفحه تولید می کنند که منجر به هزینه های محاسباتی بالا و زمان استنتاج طولانی می شود. به عنوان مثال، InternVL 2 برای درک یک صفحه به طور متوسط ​​به 3000 توکن بصری نیاز دارد که در نتیجه سرعت پردازش کند است.

شکل 1: (الف) mPLUG-DocOwl2 با سرعت استنتاج سریع‌تر و کمتر، به عملکرد پیشرفته‌ای در درک سند چند صفحه‌ای دست می‌یابد. پردازنده گرافیکی حافظه؛ (bc) mPLUG-DocOwl2 می‌تواند توضیح مفصلی حاوی صفحه شواهد و همچنین تجزیه ساختار کلی سند ارائه دهد. منبع: MPLUG-DOCOWL2.

همانطور که در شکل 1 نشان داده شده است، یک مطالعه جدید به نام MPLUG-DOCOWL2 (کد منبع باز) با کاهش شدید تعداد نشانه های بصری در حالی که دقت درک مطلب را حفظ یا حتی افزایش می دهد، به این موضوع رسیدگی می کند.

یک… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/let-ai-instantly-parse-heavy-documents-the-magic-of-mplug-docowl2s-efficient-compression