اسناد تجزیه شده شامل تصاویر ، جداول ، معادلات ، نمودارها و کد.

نویسنده (ها): احمد بولهیا

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

خط لوله Rag خود را با استفاده از Smoldocling برای تجزیه اسناد پیچیده (جداول ، معادلات ، نمودارها و کد) در وکتور DB خود تقویت کنیدتصویر ایجاد شده توسط نویسنده + ساختار: Smoldocling یک مدل جدید پارامتر 256 متر است که کل صفحات سند را می خواند و آنها را به یک قالب نشانه گذاری Doctags غنی می کند که محتوا و طرح را ضبط می کند. به سرعت اجرا می شود (35/0 پوند در صفحه در A100 GPU) ویژگی های کلید: OCR داخلی با جعبه های محدود ، تشخیص فرمول/کد ، تجزیه جدول/نمودار ، گروه بندی لیست ، پیوند زیرنویس و غیره ، همه در یک بسته پایان به پایان.

آیا تا به حال سعی کرده اید متن را از یک مقاله تحقیقاتی PDF کپی کنید و به پایان رسید و با معادلات گیبری ، چهره های مفقود شده یا معادلات ناقص به پایان رسید؟ اسناد پیچیده اغلب با عناصر غیر متن مانند تصاویر ، نمودارها ، جداول و ریاضیات بسته بندی می شوند ، که هوش مصنوعی مبتنی بر متن نمی تواند از عهده آن برآید.

Smoldocling قصد دارد آن را تغییر دهد ، این یک مدل AI چند حالته است که برای پردازش یک تصویر صفحه کامل طراحی شده و یک بازنمایی مجرد و ساختاری از همه چیز را در آن انجام می دهد.

در این پست خواهیم دید که چرا ترکیب دید و زبان برای سند مدرن AI ضروری است ، و اینکه چگونه ویژگی های Smoldocling تنظیم شده است ، اجازه می دهد تا اسناد پیچیده را به پایان برساند.

سند سنتی AI اغلب صفحات را به عنوان “فقط متن” می گفت. یک الگوی متداول این بود: یک موتور OCR را اجرا کنید تا تمام کلمات (و موقعیت های آنها) را بدست آورید ، سپس آن را به یک مدل متن تغذیه کنید.

سیستم هایی مانند LayoutLM … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/l/parse-documents-including-images-tables-equations-charts-and-code