نویسنده (ها): احمد بولهیا
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
خط لوله Rag خود را با استفاده از Smoldocling برای تجزیه اسناد پیچیده (جداول ، معادلات ، نمودارها و کد) در وکتور DB خود تقویت کنید
آیا تا به حال سعی کرده اید متن را از یک مقاله تحقیقاتی PDF کپی کنید و به پایان رسید و با معادلات گیبری ، چهره های مفقود شده یا معادلات ناقص به پایان رسید؟ اسناد پیچیده اغلب با عناصر غیر متن مانند تصاویر ، نمودارها ، جداول و ریاضیات بسته بندی می شوند ، که هوش مصنوعی مبتنی بر متن نمی تواند از عهده آن برآید.
Smoldocling قصد دارد آن را تغییر دهد ، این یک مدل AI چند حالته است که برای پردازش یک تصویر صفحه کامل طراحی شده و یک بازنمایی مجرد و ساختاری از همه چیز را در آن انجام می دهد.
در این پست خواهیم دید که چرا ترکیب دید و زبان برای سند مدرن AI ضروری است ، و اینکه چگونه ویژگی های Smoldocling تنظیم شده است ، اجازه می دهد تا اسناد پیچیده را به پایان برساند.
سند سنتی AI اغلب صفحات را به عنوان “فقط متن” می گفت. یک الگوی متداول این بود: یک موتور OCR را اجرا کنید تا تمام کلمات (و موقعیت های آنها) را بدست آورید ، سپس آن را به یک مدل متن تغذیه کنید.
سیستم هایی مانند LayoutLM … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/l/parse-documents-including-images-tables-equations-charts-and-code