نویسنده(های): آروناب بورا
در ابتدا منتشر شد به سمت هوش مصنوعی.
استفاده از RAG با نمایه سازی چند بازنمایی برای به دست آوردن داده های زمینه کامل از اسناد فنی
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
این مقاله از پروژه ای الهام گرفته شده است که اخیراً انجام دادم، که حول محور واکشی بسیاری از داده های فنی از اسناد PDF (عمدتا جداول، اما برخی از تصاویر و نام های شیمیایی نیز بودند) بود. من در ابتدا سعی کردم این کار را با استفاده از یک رویکرد اصلی RAG (Retrieval Augmented Generation) انجام دهم، اما متوجه شدم که قادر به دریافت متن کامل اطلاعات از اسناد نیست. یا جداول ناقص را واکشی می کرد یا اطلاعات را با متن قسمت دیگری از اسناد مخلوط می کرد.
از آنجایی که من با داده های نظارتی زیادی سر و کار داشتم، به چیزی نیاز داشتم که زمینه کامل را از اسناد خام بدون افزودن هیچ تفسیری به تصویر بکشد.
مدل های زبان بزرگ بر روی بسیاری از داده های عمومی آموزش دیده اند. ما اغلب می خواهیم آن داده ها را با داده های خصوصی و محرمانه خود افزایش دهیم. RAG این شکاف را با ادغام خودمان پر می کند مجموعه داده ها با مدل های از پیش آموزش دیده RAG به طور گسترده ای در سراسر صنایع برای ساخت ابزار استفاده می شود، جایی که کاربران اطلاعات را از مجموعه بزرگی از داده ها با “مکالمه” با آن به دست می آورند.
پروندهها یا پروندههای دارویی مجموعهای از اسنادی هستند که توسط شرکتهای داروسازی به سازمانهای نظارتی ارسال میشوند. وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/artificial-intelligence/accelerating-drug-approvals-using-advanced-rag