چگونه می توان “بازیابی” را در نسل بازیابی (RAG) انجام داد


نویسنده (ها): dimitris effrosynidis

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

بازیابی کارآمد برای مدل های متراکم BM25 و ترانسفورماتور

این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.

تصویر توسط نویسنده.

بازیابی متن کارآمد و دقیق ، سنگ بنای سیستم های اطلاعاتی مدرن ، برنامه های کاربردی مانند موتورهای جستجو ، چت بابات و پایه های دانش است.

این اولین قدم در سیستم های Rag (بازیابی تولید شده) است.

سیستم های RAG ، ابتدا از بازیابی متن برای یافتن پاسخ به پرس و جو ما استفاده کنید و سپس از آن استفاده کنید LLM برای پاسخ RAG به ما اجازه می دهد تا “با داده های خود” گپ بزنیم.

در این مقاله ، ما به بررسی ادغام بازیابی متراکم ، جستجوی واژگانی BM25 و استفاده مجدد از ترانسفورماتور برای ایجاد یک سیستم بازیابی متن قوی و مقیاس پذیر می پردازیم.

این پروژه از نقاط قوت هر تکنیک استفاده می کند:

بازیابی متراکم: با تعبیه متن در فضاهای بردار با ابعاد بالا ، معنای معنایی را ضبط می کند و جستجوی مبتنی بر شباهت را امکان پذیر می کند. BM25 جستجوی واژگانی: تطبیق کلمات کلیدی کارآمد را برای محدود کردن سریع نتایج مربوطه انجام می دهد. و رتبه بندی جفت های پرس و جو بر اساس ارتباط معنایی ، و اطمینان از دقت در خروجی نهایی.

این رویکرد ترکیبی هم کارآیی محاسباتی و هم دقت بازیابی را بهینه می کند ، و آن را برای موارد استفاده مناسب می کند که زمینه ، ارتباط و سرعت بسیار مهم باشد.

چاک دهی و تعبیه: متن به تکه های (به عنوان مثال ، جملات یا پاراگراف) تقسیم می شود تا اطمینان حاصل شود که تعبیه شده بخش های عملی محتوا را نشان می دهد. multiple چاک دهی استراتژی ها ، از جمله قطعات ثابت و قطعات همپوشانی ، به… وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/how-to-do-the-retrieval-in-retrieval-augmented-generation-rag

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *