نویسنده (ها): dimitris effrosynidis
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
بازیابی کارآمد برای مدل های متراکم BM25 و ترانسفورماتور
این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.
بازیابی متن کارآمد و دقیق ، سنگ بنای سیستم های اطلاعاتی مدرن ، برنامه های کاربردی مانند موتورهای جستجو ، چت بابات و پایه های دانش است.
این اولین قدم در سیستم های Rag (بازیابی تولید شده) است.
سیستم های RAG ، ابتدا از بازیابی متن برای یافتن پاسخ به پرس و جو ما استفاده کنید و سپس از آن استفاده کنید LLM برای پاسخ RAG به ما اجازه می دهد تا “با داده های خود” گپ بزنیم.
در این مقاله ، ما به بررسی ادغام بازیابی متراکم ، جستجوی واژگانی BM25 و استفاده مجدد از ترانسفورماتور برای ایجاد یک سیستم بازیابی متن قوی و مقیاس پذیر می پردازیم.
این پروژه از نقاط قوت هر تکنیک استفاده می کند:
بازیابی متراکم: با تعبیه متن در فضاهای بردار با ابعاد بالا ، معنای معنایی را ضبط می کند و جستجوی مبتنی بر شباهت را امکان پذیر می کند. BM25 جستجوی واژگانی: تطبیق کلمات کلیدی کارآمد را برای محدود کردن سریع نتایج مربوطه انجام می دهد. و رتبه بندی جفت های پرس و جو بر اساس ارتباط معنایی ، و اطمینان از دقت در خروجی نهایی.
این رویکرد ترکیبی هم کارآیی محاسباتی و هم دقت بازیابی را بهینه می کند ، و آن را برای موارد استفاده مناسب می کند که زمینه ، ارتباط و سرعت بسیار مهم باشد.
چاک دهی و تعبیه: متن به تکه های (به عنوان مثال ، جملات یا پاراگراف) تقسیم می شود تا اطمینان حاصل شود که تعبیه شده بخش های عملی محتوا را نشان می دهد. multiple چاک دهی استراتژی ها ، از جمله قطعات ثابت و قطعات همپوشانی ، به… وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی