چگونه جستجوی معنایی در حال تغییر در نحوه یافتن اطلاعات است

نویسنده (ها): Shivam Dattatray Shinde

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

دستور کار

چگونه بازیابی اطلاعات در گذشته برای کار استفاده می شود
معرفی جستجوی معلوم به سیستم های بازیابی
بازیابی متراکم
مجدداً
پارچه
پایان

چگونه بازیابی اطلاعات در گذشته برای کار استفاده می شود

قبل از ظهور مدل های بزرگ زبان، بازیابی اطلاعات در اینترنت به روشهایی مانند تطبیق کلمات کلیدی ، بازیابی بولی و غیره متکی است. با این حال ، این رویکرد محدودیت های مختلفی داشت:

بازیابی اطلاعات به کلمات خاص مورد استفاده در پرس و جو و نحوه ساختار آن بستگی داشت ، نه اینکه به درک هدف کاربر بپردازید.
این تلاش برای حساب کردن مترادفبا پلاستیک (کلمات با معانی متعدد) ، و تفاوت های ظریف گرامر.
کاربران برای اطمینان از اینکه نتایج بازیابی انتظارات خود را برآورده می کند ، باید با دقت و عمدی سؤالات خود را انجام دهند.

معرفی جستجوی معلوم در سیستم های بازیابی

در مراحل اولیه مدل های بزرگ زبان (LLMS) ، کاربران با مشکلی روبرو شدند که به عنوان “توهم” شناخته می شود. LLM ها اغلب پاسخ هایی را ارائه می دادند که نادرست یا منسوخ بودند و این کار را با اعتماد به نفس بالا انجام می داد. برای پرداختن به این مسئله ، راه حل هایی مانند مدل های تولید شده توسط بازیابی (RAG) معرفی شد.

LLMS که در عملکرد جستجو ادغام شده اند می توانند به طور گسترده ای به سه نوع اصلی طبقه بندی شوند.

بازیابی متراکم
مجدداً
مدلهای نسل تقویت شده (RAG) بازیابی

بازیابی متراکم

مدل های بازیابی متراکم بر اساس تعبیه کار می کنند. ابتدا پرس و جو جستجوی کاربر به یک تعبیه تبدیل می شود. این تعبیه سپس با تعبیه های از پیش محاسبه شده پایگاه داده متن برای اندازه گیری شباهت مقایسه می شود. نتایج با بالاترین شباهت بازگردانده می شود. این روند اساسی در بازیابی متراکم است.

نمودار زیر درک واضح تری از این مفهوم ارائه می دهد.

منبع: **مدل های بزرگ زبان توسط جی آلامار ، Maarten Grootendorst**

در نمودار بالا ، فقط یک نتیجه واحد نشان داده شده است. با این حال ، در بیشتر موارد ، نتایج متعدد بازگردانده می شود. برای به دست آوردن نتایج متعدد ، ما نزدیکترین همسایگان تعبیه جستجوی کاربر را در فضای تعبیه پایگاه داده وکتور شناسایی می کنیم. این فرآیند بیشتر در نمودار زیر نشان داده شده است.

در این رویکرد ، این احتمال وجود دارد که نتایج با نمره شباهت کم هنوز قابل بازگشت باشد. برای پرداختن به این موضوع ، آستانه شباهت را تعیین می کنیم. فقط نتایج با نمره شباهت بالاتر از این آستانه بازگردانده می شود ، به این معنی که این احتمال وجود ندارد که هیچ نتیجه ای به هیچ وجه بازیابی نشود.

احتیاط بازیابی متراکم

بعضی اوقات ، کاربران ممکن است بخواهند یک عبارت خاص را جستجو کنند ، و تکیه فقط به بازیابی متراکم ممکن است بهترین نتیجه را ارائه ندهد. در چنین مواردی ، مدل های هیبریدی که هر دو جستجوی کلمات کلیدی و بازیابی متراکم را با هم ترکیب می کنند ، راه حل بهتری ارائه می دهند.
مدل های بازیابی متراکم اغلب برای انجام عملکرد خوب در خارج از حوزه هایی که در آن آموزش دیده بودند ، تلاش می کنند. به عنوان مثال ، اگر یک مدل بر روی داده های ویکی پدیا آموزش داده شود و برای جستجوی متون قانونی استفاده شود ، احتمالاً نتایج دقیق تر خواهد بود.

چاک دهی متن

نمایه سازی را می توان با مقایسه شباهت بین تعبیه پرس و جو کاربر و تعبیه هر جمله و سپس بازگشت جمله با بالاترین نمره شباهت به عنوان نتیجه حاصل کرد. با این حال ، این رویکرد ممکن است کم شود وقتی که پاسخ پرس و جو کاربر چندین خط دارد. در چنین مواردی ، یک تکنیک متفاوت برای چاک دهی متن لازم است علاوه بر این ، ما باید محدودیت معماری های ترانسفورماتور را در نظر بگیریم: اندازه متن محدود آنها ، که مانع از ورود ما به بخش های بسیار بزرگی از متن می شود.

برای پرداختن به این چالش ها ، روش های زیر می تواند قبل از استفاده از تکنیک تعبیه برای تکه های متن استفاده شود:

یک بردار در هر سند
این رویکرد شامل ایجاد تعبیه تنها با استفاده از یک بخش نماینده از سند ، مانند عنوان ، مقدمه یا چکیده است. در حالی که این روش برای نسخه های نمایشی مناسب است ، از آنجا که مقدار قابل توجهی از اطلاعات را حذف می کند ، از کاربرد محدودی برخوردار است و آن را غیرقابل جستجو می کند. این سند به تکه های کوچکتر تقسیم می شود ، تعبیه برای این تکه ها تولید می شود ، و تعبیه ها جمع می شوند تا یک نمایش بردار بسیار فشرده از سند تشکیل دهند. با این حال ، این فشرده سازی منجر به از بین رفتن قابل توجهی در اطلاعات می شود.
چندین بردار در هر سند
در این رویکرد ، این سند به چند تکه کوچکتر تقسیم می شود که هر یک از آنها به صورت جداگانه تعبیه شده اند. این تعبیه های سطح قطعه به جای استفاده از یک تعبیه واحد برای کل سند ، به طور جمعی نمایانگر این سند هستند. جملات همپوشانی نیز می تواند در بخش هایی برای بهبود نمایندگی درج شود. این روش جزئیات بیشتری را حفظ می کند و با استفاده از تعبیه های ریز دانه ای ، جستجوی مؤثرتر را امکان پذیر می کند.

مجدداً

در این رویکرد ، نتایج جستجو پس از بازیابی مجدد دوباره مرتب می شوند. پرس و جو کاربر را می توان با اسناد پایگاه داده با استفاده از روشهای مختلف ، مانند تطبیق کلمات کلیدی ، بازیابی متراکم یا ترکیبی از هر دو ، مطابقت داد. این روش عملکرد سیستم های بازیابی اطلاعات را افزایش می دهد.

این رویکرد عملکرد بازیابی اطلاعات را بهبود می بخشد.

در این رویکرد ، مدل ارتباط پرس و جو جستجوی کاربر را در برابر هر سند ایندکس شده ارزیابی می کند و بر اساس نمرات ارتباط حاصل ، رتبه بندی ها را تعیین می کند.

بازیابی نسل افزوده (RAGS)

هنگامی که برای اولین بار مدل های بزرگ زبان (LLMS) معرفی شدند ، مردم انتظار داشتند که آنها به هر سؤالی که مطرح می کنند پاسخ دهند. با این حال ، LLM ها اغلب با سؤالات بسیار خاص یا طاقچه و همچنین سؤالاتی درباره اطلاعات واقعی اخیر دست و پنجه نرم می کردند. این محدودیت ناشی از اعتماد آنها به استاتیک است داده های آموزش، که آنها را از آخرین تحولات یا به روزرسانی در اطلاعات متنی بی خبر گذاشت. این پدیده معمولاً به “توهم” گفته می شود.

این جایی است که نسل بازیابی (RAG) بازی می شود.

برای نشان دادن ، یک سناریوی دادگاه را در نظر بگیرید. یک قاضی به طور معمول بر اساس دانش آنها از قانون و عقل سلیم عمومی تصمیم می گیرد. با این حال ، در موارد تخصصی ، مانند دادخواستهای مربوط به سلامت ، قاضی ممکن است برای کمک به متخصصانی مانند پزشکان یا جراحان مشورت کند.

RAG بر اساس یک اصل مشابه عمل می کند و LLM ها را با ادغام دانش خارجی و خاص دامنه برای بهبود صحت و قابلیت اطمینان آنها تقویت می کند.

نمودار بالا نشان می دهد که سریع مستقیم به LLM تغذیه نمی شود. در عوض ، از آن برای بازیابی اطلاعات مربوطه از اینترنت در مورد موضوع استفاده می شود. این اطلاعات بازیابی شده با استفاده از هر روش مناسب فهرست بندی شده و سپس برای تولید پاسخ به LLM عرضه می شود. با استفاده از داده های شاخص اینترنتی ، LLM ها می توانند به طور مؤثر به سؤالات واقعی یا بسیار تخصصی پاسخ دهند. این رویکرد ، جایی که اطلاعات قبل از تولید پاسخ از اینترنت بازیابی می شود ، به عنوان “نسل تقویت شده بازیابی” شناخته می شود.

پایان

مقاله توضیح می دهد که چگونه عملکرد جستجو برای کار در گذشته و چگونگی معرفی معنای معنایی در عملکرد جستجو عملکرد آن را بهبود می بخشد. این مقاله عمدتاً بر سه LLMS یعنی بازیابی متراکم ، بازپرداخت و پارچه هایی که بیشتر مورد استفاده قرار می گیرد ، تمرکز دارد.

راه دور

خیلی ممنون از خواندن اگر این مقاله را دوست داشتید ، فراموش نکنید که آن نماد Clap را فشار دهید. مرا دنبال کن واسطه وت وابسته به لینکدین برای چنین مقالاتی بیشتر

آیا در تلاش هستید تا انتخاب کنید که بعدی را بخوانید؟ نگران نباشید ، من شما را پوشانده ام.

طبقه بندی بدون ساختار: راهنمای طبقه بندی متن با بازنمایی و تولید …

این مقاله به روشهای مختلفی برای انجام طبقه بندی متن با استفاده از مدلهای مبتنی بر ترانسفورماتور می پردازد …

pub.towardsai.net

و یک مورد دیگر

از کلمات گرفته تا بردارها: کاوش در تعبیه متن

این مقاله شما را از طریق تکنیک های مختلف برای تبدیل متن به قالب هایی که ماشین ها می توانند…

pub.towardsai.net

منابع

[1]https://learning.oreilly.com/library/view/hands-on-large-language/9781098150952/
[2]https://blogs.nvidia.com/blog/what-is-retreieval-augmented-generation/

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/how-semantic-search-is-transforming-the-way-we-find-information