تکه تکه شدن دیرهنگام در مدل های تعبیه متن طولانی

نویسنده(های): برهومی مصبه

در ابتدا منتشر شد به سمت هوش مصنوعی.

در مقاله قبلی به بررسی آن پرداختیم بازیابی متنی از آنتروپیک، که تکنیک بهبود زمینه آنها برای بهبود سیستم های RAG است. اما تکنیک دیگری به نام وجود دارد دیر تکه تکه شدن در مدل های تعبیه متن طولانی، که به نظر من خیلی جالب تر است و می تواند قابل توجه باشد.
تعبیه‌ها یکی از حیاتی‌ترین اجزای هر سیستم بازیابی هستند، اما اغلب نادیده گرفته می‌شوند یا مورد سوء استفاده قرار می‌گیرند. هنگام انتخاب یک مدل تعبیه، باید دو پارامتر بسیار مهم را در نظر بگیرید. یکی آن است حداکثر توکن، که اساساً پنجره زمینه است و مورد دوم همان است بعد تعبیه شده، که اندازه خروجی بردار جاسازی است.
احتمالاً شما این حداکثر اندازه توکن عظیم را برای برخی از جدیدترین مدل‌های تعبیه‌شده دیده‌اید، اما یک مشکل اساسی در این مورد وجود دارد. در خط لوله استاندارد RAG، صرف نظر از اندازه قطعه، اندازه خروجی بردار تعبیه شده شما یکسان باقی می ماند. بنابراین، چه پنج توکن یا 5000 توکن جاسازی کنید، خروجی دقیقاً یکسان خواهد بود. این بدان معناست که این مدل‌های جاسازی اطلاعات زیادی را برای قطعات ورودی طولانی فشرده می‌کنند.
در بیشتر موارد، شما می خواهید از قطعات کوچکتر استفاده کنید، اما این مشکلات خاص خود را دارد. برای درک آن، بیایید به این مثال نگاه کنیم: در اینجا یک پاراگراف کوچک در مورد تونس وجود دارد:

اگر از سطح جمله استفاده می کنید تکه تکه شدن استراتژی، اساساً هر جمله به بخش متفاوت خود تبدیل می شود. می بینید که اگر این تکه های مختلف را جداگانه جاسازی کنید، اطلاعات متنی را از دست خواهید داد. به عنوان مثال، “کشور” به تونس اشاره می کند، اما اگر این بخش در انزوا باشد، آن زمینه را از دست می دهد.
رویکرد بازیابی متنی سعی می‌کند اسناد را خلاصه کند و اطلاعات متنی را به هر بخش اضافه کند، اما یک رویکرد بهتر وجود دارد، و آن تکه تکه شدن دیرهنگام است.

بیایید ابتدا به نحوه عملکرد تکه‌شدن “عادی” نگاه کنیم.

فرآیند خرد کردن و جاسازی عادی

در رویکرد سنتی تکه‌شدن، ابتدا متن به تکه‌های کوچک‌تر تقسیم می‌شود و سپس هر تکه از طریق یک شبکه عصبی که یک مدل ترانسفورماتور است، عبور داده می‌شود. خروجی این فرآیند تعبیه‌هایی برای هر یک از توکن‌های منفرد درون تکه‌ها است. اطلاعات زمینه ای در این نشانه ها به قسمتی که به آن تعلق دارند محدود می شود. پس از تولید توکن‌های تعبیه‌شده، ادغام میانگین برای محاسبه خروجی نهایی انجام می‌شود. این اطلاعات متنی را حفظ می‌کند، اما فقط در تک تک تکه‌ها است و مستقل از سایر تکه‌های همان سند است.

روش تکه تکه شدن دیرهنگام

رویکرد تکه تکه شدن دیرهنگام این فرآیند را معکوس می کند. به جای تقسیم سند به قطعات و سپس محاسبه جاسازی ها، کل متن سند ابتدا از طریق یک مدل Transformer منتقل می شود. این یک نمایش تعبیه‌شده برای هر نشانه ایجاد می‌کند، و این توکن‌ها اکنون حاوی اطلاعات زمینه‌ای هستند که نه تنها محدود به یک تکه است، بلکه کل سند را نیز در بر می‌گیرد. پس از این مرحله، فرآیند تکه‌سازی انجام می‌شود، جایی که متن اصلی به تکه‌هایی تقسیم می‌شود و توکن‌های مربوطه برای محاسبه میانگین ادغام استفاده می‌شوند که در نتیجه نمایش نهایی حاصل می‌شود.

از آنجایی که فرآیند تکه تکه شدن در مرحله بعدی انجام می شود، به این روش «تکه کردن دیرهنگام» می گویند.

بهترین روش برای بازیابی

این تکه تکه شدن دیرهنگام رویکرد مستقیماً با رویکرد دیگری به نام مرتبط است تعامل دیرهنگام، که یک است رویکرد مبتنی بر COBERT، این احتمالاً بهترین روش برای بازیابی است، اما با هزینه‌های ذخیره‌سازی همراه است. در این حالت، در مرحله آخر، شما مرحله ادغام را انجام نمی دهید، بلکه جاسازی های توکن را جداگانه می گیرید و آن جاسازی توکن ها را ذخیره می کنید.

یک پست وبلاگ از بافتن تیم نشان می دهد که اگر شما حدود 100000 سند را با همان تعداد جاسازی جاسازی کنید، به حدود 1.6 میلیون بردار برای یک رویکرد تکه تکه ساده نیاز خواهید داشت که حدود 5 گیگابایت است. با این حال، اگر بخواهید تعامل دیرهنگام یا نمایش چند برداری مبتنی بر COBERT را انجام دهید، به حدود 2.5 ترابایت نیاز دارید که بسیار بزرگ است. دلیل آن این است که شما این جاسازی ها را برای هر توکن به صورت جداگانه ذخیره می کنید.

از سوی دیگر، رویکرد chunking دیرهنگام، بهترین های هر دو جهان را به شما می دهد. نه تنها زمینه را در فرآیند تکه تکه سازی نهایی شما حفظ می کند، بلکه تقریباً همان نیازهای ذخیره سازی را به شما ارائه می دهد که رویکرد تکه تکه ساده لوحانه است. این باعث می‌شود که روش تکه‌شکن دیرهنگام در مقایسه با روش‌های تعامل دیرهنگام یا مبتنی بر COBERT، که به میزان قابل توجهی ذخیره‌سازی بیشتری نیاز دارند، راه‌حلی کارآمدتر و کاربردی‌تر باشد.

نتایج

تکه تکه شدن دیرهنگام توسط معرفی شده است جینا، و آنها خود را دارند مدل های تعبیه شده. با توجه به نتایج ارائه شده در جدول، رویکرد تکه تکه شدن دیر هنگام با روش‌های دیگر ترکیب می‌شود، عملکرد امیدوارکننده‌ای را در معیارهای مختلف نشان می‌دهد.

انتخاب مدل تعبیه نقش مهمی ایفا می کند و نتایج ارائه شده در اینجا ممکن است نیاز به اعتبار بیشتر از منابع مستقل داشته باشد.

راهنمای اجرای عملی

افرادی که در پشت این ایده جدید هستند، واقعاً یک ایده را جمع آوری کرده اند دفترچه ساده این نشان می دهد که چگونه می توانید این رویکرد تکه تکه شدن دیرهنگام را در برنامه ها و خطوط لوله خود پیاده سازی کنید. حتی اگر قرار نیست در خود نوت بوک غوطه ور شویم، اجازه دهید ایده ای در مورد نتایج به شما ارائه دهم.

در دفترچه آنها شباهت “برلین” را به عنوان یک نشانه منفرد برای برخی جاسازی ها محاسبه کرده اند. اگر به جمله اول نگاه کنید، که مستقیماً در مورد برلین صحبت می کند و “برلین” را ذکر می کند، خروجی های سنتی و متأخر شباهت های بسیار مشابهی به شما می دهند.

similarity_new → تکه تکه شدن دیرهنگام → 0.849546 می دهد

similarity_trad → Normal Chunking → 0.84862185

similarity_new("Berlin", "Berlin is the capital and largest city of Germany, both by area and by population."): 0.849546
similarity_trad("Berlin", "Berlin is the capital and largest city of Germany, both by area and by population."): 0.84862185

با این حال، در جمله دوم، «بیش از 3.85 میلیون نفر جمعیت آن …» به طور غیرمستقیم به برلین اشاره دارد بدون اینکه مستقیماً به آن اشاره شود. در این مورد، با روش تکه تکه شدن دیره، شباهت 82 ~ است، در حالی که برای روش تکه تکه سازی سنتی، شباهت به 70 ~ کاهش می یابد.

similarity_new("Berlin", " Its more than 3.85 million inhabitants make it the European Union's most populous city, as measured by population within city limits."): 0.82489026
similarity_trad("Berlin", " Its more than 3.85 million inhabitants make it the European Union's most populous city, as measured by population within city limits."): 0.7084338

به طور مشابه، در جمله سوم، که به برلین به عنوان “این شهر” اشاره می کند، شباهت برای رویکرد تکه تکه شدن دیرهنگام (0.84) زیاد است، اما برای رویکرد سنتی chunking (0.75) به طور قابل توجهی کمتر است.

similarity_new("Berlin", " The city is also one of the states of Germany, and is the third smallest state in the country in terms of area."): 0.84980094
similarity_trad("Berlin", " The city is also one of the states of Germany, and is the third smallest state in the country in terms of area."): 0.7534553

اکنون، این یک مثال ساده است، اما اگر تکه‌ها بسیار بزرگ‌تر باشند، در یک رویکرد تکه‌شکن ساده، نسبت به روش تکه‌شکن دیرهنگام که پیشنهاد می‌کنند، اطلاعات قابل توجهی از دست خواهد رفت. نکته دیگری که باید به آن اشاره کرد این است که تکه تکه شدن دیررس دو جهته است. اگر اطلاعات خاصی قبل از یک تکه خاص باشد، همچنان می تواند آن اطلاعات را حفظ کند. از آنجایی که دو طرفه است، با نگاه کردن به کل سند در حین جاسازی، یک قطعه همچنان اطلاعات مربوط به خود را حفظ می کند، صرف نظر از اینکه قبل یا بعد از آن قطعه باشد.

این دو جهته بودن آن را حتی قدرتمندتر می‌کند و نشان می‌دهد که مدل‌های زمینه طولانی هم برای LLMها و هم برای این تعبیه‌ها ضروری هستند.

نتیجه گیری

می‌دانید، پس از بررسی تمام جزئیات و مثال‌های این مقاله، باید بگویم که رویکرد chunking دیرهنگام برای مدل‌های تعبیه‌شده با زمینه طولانی، واقعاً جذاب است و به نظر می‌رسد نویدبخش زیادی دارد.

بینش کلیدی در اینجا این است که روش سنتی جدا کردن اسناد و سپس جاسازی جداگانه هر تکه می تواند منجر به از دست دادن قابل توجهی از زمینه و اطلاعات مهم شود. در عوض با گرفتن کل سند، جاسازی آن ابتدا برای ثبت آن زمینه گسترده، و سپس تکه تکه کردن آن، می توانید جزئیات بیشتری را حفظ کنید.

همانطور که مثال‌ها نشان دادند، وقتی با ارجاعاتی به نهادهایی مانند «برلین» سر و کار دارید که ممکن است به‌طور مستقیم و غیرمستقیم انجام شوند، روش تکه‌شکن دیرهنگام می‌تواند درک بسیار قوی‌تری از معنا را در مقایسه با تکه‌کردن و جاسازی سنتی حفظ کند. خط لوله و این واقعیت که دو جهته است، قادر به کشیدن متن از قبل و بعد از هر قطعه است، آن را حتی قدرتمندتر می کند.

پیوندها

گوگل کولب

ویرایش توضیحات

colab.research.google.com

تکه تکه شدن دیرهنگام در مدل های تعبیه شده با زمینه طولانی

تکه تکه کردن اسناد طولانی با حفظ اطلاعات متنی چالش برانگیز است. ما “تقاطع دیرهنگام” را معرفی می کنیم که…

jina.ai

چه چیزی در اواخر خرد کردن واقعا است و چه چیزی نیست: بخش دوم

بخش 2 از کاوش ما در مورد تکه تکه شدن دیرهنگام، بررسی عمیق در مورد اینکه چرا بهترین روش برای جاسازی تکه ها و…

jina.ai

خرد کردن دیرهنگام: متعادل کردن دقت و هزینه در بازیابی متن طولانی | بافتن

درباره تکه تکه شدن دیرهنگام و اینکه چگونه ممکن است برای متعادل کردن هزینه و عملکرد در زمینه طولانی شما مناسب باشد، بیاموزید…

weaviate.io

معرفی Contextual Retrieval

Anthropic یک شرکت تحقیقاتی و ایمنی هوش مصنوعی است که در تلاش است تا هوش مصنوعی قابل اعتماد، قابل تفسیر و هدایت پذیری را بسازد…

www.anthropic.com

GitHub – jina-ai/late-chunking: کدی برای توضیح و ارزیابی انفصال دیرهنگام (تجمیع تکه تکه شده)

کد توضیح و ارزیابی انشعابات دیرهنگام (تجمیع تکه تکه شده) – jina-ai/late-chunking

github.com

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/late-chunking-in-long-context-embedding-models