نویسنده(ها): نیلش راغوانشی
در ابتدا منتشر شد به سمت هوش مصنوعی.
بهبود سیستماتیک بازیابی نسل افزوده (RAG).
مقدمه
در آخرین مقالهام، دیدیم که در حین ارزیابی مدلهای تعبیهشده چندگانه بر روی دادههای دامنه خاص، huggingface/BAAI/bge-large-en-v1.5 مدل (1024 بعد) عملکرد رقابتی را نشان داد. قابل مقایسه بود لاجوردی/متن-جاسازی-3-بزرگ (3072 ابعاد) و لاجوردی/متن-جاسازی-3-کوچک (1536 ابعاد). چیزی که آن را جالب تر کرد، انعطاف پذیری آن برای تنظیم دقیق داده های دامنه خاص با استفاده از آن بود تبدیل کننده های جمله کتابخانه
انتخاب مدل مناسب برای تنظیم دقیق
همانطور که می دانید، خانواده مدل های BGE در اندازه های مختلف (بزرگ، پایه و کوچک) عرضه می شوند که هر کدام تعداد پارامترها و میزان مصرف حافظه متفاوتی دارند. مدل بزرگ به دلیل تعداد پارامترهای بالا و نیاز به حافظه برای محیطهای با منابع بالا مناسب است، در حالی که مدلهای پایه و کوچک برای سناریوهای با محدودیت منابع کاربردیتر هستند. پس از کاوش اولیه، تصمیم گرفتم به آزمایش های تنظیم دقیق خود با مدل پایه نزدیک شوم BAAI/bge-base-en-v1.5. من مدل پایه را انتخاب کردم زیرا تعادل خوبی بین کارایی منابع و عملکرد ایجاد می کرد و آن را برای منابع محاسباتی موجود مناسب می کرد. مدل پایه دارای 109 میلیون پارامتر با استفاده از 0.41 گیگابایت حافظه و خروجی 768 بعد است. در مقایسه، مدل بزرگ BAAI/bge-large-en-v1.5 دارای 335 میلیون پارامتر، استفاده از 1.25 گیگابایت حافظه و خروجی 1024 بعد. اندازه کوچکتر آن را برای من کاربردی تر کرده است پردازنده گرافیکی (NVIDIA A40 با 48 گیگابایت VRAM)، با توجه به محدودیتهای حافظه، امکان تکرار سریعتر را فراهم میکند.
آموزش نمایندگی ماتریوشکا (MRL)
یکی از ویژگی های قابل توجه از تبدیل کننده های جمله کتابخانه پشتیبانی می شود نمایندگی ماتریوشکا Learning (MRL). MRL کارایی را با توانمندسازی مدلهای تعبیهکننده برای تولید جاسازیها در ابعاد مختلف بدون کاهش قابلتوجه در عملکرد، افزایش میدهد. کاهش اندازه جاسازی، کارایی محاسباتی را بهبود میبخشد و نیاز به حافظه را کاهش میدهد، که به ویژه در هنگام استقرار مدلها در محیطهای با محدودیت منابع مفید است. برای این ارزیابی، من ابعاد تعبیه شده را آزمایش کردم [768, 512, 256, 128, 64]. آخرین نسخه از مدل های تعبیه شده OpenAI لاجوردی/متن-جاسازی-3-بزرگ و لاجوردی/متن-جاسازی-3-کوچک همچنین از MRL پشتیبانی می کند و آن را به منطقه ای هیجان انگیز برای مقایسه تبدیل می کند.
آموزش
اگه یادتون باشه ما فقط استفاده کردیم 20% از مواد مصنوعی تولید شده مجموعه داده برای ارزیابی برای اطمینان از یک نمونه نماینده برای آزمایش در حالی که نیازهای محاسباتی قابل مدیریت است. باقی مانده 80% از مجموعه داده برای تنظیم دقیق مدل تعبیه برای ارائه مقدار کافی رزرو شده است داده های آموزشی و تعمیم مدل را افزایش دهید. برای آموزش از ترکیبی استفاده کردیم Matryoshka Loss و از دست دادن رتبه چندگانه منفی به عنوان تابع ضرر. Matryoshka Loss به یادگیری تعبیهها در جزئیات متعدد کمک میکند. از دست دادن رتبه چندگانه منفی یک تابع ضرر است که مدلها را برای تولید جاسازیهای مشابه برای جفتهای جمله مثبت و جاسازیهای غیرمشابه برای جفتهای منفی بهینه میکند. با ادغام Matryoshka Loss با از دست دادن رتبه چندگانه منفی، می توان مدلی را برای ایجاد جاسازی هایی که هم از نظر ابعادی انعطاف پذیر و هم از نظر معنایی قوی هستند آموزش داد. این ترکیب استفاده از اندازه های تعبیه چندگانه را در عین حفظ عملکرد بالا در کارهایی که نیاز به درک معنایی دقیق دارند، تسهیل می کند. در نهایت استفاده کردیم آدمو بهینه ساز با نرخ یادگیری 2e-5 و آموزش دیده برای 10 دوره ها این تعداد دوره برای ایجاد تعادل بین زمان آموزش و عملکرد مدل انتخاب شد و یادگیری کافی را بدون تطبیق بیش از حد فراهم کرد.
ارزیابی و نتایج
این مدل در مجموعه آموزشی به خوبی تنظیم شد. ما عملکرد آن را تنها با استفاده از پرس و جوهای آزمایشی در برابر کل مجموعه (هم آموزش و هم داده های آزمایشی) با استفاده از آن ارزیابی کردیم InformationRetrievalEvaluator از تبدیل کننده های جمله کتابخانه ارزیابی مدلهای تعبیهشده چندگانه در آخرین مقاله من فقط با استفاده از مجموعه آزمایشی انجام شد. در مرحله بعد، عملکرد مدل پایه را با هم مقایسه می کنیم BAAI/bge-base-en-v1.5 با نسخه جدید تنظیم شده
مقایسه مدل های پایه و تنظیم دقیق
برای تجسم نتایج، مدل های پایه و دقیق را با هم مقایسه کردیم. توجه داشته باشید که مدل پایه از MRL پشتیبانی نمی کند. در تصویرسازی، اولین نوار خاکستری مدل پایه را در ابعاد 768 نشان می دهد، در حالی که میله های سبز نشان دهنده مدل تنظیم شده در ابعاد 768، 512، 256، 128 و 64 است. جالب اینجاست که مدل با تنظیم دقیق در 64 بعد (آخرین نوار سبز رنگ) در تمام معیارها از مدل پایه در ابعاد 768 عملکرد بهتری داشت. مدل تنظیم شده بهترین عملکرد را در ابعاد 512 و 256 داشت که نشان دهنده قدرت MRL است. تنظیم دقیق فقط برای 10 دوره در یک مجموعه داده خاص دامنه منجر به بهبود 8٪ در NDCG@10 شد.
مقایسه با مدل های برتر
در مرحله بعد، مدل دقیق تنظیم شده را با مدل های با عملکرد برتر از آخرین ارزیابی خود مقایسه کردیم. نه تنها مدل تنظیم شده دقیق huggingface/BAAI/ft-bge-base-en-v1.5 512 از بقیه رقبا بهتر عمل کرد، اما مدل برتر را نیز به چالش کشید azure/text-embedding-3-large 3072. در واقع، در برش های بالاتر (3، 5، 10)، مدل دقیق تنظیم شده از لبه ها گذشته است. azure/text-embedding-3-large 3072 اگر معیارها را تا 3 رقم اعشار در نظر بگیرید (در اینجا نشان داده نشده است).
مقایسه منصفانه در ابعاد
برای مقایسه منصفانه، ما همچنین مدل تنظیم شده را در ابعاد 512، 256 و 64 در مقابل ارزیابی کردیم. لاجوردی/متن-جاسازی-3-بزرگ در ابعاد مربوطه در اینجا، مدل دقیق تنظیم شده به عنوان برنده آشکار ظاهر شد لاجوردی/متن-جاسازی-3-بزرگ در 512 بعد رقابتی باقی ماند. با این حال، در 256 و به خصوص در ابعاد 64، عملکرد از لاجوردی/متن-جاسازی-3-بزرگ به میزان قابل توجهی کاهش یافت.
نتیجه گیری
به طور کلی، تلاشهای ما برای تنظیم دقیق نتیجه خوبی داشته است. ما اکنون مدلی داریم که 6 برابر تا 48 برابر کاهش فضای ذخیرهسازی را در مقایسه با مدل با عملکرد برتر از ارزیابیهای قبلی، با عملکرد بهتر در تمام معیارها ارائه میدهد. به عنوان مثال، این کاهش ابعاد و بهبود عملکرد به هزینههای ذخیرهسازی کمتر، زمان جستجوی سریعتر، کاهش استفاده از حافظه و در نهایت کاهش هزینههای کلی منجر میشود، در حالی که عملکرد برتر را ارائه میدهند. در آخرین مقاله از این سری کوتاه، نحوه ارزیابی خط لوله بازیابی و تولید برای تعیین بهینه ترین خط لوله RAG برای برنامه شما را خواهیم دید.
مراجع
[1] مدلهای جاسازی دقیق برای بازیابی نسل افزوده (RAG)
[2] مقدمه ای بر مدل های جاسازی ماتریوشکا
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/fine-tuning-embedding-models-achieving-more-with-less