تنظیم دقیق مدل‌های جاسازی: دستیابی به موارد بیشتر با کمتر

نویسنده(ها): نیلش راغوانشی

در ابتدا منتشر شد به سمت هوش مصنوعی.

بهبود سیستماتیک بازیابی نسل افزوده (RAG).

تنظیم دقیق برای تراز – تصویر ایجاد شده توسط هوش مصنوعی

مقدمه

در آخرین مقاله‌ام، دیدیم که در حین ارزیابی مدل‌های تعبیه‌شده چندگانه بر روی داده‌های دامنه خاص، huggingface/BAAI/bge-large-en-v1.5 مدل (1024 بعد) عملکرد رقابتی را نشان داد. قابل مقایسه بود لاجوردی/متن-جاسازی-3-بزرگ (3072 ابعاد) و لاجوردی/متن-جاسازی-3-کوچک (1536 ابعاد). چیزی که آن را جالب تر کرد، انعطاف پذیری آن برای تنظیم دقیق داده های دامنه خاص با استفاده از آن بود تبدیل کننده های جمله کتابخانه

انتخاب مدل مناسب برای تنظیم دقیق

همانطور که می دانید، خانواده مدل های BGE در اندازه های مختلف (بزرگ، پایه و کوچک) عرضه می شوند که هر کدام تعداد پارامترها و میزان مصرف حافظه متفاوتی دارند. مدل بزرگ به دلیل تعداد پارامترهای بالا و نیاز به حافظه برای محیط‌های با منابع بالا مناسب است، در حالی که مدل‌های پایه و کوچک برای سناریوهای با محدودیت منابع کاربردی‌تر هستند. پس از کاوش اولیه، تصمیم گرفتم به آزمایش های تنظیم دقیق خود با مدل پایه نزدیک شوم BAAI/bge-base-en-v1.5. من مدل پایه را انتخاب کردم زیرا تعادل خوبی بین کارایی منابع و عملکرد ایجاد می کرد و آن را برای منابع محاسباتی موجود مناسب می کرد. مدل پایه دارای 109 میلیون پارامتر با استفاده از 0.41 گیگابایت حافظه و خروجی 768 بعد است. در مقایسه، مدل بزرگ BAAI/bge-large-en-v1.5 دارای 335 میلیون پارامتر، استفاده از 1.25 گیگابایت حافظه و خروجی 1024 بعد. اندازه کوچکتر آن را برای من کاربردی تر کرده است پردازنده گرافیکی (NVIDIA A40 با 48 گیگابایت VRAM)، با توجه به محدودیت‌های حافظه، امکان تکرار سریع‌تر را فراهم می‌کند.

آموزش نمایندگی ماتریوشکا (MRL)

یکی از ویژگی های قابل توجه از تبدیل کننده های جمله کتابخانه پشتیبانی می شود نمایندگی ماتریوشکا Learning (MRL). MRL کارایی را با توانمندسازی مدل‌های تعبیه‌کننده برای تولید جاسازی‌ها در ابعاد مختلف بدون کاهش قابل‌توجه در عملکرد، افزایش می‌دهد. کاهش اندازه جاسازی، کارایی محاسباتی را بهبود می‌بخشد و نیاز به حافظه را کاهش می‌دهد، که به ویژه در هنگام استقرار مدل‌ها در محیط‌های با محدودیت منابع مفید است. برای این ارزیابی، من ابعاد تعبیه شده را آزمایش کردم [768, 512, 256, 128, 64]. آخرین نسخه از مدل های تعبیه شده OpenAI لاجوردی/متن-جاسازی-3-بزرگ و لاجوردی/متن-جاسازی-3-کوچک همچنین از MRL پشتیبانی می کند و آن را به منطقه ای هیجان انگیز برای مقایسه تبدیل می کند.

آموزش

اگه یادتون باشه ما فقط استفاده کردیم 20% از مواد مصنوعی تولید شده مجموعه داده برای ارزیابی برای اطمینان از یک نمونه نماینده برای آزمایش در حالی که نیازهای محاسباتی قابل مدیریت است. باقی مانده 80% از مجموعه داده برای تنظیم دقیق مدل تعبیه برای ارائه مقدار کافی رزرو شده است داده های آموزشی و تعمیم مدل را افزایش دهید. برای آموزش از ترکیبی استفاده کردیم Matryoshka Loss و از دست دادن رتبه چندگانه منفی به عنوان تابع ضرر. Matryoshka Loss به یادگیری تعبیه‌ها در جزئیات متعدد کمک می‌کند. از دست دادن رتبه چندگانه منفی یک تابع ضرر است که مدل‌ها را برای تولید جاسازی‌های مشابه برای جفت‌های جمله مثبت و جاسازی‌های غیرمشابه برای جفت‌های منفی بهینه می‌کند. با ادغام Matryoshka Loss با از دست دادن رتبه چندگانه منفی، می توان مدلی را برای ایجاد جاسازی هایی که هم از نظر ابعادی انعطاف پذیر و هم از نظر معنایی قوی هستند آموزش داد. این ترکیب استفاده از اندازه های تعبیه چندگانه را در عین حفظ عملکرد بالا در کارهایی که نیاز به درک معنایی دقیق دارند، تسهیل می کند. در نهایت استفاده کردیم آدمو بهینه ساز با نرخ یادگیری 2e-5 و آموزش دیده برای 10 دوره ها این تعداد دوره برای ایجاد تعادل بین زمان آموزش و عملکرد مدل انتخاب شد و یادگیری کافی را بدون تطبیق بیش از حد فراهم کرد.

ارزیابی و نتایج

این مدل در مجموعه آموزشی به خوبی تنظیم شد. ما عملکرد آن را تنها با استفاده از پرس و جوهای آزمایشی در برابر کل مجموعه (هم آموزش و هم داده های آزمایشی) با استفاده از آن ارزیابی کردیم InformationRetrievalEvaluator از تبدیل کننده های جمله کتابخانه ارزیابی مدل‌های تعبیه‌شده چندگانه در آخرین مقاله من فقط با استفاده از مجموعه آزمایشی انجام شد. در مرحله بعد، عملکرد مدل پایه را با هم مقایسه می کنیم BAAI/bge-base-en-v1.5 با نسخه جدید تنظیم شده

مقایسه مدل های پایه و تنظیم دقیق

برای تجسم نتایج، مدل های پایه و دقیق را با هم مقایسه کردیم. توجه داشته باشید که مدل پایه از MRL پشتیبانی نمی کند. در تصویرسازی، اولین نوار خاکستری مدل پایه را در ابعاد 768 نشان می دهد، در حالی که میله های سبز نشان دهنده مدل تنظیم شده در ابعاد 768، 512، 256، 128 و 64 است. جالب اینجاست که مدل با تنظیم دقیق در 64 بعد (آخرین نوار سبز رنگ) در تمام معیارها از مدل پایه در ابعاد 768 عملکرد بهتری داشت. مدل تنظیم شده بهترین عملکرد را در ابعاد 512 و 256 داشت که نشان دهنده قدرت MRL است. تنظیم دقیق فقط برای 10 دوره در یک مجموعه داده خاص دامنه منجر به بهبود 8٪ در NDCG@10 شد.

مقایسه با مدل های برتر

در مرحله بعد، مدل دقیق تنظیم شده را با مدل های با عملکرد برتر از آخرین ارزیابی خود مقایسه کردیم. نه تنها مدل تنظیم شده دقیق huggingface/BAAI/ft-bge-base-en-v1.5 512 از بقیه رقبا بهتر عمل کرد، اما مدل برتر را نیز به چالش کشید azure/text-embedding-3-large 3072. در واقع، در برش های بالاتر (3، 5، 10)، مدل دقیق تنظیم شده از لبه ها گذشته است. azure/text-embedding-3-large 3072 اگر معیارها را تا 3 رقم اعشار در نظر بگیرید (در اینجا نشان داده نشده است).

مقایسه منصفانه در ابعاد

برای مقایسه منصفانه، ما همچنین مدل تنظیم شده را در ابعاد 512، 256 و 64 در مقابل ارزیابی کردیم. لاجوردی/متن-جاسازی-3-بزرگ در ابعاد مربوطه در اینجا، مدل دقیق تنظیم شده به عنوان برنده آشکار ظاهر شد لاجوردی/متن-جاسازی-3-بزرگ در 512 بعد رقابتی باقی ماند. با این حال، در 256 و به خصوص در ابعاد 64، عملکرد از لاجوردی/متن-جاسازی-3-بزرگ به میزان قابل توجهی کاهش یافت.

نتیجه گیری

به طور کلی، تلاش‌های ما برای تنظیم دقیق نتیجه خوبی داشته است. ما اکنون مدلی داریم که 6 برابر تا 48 برابر کاهش فضای ذخیره‌سازی را در مقایسه با مدل با عملکرد برتر از ارزیابی‌های قبلی، با عملکرد بهتر در تمام معیارها ارائه می‌دهد. به عنوان مثال، این کاهش ابعاد و بهبود عملکرد به هزینه‌های ذخیره‌سازی کمتر، زمان جستجوی سریع‌تر، کاهش استفاده از حافظه و در نهایت کاهش هزینه‌های کلی منجر می‌شود، در حالی که عملکرد برتر را ارائه می‌دهند. در آخرین مقاله از این سری کوتاه، نحوه ارزیابی خط لوله بازیابی و تولید برای تعیین بهینه ترین خط لوله RAG برای برنامه شما را خواهیم دید.

مراجع

[1] مدل‌های جاسازی دقیق برای بازیابی نسل افزوده (RAG)

[2] مقدمه ای بر مدل های جاسازی ماتریوشکا

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/fine-tuning-embedding-models-achieving-more-with-less