چگونه می توان خود اصلاحی در مدل های زبان بزرگ (LLM) را بهبود بخشید


نویسنده(های): ریچارد وارپام

در ابتدا منتشر شد به سمت هوش مصنوعی.

شیرجه عمیق به “SCoRe” (از یک مقاله تحقیقاتی که دوست داشتم، از سپتامبر 2024)

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

ما آگاه هستیم که در زمان‌های اخیر، مدل‌های زبان بزرگ (LLM) نحوه تعامل ما با فناوری را کاملاً تغییر داده‌اند و برنامه‌های کاربردی را در پردازش زبان طبیعی، کدنویسی و استدلال.

با این حال، یک چالش مهم، توانایی این مدل‌ها در اصلاح اشتباهات خود است.

این مقاله یک رویکرد پیشگامانه به نام SCoRe (اصلاح خود از طریق یادگیری تقویت چند چرخشی) را بررسی می کند که قابلیت های خود اصلاحی LLM ها را افزایش می دهد.

ما مفاهیم کلیدی، یافته ها و پیامدهای این تحقیق را به روشی ساده بیان خواهیم کرد. اگر می‌خواهید مقاله کامل را بخوانید، این مقاله تحقیقاتی است.

خود تصحیح به توانایی یک مدل برای شناسایی و اصلاح خطاهای خود در طول فرآیند تولید پاسخ اشاره دارد. این قابلیت برای کارهایی که نیاز به استدلال دارند، مانند حل مسائل ریاضی یا نوشتن کد بسیار مهم است.

LLM های سنتی اغلب با اصلاح خود دست و پنجه نرم می کنند، به خصوص زمانی که فاقد بازخورد یا راهنمایی خارجی هستند.

به این ترتیب یک LLM استاندارد آموزش داده می شود.

منبع: مقاله پژوهشی

این محدودیت می‌تواند منجر به پاسخ‌های نادرست یا غیربهینه شود، که یک مانع مهم در به کارگیری این مدل‌ها در برنامه‌های کاربردی دنیای واقعی است.

SCoRe روشی را برای آموزش LLM ها برای اصلاح خود با استفاده از چارچوب یادگیری تقویتی چند نوبتی (RL) معرفی می کند.

برخلاف رویکردهای قبلی که بر تنظیم دقیق نظارت شده (SFT) متکی بودند… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/data-science/how-self-correction-in-large-language-modelsllms-can-be-improved

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *