نویسنده(های): ریچارد وارپام
در ابتدا منتشر شد به سمت هوش مصنوعی.
شیرجه عمیق به “SCoRe” (از یک مقاله تحقیقاتی که دوست داشتم، از سپتامبر 2024)
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
ما آگاه هستیم که در زمانهای اخیر، مدلهای زبان بزرگ (LLM) نحوه تعامل ما با فناوری را کاملاً تغییر دادهاند و برنامههای کاربردی را در پردازش زبان طبیعی، کدنویسی و استدلال.
با این حال، یک چالش مهم، توانایی این مدلها در اصلاح اشتباهات خود است.
این مقاله یک رویکرد پیشگامانه به نام SCoRe (اصلاح خود از طریق یادگیری تقویت چند چرخشی) را بررسی می کند که قابلیت های خود اصلاحی LLM ها را افزایش می دهد.
ما مفاهیم کلیدی، یافته ها و پیامدهای این تحقیق را به روشی ساده بیان خواهیم کرد. اگر میخواهید مقاله کامل را بخوانید، این مقاله تحقیقاتی است.
خود تصحیح به توانایی یک مدل برای شناسایی و اصلاح خطاهای خود در طول فرآیند تولید پاسخ اشاره دارد. این قابلیت برای کارهایی که نیاز به استدلال دارند، مانند حل مسائل ریاضی یا نوشتن کد بسیار مهم است.
LLM های سنتی اغلب با اصلاح خود دست و پنجه نرم می کنند، به خصوص زمانی که فاقد بازخورد یا راهنمایی خارجی هستند.
به این ترتیب یک LLM استاندارد آموزش داده می شود.
این محدودیت میتواند منجر به پاسخهای نادرست یا غیربهینه شود، که یک مانع مهم در به کارگیری این مدلها در برنامههای کاربردی دنیای واقعی است.
SCoRe روشی را برای آموزش LLM ها برای اصلاح خود با استفاده از چارچوب یادگیری تقویتی چند نوبتی (RL) معرفی می کند.
برخلاف رویکردهای قبلی که بر تنظیم دقیق نظارت شده (SFT) متکی بودند… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی