نویسنده(های): گانش باجاج
در ابتدا منتشر شد به سمت هوش مصنوعی.
![]()
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
یادگیری تقویتی از بازخورد انسانی (RLHF) اجازه می دهد LLMs به طور مستقیم از بازخورد دریافت شده در تولید پاسخ خود بیاموزد. . با گنجاندن ترجیحات انسانی در فرآیند آموزش، RLHF امکان توسعه را فراهم می کند LLMs که بیشتر با نیازها و ارزش های کاربر همسو هستند.
این مقاله در مورد مفاهیم اصلی RLHF، مراحل اجرای آن، چالشها و تکنیکهای پیشرفته مانند هوش مصنوعی است.
تصویر برگرفته از Deeplearning.ai: هوش مصنوعی مولد با LLM courseAgent: LLM به عنوان عاملی عمل می کند که
شغل تولید متن است. هدف آن به حداکثر رساندن همسویی نسل آن با ترجیحات انسانی مانند مفید بودن، دقت، مرتبط بودن و غیرسمی است. state زمینه فعلی در پنجره زمینه است که مدل در نظر می گیرد تا توکن/عمل بعدی را ایجاد کند. این شامل اعلان و متن تولید شده تا نقطه فعلی است. اقدام: عمل LLM یک نشانه (کلمه، زیر کلمه یا کاراکتر) را از واژگان خود ایجاد می کند. فضای عمل: فضای عمل شامل کل واژگان است. LLM. LLM توکن بعدی را برای تولید از این واژگان انتخاب می کند. اندازه…
وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/l/fine-tuning-llms-with-reinforcement-learning-from-human-feedback-rlhf