نویسنده (ها): نهدی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
این مقاله پنجمین قسمت از سری Deepseek ما و اولین موردی است که به طور خاص روش آموزش Deepseek-V3 را برجسته می کند [1, 2]بشر
همانطور که در شکل زیر نشان داده شده است ، Deepseek-V3 یک فرآیند آموزش چند مرحله ای را انجام می دهد ، از جمله
یک مرحله اولیه قبل از آموزش که منجر به Deepseek-V3-Base می شود. شروع از Deepseek-V3-Base ، Deepseek-R1-Zero و Deepseek-R1 با استفاده از یادگیری تقویت کننده در مقیاس بزرگ آموزش داده می شود ، سناریوها را با و بدون سرپرستی به عنوان یک مرحله سرد شروع می کنند. که توسط یک مرحله RL اضافی دنبال می شود که در شکل نشان داده نشده است.
به طور خاص ، این مقاله به مرحله قبل از آموزش که Deepseek-V3-Base تولید می کند ، می پردازد ، و جزئیات تکنیک های کلیدی استفاده شده برای اطمینان از قبل از آموزش مؤثر و هم کارآمد است.
پس از آن ، ما موضوعات اضافی مانند بهینه سازی سیاست نسبی گروهی (GRPO) را پوشش خواهیم داد [7]، فرآیندهای آموزش Deepseek-R1-Zero و Deepseek-R1 ، و در نهایت دوباره مرحله پس از آموزش Deepseek-V3 را مجدداً مورد بررسی قرار می دهد ، که شامل مرحله Finetuning تحت نظارت و مرحله RL است.
فهرست مطالب این مقاله:
سابقه و هدف: تکنیک های کلیدی مورد استفاده در مرحله قبل از آموزش Deepseek-V3 ، از جمله بسته بندی اسناد ، پر کردن میانه و زمینه طولانی را معرفی کنید. آموزش آموزش: ساخت و سازهای پیش از اینداده های آموزش، تأکید کنید وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/artificial-intelligence/deepseek-explained-part-5-deepseek-v3-base