Deepseek قسمت 5 را توضیح داد: Deepseek-V3-Base


نویسنده (ها): نهدی

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

vegapunk №05 یک شخصیت یک قطعه تولید شده با chatgpt

این مقاله پنجمین قسمت از سری Deepseek ما و اولین موردی است که به طور خاص روش آموزش Deepseek-V3 را برجسته می کند [1, 2]بشر

همانطور که در شکل زیر نشان داده شده است ، Deepseek-V3 یک فرآیند آموزش چند مرحله ای را انجام می دهد ، از جمله

یک مرحله اولیه قبل از آموزش که منجر به Deepseek-V3-Base می شود. شروع از Deepseek-V3-Base ، Deepseek-R1-Zero و Deepseek-R1 با استفاده از یادگیری تقویت کننده در مقیاس بزرگ آموزش داده می شود ، سناریوها را با و بدون سرپرستی به عنوان یک مرحله سرد شروع می کنند. که توسط یک مرحله RL اضافی دنبال می شود که در شکل نشان داده نشده است.شکل 1. گردش کار آموزش Deepseek-V3. تصویر توسط نویسنده.

به طور خاص ، این مقاله به مرحله قبل از آموزش که Deepseek-V3-Base تولید می کند ، می پردازد ، و جزئیات تکنیک های کلیدی استفاده شده برای اطمینان از قبل از آموزش مؤثر و هم کارآمد است.

پس از آن ، ما موضوعات اضافی مانند بهینه سازی سیاست نسبی گروهی (GRPO) را پوشش خواهیم داد [7]، فرآیندهای آموزش Deepseek-R1-Zero و Deepseek-R1 ، و در نهایت دوباره مرحله پس از آموزش Deepseek-V3 را مجدداً مورد بررسی قرار می دهد ، که شامل مرحله Finetuning تحت نظارت و مرحله RL است.

فهرست مطالب این مقاله:

سابقه و هدف: تکنیک های کلیدی مورد استفاده در مرحله قبل از آموزش Deepseek-V3 ، از جمله بسته بندی اسناد ، پر کردن میانه و زمینه طولانی را معرفی کنید. آموزش آموزش: ساخت و سازهای پیش از اینداده های آموزش، تأکید کنید وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/deepseek-explained-part-5-deepseek-v3-base