نویسنده(های): خسوس رودریگز
در ابتدا منتشر شد به سمت هوش مصنوعی.
من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:
TheSequence | خسوس رودریگز | زیر پشته
بهترین منبع برای بهروز ماندن با پیشرفتهای یادگیری ماشین، هوش مصنوعی و دادهها…
thesequence.substack.com
اغلب ما شاهد انتشار در هوش مصنوعی مولد که واقعا تخیل مردم را به چالش می کشد. این DeepSeek-R1، جدیدترین مدل آزمایشگاه معروف چینی است که به استدلال می پردازد. یکی از تزهای استدلال غالب در بازار این است که ویژگی نوظهور قوانین مقیاس بندی است. به عبارت دیگر، برای به دست آوردن استدلال به مدل های بزرگ نیاز دارید. DeepSeek-R1 با استفاده از یک فرآیند بسیار هوشمندانه پس از آموزش، رسیدن به استدلال را به چالش می کشد. این مدل قادر است عملکرد GPT-o1 را با کسری از هزینه محاسبه مطابقت دهد. کاملا شگفت انگیز.
بیایید شیرجه بزنیم:
مقدمه ای بر DeepSeek-R1 و انگیزه آن
زمینه از مدل های زبان بزرگ (LLMs) پیشرفت قابل توجهی داشته است، اما دستیابی به قابلیت های استدلال قوی همچنان یک چالش مهم است. بسیاری از مدلها بر تنظیم دقیق نظارت شده (SFT) متکی هستند، که میتواند از نظر محاسباتی گران باشد و ممکن است پتانسیل یک مدل برای بهبود خود را به طور کامل باز نکند. DeepSeek-R1 و پیشرو آن، DeepSeek-R1-Zero، نشان دهنده انحراف از این پارادایم است و قدرت یادگیری تقویتی (RL) را برای توسعه و افزایش قابلیت های استدلال در LLM ها بررسی می کند. این مقاله به جزئیات فنی معماری و فرآیند آموزشی DeepSeek-R1 می پردازد و نوآوری ها و مشارکت های کلیدی را برجسته می کند.
توسعه DeepSeek-R1 با هدف بررسی پتانسیل LLM ها برای توسعه مهارت های استدلال بدون تکیه بر پایه داده های نظارت شده انجام شد. تحقیق با ایده RL خالص شروع شد تا به مدل اجازه تکامل خود را بدهد. این رویکرد منجر به DeepSeek-R1-Zero شد، مدلی که امکان تشویق قابلیتهای استدلال صرفاً از طریق RL را نشان داد. DeepSeek-R1 برای رسیدگی به مسائل مربوط به خوانایی ضعیف و ترکیب زبان مشاهده شده در DeepSeek-R1-Zero ایجاد شد، در حالی که عملکرد استدلال را بیشتر بهبود بخشید. DeepSeek-R1 شامل آموزش چند مرحله ای و رویکرد داده شروع سرد قبل از RL است. هدف پروژه DeepSeek ایجاد مدل های بهتر و به اشتراک گذاری آنها با جامعه تحقیقاتی است.
DeepSeek-R1-Zero: یک رویکرد یادگیری تقویتی خالص
DeepSeek-R1-Zero به عنوان یک مدل آموزش دیده از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون هیچ گونه تنظیم دقیق نظارت شده قبلی (SFT) برجسته است. هدف این رویکرد بررسی ظرفیت مدل برای تکامل خود در استدلال بود.
- الگوریتم یادگیری تقویتی: DeepSeek-R1-Zero استفاده می کند بهینه سازی خط مشی نسبی گروه (GRPO). GRPO یک روش مقرون به صرفه RL است که استفاده از یک مدل انتقادی را حذف می کند و در عوض خط پایه را از امتیازات گروه تخمین می زند. با یک سوال q، GRPO گروهی از خروجی ها را از خط مشی قدیمی نمونه برداری می کند و خط مشی را با حداکثر کردن یک تابع هدف تعریف شده بهینه می کند. تابع هدف شامل یک عبارت مزیتی است که با استفاده از پاداشهای خروجی گروه محاسبه میشود و یک عبارت واگرایی Kullback-Leibler (KL) که تضمین میکند بهروزرسانیهای خطمشی خیلی بزرگ نیستند.
- مدل سازی پاداش: سیستم پاداش برای DeepSeek-R1-Zero بر دقت و قالب تمرکز دارد.
- پاداش دقت ارزیابی صحت پاسخ ها به عنوان مثال، مسائل ریاضی نیاز به پاسخ دقیق در یک قالب خاص دارند که امکان تأیید مبتنی بر قانون را فراهم می کند.
- جوایز را قالب بندی کنید گنجاندن فرآیند تفکر مدل را در داخل اجرا کنید
و برچسب ها - قابل ذکر است، DeepSeek-R1-Zero از مدلهای پاداش عصبی مبتنی بر فرآیند یا نتیجه استفاده نمیکند.
- قالب آموزشی: یک الگوی ساده مدل را برای تولید یک فرآیند استدلال و سپس پاسخ نهایی راهنمایی می کند. این الگو به گونهای طراحی شده است که عاری از سوگیریهای محتوایی خاص برای مشاهده پیشرفت طبیعی مدل در طول RL باشد.
DeepSeek-R1-Zero در طول آموزش پیشرفت های قابل توجهی را در معیار AIME 2024 نشان داد و از 15.6% به 71.0% pass@1 رسید که با O1-0912 OpenAI قابل مقایسه است. با رای اکثریت، امتیاز آن به 86.7 درصد افزایش یافت. این مدل همچنین تکامل خود را با افزایش زمان تفکر (طول پاسخ) با پیشرفت آموزش نشان داد و راهبردهای پیچیده تری برای حل مسئله مانند تأمل و کاوش در رویکردهای جایگزین را ممکن ساخت. این مدل همچنین یک “لحظه آها” را به نمایش گذاشت، جایی که یاد گرفت با اختصاص زمان تفکر بیشتر در رویکرد اولیه خود تجدید نظر کند.
DeepSeek-R1: شامل داده های شروع سرد و آموزش چند مرحله ای
در حالی که DeepSeek-R1-Zero پتانسیل RL خالص را نشان داد، از مشکلاتی مانند خوانایی ضعیف و ترکیب زبان رنج می برد. DeepSeek-R1 برای رسیدگی به این مسائل و بهبود بیشتر عملکرد از طریق یک خط لوله آموزشی چند مرحله ای که مقدار کمی از داده های “شروع سرد” را در بر می گیرد، توسعه داده شد.
- شروع سرد داده ها: DeepSeek-R1 بر روی هزاران مثال طولانی زنجیره فکری (CoT) قبل از آموزش RL تنظیم شده است، که به عنوان “شروع سرد“. این نمونهها با استفاده از روشهایی از جمله اعلان چند شات با CoTهای طولانی، مدلهایی که مستقیماً مدلها را برای پاسخهای دقیق با بازتاب و راستیآزمایی تحریک میکنند، پالایش خروجیهای DeepSeek-R1-Zero و پس پردازش توسط حاشیهنویسهای انسانی جمعآوری میشوند. این دادههای شروع سرد با استفاده از یک قالب خروجی قابل خواندن که شامل خلاصهای در پایان هر پاسخ است و پاسخهایی که کاربر پسند نیستند را فیلتر میکند، به خوانایی آدرس کمک میکند.
- فرمت خروجی به صورت |special_token| تعریف می شود
|special_token|، با فرآیند استدلال CoT برای پرس و جو و خلاصه نتایج استدلال است. - یادگیری تقویتی استدلال گرا: پس از تنظیم دقیق دادههای شروع سرد، DeepSeek-R1 مشابه DeepSeek-R1-Zero تحت آموزش RL در مقیاس بزرگ قرار میگیرد. این مرحله بر تقویت قابلیتهای استدلال برای کارهای کدنویسی، ریاضی، علوم و استدلال منطقی تمرکز دارد. یک پاداش سازگاری زبان برای کاهش اختلاط زبان در طول آموزش RL معرفی شد، اگرچه آزمایشهای ابلیشن نشان میدهند که پاداش منجر به کاهش عملکرد کوچک میشود.
- نمونه گیری رد و تنظیم دقیق نظارت شده: پس از رسیدن به همگرایی در فرآیند RL استدلال محور، داده های SFT از طریق نمونه گیری رد با استفاده از ایست بازرسی RL، همراه با داده های نظارت شده از DeepSeek-V3 در زمینه هایی مانند نوشتن و QA واقعی تولید می شوند. داده ها فراتر از ارزیابی پاداش مبتنی بر قانون با ترکیب یک مدل پاداش مولد با استفاده از DeepSeek-V3 برای قضاوت در مورد حقیقت پایه و پیش بینی های مدل گسترش می یابد. دادههای غیر استدلالی نیز از DeepSeek-V3 برای افزایش قابلیتهای کلی مدل گنجانده شد.
- یادگیری تقویتی برای همه سناریوها: مرحله دوم RL مدل را با ترجیحات انسانی هماهنگ می کند و بر مفید بودن و بی ضرر بودن تمرکز دارد. پاداشهای مبتنی بر قانون برای دادههای استدلالی استفاده میشوند، در حالی که مدلهای پاداش ترجیحات را در دادههای کلی میگیرند.
تقطیر و ارزیابی
قابلیت های استدلال DeepSeek-R1 نیز از طریق تقطیر به مدل های کوچکتر و کارآمدتر منتقل شد.
- فرآیند تقطیر: مدلهای منبع باز مانند Qwen و Llama مستقیماً با استفاده از 800 هزار نمونه از DeepSeek-R1 تنظیم شدند. این رویکرد در بهبود توانایی های استدلال مدل های کوچکتر موثر است. مدل های پایه مورد استفاده عبارتند از Qwen2.5-Math-1.5B، Qwen2.5-Math-7B، Qwen2.5–14B، Qwen2.5–32B، Llama-3.1–8B، و Llama-3.3–70B-Instruct. فقط SFT برای مدل های مقطر اعمال می شود، بدون مرحله RL.
- معیارها و معیارهای ارزیابی: مدل ها بر اساس طیف وسیعی از معیارها از جمله MMLU، MMLU-Redux، MMLU-Pro، C-Eval، CMMLU، IFEval، FRAMES، GPQA Diamond، SimpleQA، SWE-Bench Verified، Aider، LiveCodeBench، Codeforces، دبیرستان ملی چین ارزیابی می شوند. المپیاد ریاضی (CNMO 2024) و دعوتنامه آمریکایی امتحان ریاضی 2024 (AIME 2024). علاوه بر این، وظایف نسل باز با استفاده از LLM ها، به ویژه AlpacaEval 2.0 و Arena-Hard مورد قضاوت قرار می گیرند. اعلانهای ارزیابی از راهاندازی در DeepSeek-V3 با استفاده از چارچوب simple-evals یا پروتکلهای اصلی آنها پیروی میکنند.
- یافته های کلیدی: DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در طیف وسیعی از وظایف دست می یابد. این عملکرد برتر در سؤالات مربوط به STEM را در مقایسه با DeepSeek-V3 نشان می دهد، که اثربخشی یادگیری تقویتی در مقیاس بزرگ را نشان می دهد. DeepSeek-R1 همچنین قابلیت های قوی تجزیه و تحلیل اسناد و همچنین توانایی های پرس و جو مبتنی بر واقعیت را نشان می دهد. این مدل همچنین در نوشتن وظایف و پاسخگویی به سؤالات دامنه باز برتری دارد. در کارهای ریاضی، DeepSeek-R1 با OpenAI-o1-1217 قابل مقایسه است. مدلهای مقطر پیشرفتهای قابلتوجهی را نشان میدهند، به طوری که DeepSeek-R1-7B بهتر از GPT-4o-0513 عمل میکند. علاوه بر این، DeepSeek-R1-14B در تمام معیارها از QwQ-32B-Preview پیشی گرفت. مدل های تقطیر شده 32B و 70B به طور قابل توجهی عملکرد بهتری از o1-mini در اکثر معیارها داشتند که اثربخشی تقطیر را برجسته می کند.
مشارکت های کلیدی، بحث، و جهت گیری های آینده
توسعه DeepSeek-R1 چندین مشارکت کلیدی را برجسته می کند:
- RL خالص برای استدلال: تایید میکند که قابلیتهای استدلال در LLMها را میتوان صرفاً از طریق RL و بدون نیاز به SFT تشویق کرد.
- خط لوله آموزشی چند مرحله ای موثر RL: این رویکرد دو مرحله RL و دو مرحله SFT را برای بهبود الگوهای استدلال و همسویی با ترجیحات انسانی ترکیب می کند.
- تقطیر استدلال: DeepSeek-R1 نشان میدهد که الگوهای استدلال از مدلهای بزرگتر را میتوان به مدلهای کوچکتر تقطیر کرد و عملکرد بهتری را به همراه داشت.
مقاله R1 همچنین برخی از تلاشهای ناموفق از جمله مدل پاداش فرآیند (PRM) و مونت کارلو جستجوی درخت (MCTS).
- مدل پاداش فرآیند (PRM) مشخص شد که دارای محدودیت هایی مانند مشکل در تعریف گام های ریز در استدلال کلی، ارزیابی چالش برانگیز مراحل میانی و پاداش است. هک کردن.
- مونت کارلو جستجوی درخت (MCTS) به دلیل فضای جستجوی نمایی بزرگ و چالش آموزش یک مدل ارزش ریز دانه برای تولید توکن با مشکلاتی مواجه شد.
مسیرهای تحقیقاتی آتی عبارتند از:
- افزایش توانمندی عمومی: گسترش توانایی های DeepSeek-R1 در فراخوانی تابع، تعاملات چند نوبتی، نقش آفرینی پیچیده و خروجی JSON.
- کاهش اختلاط زبان: رسیدگی به مسائل مربوط به اختلاط زبان هنگام رسیدگی به پرسشها به زبانهایی غیر از انگلیسی و چینی.
- مهندسی سریع: بهبود استحکام مدل در برابر تغییرات در اعلانها، فراتر از حساسیت آن به درخواست چند عکس.
- وظایف مهندسی نرم افزار: گسترش RL به وظایف مهندسی نرم افزار با اجرای نمونه گیری رد یا ارزیابی های ناهمزمان برای بهبود کارایی.
نتیجه گیری
DeepSeek-R1 نشان دهنده پیشرفت قابل توجهی در توسعه LLM با قابلیت های استدلالی پیشرفته است. DeepSeek-R1 با به کارگیری تکنیک های نوآورانه یادگیری تقویتی، یک خط لوله آموزشی چند مرحله ای و روش های تقطیر موثر، نه تنها به عملکرد چشمگیری دست می یابد، بلکه بینش های ارزشمندی را در مورد پتانسیل تکامل خود و انتقال دانش در هوش مصنوعی ارائه می دهد. منبع باز DeepSeek-R1 و مدل های تقطیر شده آن به طور قابل توجهی به جامعه تحقیقاتی کمک می کند و امکان پیشرفت های بیشتر در این زمینه را فراهم می کند.
منتشر شده از طریق به سمت هوش مصنوعی