Inside DeepSeek-R1: مدل شگفت انگیزی که با GPT-o1 در استدلال با کسری از هزینه مطابقت دارد


نویسنده(های): خسوس رودریگز

در ابتدا منتشر شد به سمت هوش مصنوعی.

ایجاد شده با استفاده از Midjourney

من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:

TheSequence | خسوس رودریگز | زیر پشته

بهترین منبع برای به‌روز ماندن با پیشرفت‌های یادگیری ماشین، هوش مصنوعی و داده‌ها…

thesequence.substack.com

اغلب ما شاهد انتشار در هوش مصنوعی مولد که واقعا تخیل مردم را به چالش می کشد. این DeepSeek-R1، جدیدترین مدل آزمایشگاه معروف چینی است که به استدلال می پردازد. یکی از تزهای استدلال غالب در بازار این است که ویژگی نوظهور قوانین مقیاس بندی است. به عبارت دیگر، برای به دست آوردن استدلال به مدل های بزرگ نیاز دارید. DeepSeek-R1 با استفاده از یک فرآیند بسیار هوشمندانه پس از آموزش، رسیدن به استدلال را به چالش می کشد. این مدل قادر است عملکرد GPT-o1 را با کسری از هزینه محاسبه مطابقت دهد. کاملا شگفت انگیز.

اعتبار تصویر: DeepSeek

بیایید شیرجه بزنیم:

مقدمه ای بر DeepSeek-R1 و انگیزه آن

زمینه از مدل های زبان بزرگ (LLMs) پیشرفت قابل توجهی داشته است، اما دستیابی به قابلیت های استدلال قوی همچنان یک چالش مهم است. بسیاری از مدل‌ها بر تنظیم دقیق نظارت شده (SFT) متکی هستند، که می‌تواند از نظر محاسباتی گران باشد و ممکن است پتانسیل یک مدل برای بهبود خود را به طور کامل باز نکند. DeepSeek-R1 و پیشرو آن، DeepSeek-R1-Zero، نشان دهنده انحراف از این پارادایم است و قدرت یادگیری تقویتی (RL) را برای توسعه و افزایش قابلیت های استدلال در LLM ها بررسی می کند. این مقاله به جزئیات فنی معماری و فرآیند آموزشی DeepSeek-R1 می پردازد و نوآوری ها و مشارکت های کلیدی را برجسته می کند.

توسعه DeepSeek-R1 با هدف بررسی پتانسیل LLM ها برای توسعه مهارت های استدلال بدون تکیه بر پایه داده های نظارت شده انجام شد. تحقیق با ایده RL خالص شروع شد تا به مدل اجازه تکامل خود را بدهد. این رویکرد منجر به DeepSeek-R1-Zero شد، مدلی که امکان تشویق قابلیت‌های استدلال صرفاً از طریق RL را نشان داد. DeepSeek-R1 برای رسیدگی به مسائل مربوط به خوانایی ضعیف و ترکیب زبان مشاهده شده در DeepSeek-R1-Zero ایجاد شد، در حالی که عملکرد استدلال را بیشتر بهبود بخشید. DeepSeek-R1 شامل آموزش چند مرحله ای و رویکرد داده شروع سرد قبل از RL است. هدف پروژه DeepSeek ایجاد مدل های بهتر و به اشتراک گذاری آنها با جامعه تحقیقاتی است.

DeepSeek-R1-Zero: یک رویکرد یادگیری تقویتی خالص

DeepSeek-R1-Zero به عنوان یک مدل آموزش دیده از طریق یادگیری تقویتی در مقیاس بزرگ (RL) بدون هیچ گونه تنظیم دقیق نظارت شده قبلی (SFT) برجسته است. هدف این رویکرد بررسی ظرفیت مدل برای تکامل خود در استدلال بود.

  • الگوریتم یادگیری تقویتی: DeepSeek-R1-Zero استفاده می کند بهینه سازی خط مشی نسبی گروه (GRPO). GRPO یک روش مقرون به صرفه RL است که استفاده از یک مدل انتقادی را حذف می کند و در عوض خط پایه را از امتیازات گروه تخمین می زند. با یک سوال q، GRPO گروهی از خروجی ها را از خط مشی قدیمی نمونه برداری می کند و خط مشی را با حداکثر کردن یک تابع هدف تعریف شده بهینه می کند. تابع هدف شامل یک عبارت مزیتی است که با استفاده از پاداش‌های خروجی گروه محاسبه می‌شود و یک عبارت واگرایی Kullback-Leibler (KL) که تضمین می‌کند به‌روزرسانی‌های خط‌مشی خیلی بزرگ نیستند.
  • مدل سازی پاداش: سیستم پاداش برای DeepSeek-R1-Zero بر دقت و قالب تمرکز دارد.
  • پاداش دقت ارزیابی صحت پاسخ ها به عنوان مثال، مسائل ریاضی نیاز به پاسخ دقیق در یک قالب خاص دارند که امکان تأیید مبتنی بر قانون را فراهم می کند.
  • جوایز را قالب بندی کنید گنجاندن فرآیند تفکر مدل را در داخل اجرا کنید و برچسب ها
  • قابل ذکر است، DeepSeek-R1-Zero از مدل‌های پاداش عصبی مبتنی بر فرآیند یا نتیجه استفاده نمی‌کند.
  • قالب آموزشی: یک الگوی ساده مدل را برای تولید یک فرآیند استدلال و سپس پاسخ نهایی راهنمایی می کند. این الگو به گونه‌ای طراحی شده است که عاری از سوگیری‌های محتوایی خاص برای مشاهده پیشرفت طبیعی مدل در طول RL باشد.
اعتبار تصویر: صورت در آغوش گرفته

DeepSeek-R1-Zero در طول آموزش پیشرفت های قابل توجهی را در معیار AIME 2024 نشان داد و از 15.6% به 71.0% pass@1 رسید که با O1-0912 OpenAI قابل مقایسه است. با رای اکثریت، امتیاز آن به 86.7 درصد افزایش یافت. این مدل همچنین تکامل خود را با افزایش زمان تفکر (طول پاسخ) با پیشرفت آموزش نشان داد و راهبردهای پیچیده تری برای حل مسئله مانند تأمل و کاوش در رویکردهای جایگزین را ممکن ساخت. این مدل همچنین یک “لحظه آها” را به نمایش گذاشت، جایی که یاد گرفت با اختصاص زمان تفکر بیشتر در رویکرد اولیه خود تجدید نظر کند.

اعتبار تصویر: DeepSeek

DeepSeek-R1: شامل داده های شروع سرد و آموزش چند مرحله ای

در حالی که DeepSeek-R1-Zero پتانسیل RL خالص را نشان داد، از مشکلاتی مانند خوانایی ضعیف و ترکیب زبان رنج می برد. DeepSeek-R1 برای رسیدگی به این مسائل و بهبود بیشتر عملکرد از طریق یک خط لوله آموزشی چند مرحله ای که مقدار کمی از داده های “شروع سرد” را در بر می گیرد، توسعه داده شد.

  • شروع سرد داده ها: DeepSeek-R1 بر روی هزاران مثال طولانی زنجیره فکری (CoT) قبل از آموزش RL تنظیم شده است، که به عنوان “شروع سرد“. این نمونه‌ها با استفاده از روش‌هایی از جمله اعلان چند شات با CoT‌های طولانی، مدل‌هایی که مستقیماً مدل‌ها را برای پاسخ‌های دقیق با بازتاب و راستی‌آزمایی تحریک می‌کنند، پالایش خروجی‌های DeepSeek-R1-Zero و پس پردازش توسط حاشیه‌نویس‌های انسانی جمع‌آوری می‌شوند. این داده‌های شروع سرد با استفاده از یک قالب خروجی قابل خواندن که شامل خلاصه‌ای در پایان هر پاسخ است و پاسخ‌هایی که کاربر پسند نیستند را فیلتر می‌کند، به خوانایی آدرس کمک می‌کند.
  • فرمت خروجی به صورت |special_token| تعریف می شود|special_token|، با فرآیند استدلال CoT برای پرس و جو و خلاصه نتایج استدلال است.
  • یادگیری تقویتی استدلال گرا: پس از تنظیم دقیق داده‌های شروع سرد، DeepSeek-R1 مشابه DeepSeek-R1-Zero تحت آموزش RL در مقیاس بزرگ قرار می‌گیرد. این مرحله بر تقویت قابلیت‌های استدلال برای کارهای کدنویسی، ریاضی، علوم و استدلال منطقی تمرکز دارد. یک پاداش سازگاری زبان برای کاهش اختلاط زبان در طول آموزش RL معرفی شد، اگرچه آزمایش‌های ابلیشن نشان می‌دهند که پاداش منجر به کاهش عملکرد کوچک می‌شود.
  • نمونه گیری رد و تنظیم دقیق نظارت شده: پس از رسیدن به همگرایی در فرآیند RL استدلال محور، داده های SFT از طریق نمونه گیری رد با استفاده از ایست بازرسی RL، همراه با داده های نظارت شده از DeepSeek-V3 در زمینه هایی مانند نوشتن و QA واقعی تولید می شوند. داده ها فراتر از ارزیابی پاداش مبتنی بر قانون با ترکیب یک مدل پاداش مولد با استفاده از DeepSeek-V3 برای قضاوت در مورد حقیقت پایه و پیش بینی های مدل گسترش می یابد. داده‌های غیر استدلالی نیز از DeepSeek-V3 برای افزایش قابلیت‌های کلی مدل گنجانده شد.
  • یادگیری تقویتی برای همه سناریوها: مرحله دوم RL مدل را با ترجیحات انسانی هماهنگ می کند و بر مفید بودن و بی ضرر بودن تمرکز دارد. پاداش‌های مبتنی بر قانون برای داده‌های استدلالی استفاده می‌شوند، در حالی که مدل‌های پاداش ترجیحات را در داده‌های کلی می‌گیرند.

تقطیر و ارزیابی

قابلیت های استدلال DeepSeek-R1 نیز از طریق تقطیر به مدل های کوچکتر و کارآمدتر منتقل شد.

  • فرآیند تقطیر: مدل‌های منبع باز مانند Qwen و Llama مستقیماً با استفاده از 800 هزار نمونه از DeepSeek-R1 تنظیم شدند. این رویکرد در بهبود توانایی های استدلال مدل های کوچکتر موثر است. مدل های پایه مورد استفاده عبارتند از Qwen2.5-Math-1.5B، Qwen2.5-Math-7B، Qwen2.5–14B، Qwen2.5–32B، Llama-3.1–8B، و Llama-3.3–70B-Instruct. فقط SFT برای مدل های مقطر اعمال می شود، بدون مرحله RL.
  • معیارها و معیارهای ارزیابی: مدل ها بر اساس طیف وسیعی از معیارها از جمله MMLU، MMLU-Redux، MMLU-Pro، C-Eval، CMMLU، IFEval، FRAMES، GPQA Diamond، SimpleQA، SWE-Bench Verified، Aider، LiveCodeBench، Codeforces، دبیرستان ملی چین ارزیابی می شوند. المپیاد ریاضی (CNMO 2024) و دعوتنامه آمریکایی امتحان ریاضی 2024 (AIME 2024). علاوه بر این، وظایف نسل باز با استفاده از LLM ها، به ویژه AlpacaEval 2.0 و Arena-Hard مورد قضاوت قرار می گیرند. اعلان‌های ارزیابی از راه‌اندازی در DeepSeek-V3 با استفاده از چارچوب simple-evals یا پروتکل‌های اصلی آن‌ها پیروی می‌کنند.
  • یافته های کلیدی: DeepSeek-R1 به عملکردی قابل مقایسه با OpenAI-o1-1217 در طیف وسیعی از وظایف دست می یابد. این عملکرد برتر در سؤالات مربوط به STEM را در مقایسه با DeepSeek-V3 نشان می دهد، که اثربخشی یادگیری تقویتی در مقیاس بزرگ را نشان می دهد. DeepSeek-R1 همچنین قابلیت های قوی تجزیه و تحلیل اسناد و همچنین توانایی های پرس و جو مبتنی بر واقعیت را نشان می دهد. این مدل همچنین در نوشتن وظایف و پاسخگویی به سؤالات دامنه باز برتری دارد. در کارهای ریاضی، DeepSeek-R1 با OpenAI-o1-1217 قابل مقایسه است. مدل‌های مقطر پیشرفت‌های قابل‌توجهی را نشان می‌دهند، به طوری که DeepSeek-R1-7B بهتر از GPT-4o-0513 عمل می‌کند. علاوه بر این، DeepSeek-R1-14B در تمام معیارها از QwQ-32B-Preview پیشی گرفت. مدل های تقطیر شده 32B و 70B به طور قابل توجهی عملکرد بهتری از o1-mini در اکثر معیارها داشتند که اثربخشی تقطیر را برجسته می کند.

مشارکت های کلیدی، بحث، و جهت گیری های آینده

توسعه DeepSeek-R1 چندین مشارکت کلیدی را برجسته می کند:

  • RL خالص برای استدلال: تایید می‌کند که قابلیت‌های استدلال در LLM‌ها را می‌توان صرفاً از طریق RL و بدون نیاز به SFT تشویق کرد.
  • خط لوله آموزشی چند مرحله ای موثر RL: این رویکرد دو مرحله RL و دو مرحله SFT را برای بهبود الگوهای استدلال و همسویی با ترجیحات انسانی ترکیب می کند.
  • تقطیر استدلال: DeepSeek-R1 نشان می‌دهد که الگوهای استدلال از مدل‌های بزرگ‌تر را می‌توان به مدل‌های کوچک‌تر تقطیر کرد و عملکرد بهتری را به همراه داشت.

مقاله R1 همچنین برخی از تلاش‌های ناموفق از جمله مدل پاداش فرآیند (PRM) و مونت کارلو جستجوی درخت (MCTS).

  • مدل پاداش فرآیند (PRM) مشخص شد که دارای محدودیت هایی مانند مشکل در تعریف گام های ریز در استدلال کلی، ارزیابی چالش برانگیز مراحل میانی و پاداش است. هک کردن.
  • مونت کارلو جستجوی درخت (MCTS) به دلیل فضای جستجوی نمایی بزرگ و چالش آموزش یک مدل ارزش ریز دانه برای تولید توکن با مشکلاتی مواجه شد.

مسیرهای تحقیقاتی آتی عبارتند از:

  • افزایش توانمندی عمومی: گسترش توانایی های DeepSeek-R1 در فراخوانی تابع، تعاملات چند نوبتی، نقش آفرینی پیچیده و خروجی JSON.
  • کاهش اختلاط زبان: رسیدگی به مسائل مربوط به اختلاط زبان هنگام رسیدگی به پرسش‌ها به زبان‌هایی غیر از انگلیسی و چینی.
  • مهندسی سریع: بهبود استحکام مدل در برابر تغییرات در اعلان‌ها، فراتر از حساسیت آن به درخواست چند عکس.
  • وظایف مهندسی نرم افزار: گسترش RL به وظایف مهندسی نرم افزار با اجرای نمونه گیری رد یا ارزیابی های ناهمزمان برای بهبود کارایی.

نتیجه گیری

DeepSeek-R1 نشان دهنده پیشرفت قابل توجهی در توسعه LLM با قابلیت های استدلالی پیشرفته است. DeepSeek-R1 با به کارگیری تکنیک های نوآورانه یادگیری تقویتی، یک خط لوله آموزشی چند مرحله ای و روش های تقطیر موثر، نه تنها به عملکرد چشمگیری دست می یابد، بلکه بینش های ارزشمندی را در مورد پتانسیل تکامل خود و انتقال دانش در هوش مصنوعی ارائه می دهد. منبع باز DeepSeek-R1 و مدل های تقطیر شده آن به طور قابل توجهی به جامعه تحقیقاتی کمک می کند و امکان پیشرفت های بیشتر در این زمینه را فراهم می کند.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/inside-deepseek-r1-the-amazing-model-that-matches-gpt-o1-on-reasoning-at-a-fraction-of-the-cost