DeepSeek-R1: هوش مصنوعی منبع باز که مانند بهترین های OpenAI فکر می کند


نویسنده(های): یاش تیوب

در ابتدا منتشر شد به سمت هوش مصنوعی.

DeepSeek-R1: هوش مصنوعی منبع باز که مانند بهترین های OpenAI فکر می کند

برای سال‌ها، جامعه هوش مصنوعی دنبال یک مهتاب بوده است: ایجاد مدل‌های منبع باز که با قدرت استدلال غول‌هایی مانند OpenAI رقابت می‌کنند. امروز، آن مهتاب تازه فرود آمد. DeepSeek-R1، یک مدل زبان منبع باز جدید که تحت مجوز MIT منتشر شده است، نه تنها با مدل های پیشرفته OpenAI “o1” در معیارهای استدلال مطابقت دارد، بلکه این کار را با کسری از هزینه انجام می دهد. بیایید توضیح دهیم که چرا این مهم است و چگونه DeepSeek آن را به پایان رساند.

📌پیشرفت DeepSeek: هوش مصنوعی که قدم به قدم فکر می کند

DeepSeek-R1 بخشی از یک کلاس جدید از “مدل های تفکر” است که از استدلال انسان مانند تقلید می کند. برخلاف مدل‌های زبان سنتی که پاسخ‌ها را در یک گذر تولید می‌کنند، DeepSeek-R1 مشکلات را حل می‌کند، گزینه‌های جایگزین را به بحث می‌گذارد، و خود اصلاح می‌کند – همه در خروجی‌های «زنجیره فکر» آن قابل مشاهده است. مثلاً وقتی از او پرسیده می شود “توت فرنگی چند روپیه است؟”مدل می نویسد:

“اول، من آن را هجی می کنم: توت فرنگی. اکنون می‌شمارم: موقعیت‌های 3 (R)، 8 (R) و 9 (R). صبر کن درسته؟ اجازه دهید دوباره بررسی کنم… بله، سه روپیه.

این فقط یک ترفند سالن نیست. در معیارهایی مانند AIME 2024 (یک مسابقه ریاضی)، DeepSeek-R1 عملکرد بهتری از OpenAI o1 دارد، و در کارهای کدنویسی (Codeforces) و حل مسئله در دنیای واقعی (SWE-Bench) کاملاً عملی است. حتی تاثیرگذارتر؟ این کار را در حین بودن انجام می دهد 10 برابر ارزان تر نسبت به API OpenAI (0.14 در مقابل 0.14در مقابل.15 در هر میلیون توکن برای خروجی).

📌چگونه یک «ماشین تفکر» ساختند

تیم یک مشکل مهم را حل کرد: چگونه می توان به هوش مصنوعی بدون بازخورد عظیم انسان استدلال کرد؟ روش‌های سنتی بر تنظیم دقیق نظارت شده (SFT) تکیه دارند، جایی که انسان‌ها به صورت دستی نمونه‌هایی را می‌سازند. پاسخ DeepSeek؟ یادگیری تقویتی (RL) روی استروئیدها.

✅ DeepSeek-R1-Zero: AlphaGo مدل های زبان

مدل اول، R1-Zero، صرفاً از طریق آزمون و خطا با استفاده از تکنیکی به نام آموخته شد بهینه سازی خط مشی نسبی گروه (GRPO). پیچش اینجاست:

  • هیچ داده نظارتی وجود ندارد: برخلاف o1 OpenAI، R1-Zero به طور کامل از SFT صرف نظر کرد. با پیش خام شروع شدداده های آموزشی و با ایجاد پاسخ، مقایسه آنها به صورت گروهی و پاداش دادن به استدلال صحیح یاد گرفت.
  • خود تکاملی: با گذشت زمان، مدل به خود آموخت که «زمان فکری» بیشتری را برای مشکلات سخت‌تر صرف کند. در یک آزمایش، تولید شد 3 برابر زنجیره استدلال طولانی تر برای سوالات پیچیده ریاضی – بدون اینکه به شما گفته شود این کار را انجام دهید.

✅ DeepSeek-R1: رفع مشکلات

R1-Zero نقص هایی داشت: خروجی های آن آشفته بود (ترکیب زبان هایی مانند انگلیسی و چینی) و خواندن آن سخت بود. تیم این مشکل را با یک “شروع سرد” فاز:

  • مینی SFT: مدل را روی ریز کوک کردند مجموعه داده (فقط 1000 نمونه) زنجیره استدلال با کیفیت بالا.
  • RL دو مرحله ای: ابتدا برای دقت و فرمت آموزش دیدند. سپس، آنها مرحله دوم RL را اضافه کردند تا با ترجیحات انسانی (به عنوان مثال، مفید بودن، ایمنی) هماهنگ شود.

نتیجه؟ مدلی که به وضوح فکر می کند، در حال انجام وظیفه و حتی یکنواخت است عملکرد بهتری از GPT-4o دارد در معیارهای کدنویسی مانند LiveCodeBench.

📌سس مخفی: نوآوری های فنی

👉بهینه سازی خط مشی نسبی گروهی (GRPO)

  • GRPO به جای استفاده از یک مدل «منتقد» جداگانه (مانند PPO OpenAI)، چندین پاسخ را در یک گروه مقایسه می‌کند.
  • مقایسه: تصور کنید دانش آموزان روی یک مسئله ریاضی کار می کنند. معلم به گروه بر اساس عملکرد نسبی پاداش می دهد نه بر اساس نمره مطلق. این مدل را به سمت بهبود رقابتی سوق می دهد.

👉پاداش استدلال گرا

تابع پاداش دو چیز را اولویت بندی می کند:

  • دقت: آیا پاسخ نهایی با حقیقت مطابقت داشت؟
  • قالب: آیا از مراحل استدلال استفاده شده است به درستی تگ می کند؟
  • این مدل را مجبور کرد تا افکار خود را به طور منطقی ساختار دهد.

👉تقطیر: منسوخ کردن مدل های بزرگتر
DeepSeek دانش R1 را با استفاده از SFT به مدل های کوچکتر (پارامترهای 7B تا 70B) تقطیر کرد. نتایج حتی تیم را شوکه کرد:

  • الف مدل 14B پارامتر عملکرد بهتری از Qwen-32B در کارهای کدگذاری داشت.
  • را مدل تقطیر شده 70B تقریباً با GPT-4 در استدلال ریاضی مطابقت داشت (MATH 500).

📌معیارها

منبع: https://github.com/deepseek-ai/DeepSeek-R1

📌چرا این همه چیز را تغییر می دهد

👉برنده منبع باز: توسعه دهندگان اکنون می توانند استدلال سطح GPT-4 را به صورت محلی یا از طریق API DeepSeek در یک 90 درصد هزینه کمتر.

👉”لحظه آها” برای هوش مصنوعی: DeepSeek-R1-Zero نشان داد که مدل ها می توانند خودسازی استراتژی های استدلال یک مثال: وقتی روی یک مشکل گیر کرد، یاد گرفت که به عقب برگردد و مفروضات اولیه خود را زیر سوال ببرد – رفتاری که هرگز به صراحت برنامه ریزی نشده است.

👉دموکراتیک کردن هوش مصنوعی: با انتشار وزن‌ها و دستور العمل‌های تقطیر، DeepSeek به هر کسی اجازه می‌دهد مدل‌های تخصصی بسازد. یک دستیار کد نویسی را تصور کنید که از R1 تقطیر شده است اما روی پایگاه کد شرکت شما به خوبی تنظیم شده است.

📌بعدی چیست؟ جاده پیش رو

این تیم در حال حاضر روی موارد زیر کار می کند:

  • رفع اختلاط زبان: اطمینان از ماندن خروجی ها در یک زبان.
  • مهندسی سریع: کاهش حساسیت به جمله بندی (به عنوان مثال، “بیایید گام به گام فکر کنیم” در مقابل “این را حل کنید”).
  • تمرکز مهندسی نرم افزار: اعمال RL برای کارهایی مانند اشکال زدایی و اتوماسیون CI/CD.

📌اندیشه های پایانی

DeepSeek-R1 ثابت می کند که یک طرح اولیه است. با اثبات اینکه مدل‌های منبع باز می‌توانند با سیستم‌های بسته از طریق RL نوآورانه رقابت کنند، دریچه‌هایی را برای هوش مصنوعی جامعه محور باز می‌کند. همانطور که تیم می نویسد:

ما به مدل یاد ندادیم که چگونه فکر کند. ما مشوق های درستی به آن دادیم و خودش یاد داد.»

عصر هوش مصنوعی در دسترس و با درجه استدلال اینجاست. و منبع باز است.

اکنون DeepSeek-R1 را امتحان کنید:

با آن چه خواهید ساخت؟

کنجکاو بمانید☺️….در قسمت بعدی شما را می بینم!

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/deepseek-r1-the-open-source-ai-that-thinks-like-openais-best