مدل استدلال: مروری کوتاه و ویژگی برای توسعه دهندگان


نویسنده(های): ایگور نوویکوف

در ابتدا منتشر شد به سمت هوش مصنوعی.

تصویر توسط نویسنده

چه زمانی LLMs اول که بیرون آمدند یک جورهایی مثل بچه ها بودند، اولین چیزی را که به ذهنشان خطور می کرد می گفتند و منطق را خیلی اذیت نمی کرد. شما باید به آنها می گفتید که قبل از صحبت کردن باید فکر کنند. و درست مثل بچه‌ها حتی در آن زمان به این معنی نبود که فکر کنند.

بسیاری استدلال کردند که به همین دلیل، مدل‌ها از هوش واقعی برخوردار نیستند و باید با کمک انسان یا نوعی چارچوب خارجی در بالای آن تکمیل شوند. LLMمانند زنجیره فکر.

فقط یک مسئله زمان بود که توسعه دهندگان بزرگ LLM مانند OpenAI تصمیم گرفتند این مرحله تفکر بیرونی را در داخل یک LLM تکرار کنند (تصویر زیر را ببینید). پس از همه، بسیار ساده است – ایجاد یک مجموعه داده که نه تنها شامل جفت های پرسش و پاسخ بلکه کل منطق گام به گام است و در مورد آن آموزش دهید. علاوه بر این، به منابع محاسباتی بیشتری در زمان استنتاج نیاز دارد، زیرا یک مدل در هنگام تعیین پاسخ، فرآیند تفکر گام به گام یکسانی را طی می‌کند.

مرحله تفکر اضافه شد. تصویر توسط OpenAI

آنها به طور بومی مشکلات را به قطعات کوچک تقسیم می کنند و یک رویکرد زنجیره ای از فکر، تصحیح خطا، و امتحان استراتژی های متعدد را قبل از پاسخ ادغام می کنند.

O1 زمان بیشتری را صرف استنتاج می‌کند (o1 30 برابر کندتر از Gpt4o است)، چه شگفت‌انگیز – زمان فکر طولانی‌تر منجر به نتایج بهتر می‌شود!

تصویر توسط OpenAI

نشانه‌های استدلال از یک نوبت به دور بعدی منتقل نمی‌شوند – فقط خروجی.

همچنین، راه حل را با ایجاد پاسخ های متعدد و انتخاب بهترین از طریق اجماع، و رویکردی که ما برای پیاده سازی دستی استفاده کردیم، تأیید می کند. در اینجا روند کلی آمده است:

تصویر توسط OpenAI

یک نتیجه گیری مهم این است که پردازنده گرافیکی نیازهای محاسباتی رشد خواهند کرد زیرا بدیهی است که زمان تفکر طولانی‌تر (در توکن‌ها) به پاسخ‌های بهتر منجر می‌شود، بنابراین می‌توان کیفیت مدل را تنها با دادن قدرت محاسباتی بیشتر به مدل مقیاس‌بندی کرد، در حالی که قبلاً این بیشتر در مرحله آموزش صادق بود. بنابراین پردازنده گرافیکی الزامات برای مدل های مدرن به طور قابل توجهی بالاتر می رود.

بنابراین این مدل ها متفاوت هستند و رویکردهای قدیمی دیگر کار نمی کنند.

نحوه کار با مدل های استدلال

جالب است که این کار به نوعی شبیه به کار با یک انسان باهوش است:

  1. ساده و مستقیم باشید. سوال خود را واضح بیان کنید
  2. بدون زنجیره فکر صریح. مدل این کار را به صورت داخلی انجام خواهد داد
  3. ساختار خوبی داشته باشید: با استفاده از نشانه گذاری واضح، درخواست را به بخش هایی تقسیم کنید
  4. نمایش در مقابل بگویید: بهتر است مدل و مثال یک پاسخ یا رفتار خوب را نشان دهیم تا آن را در چندین هزار کلمه توصیف کنیم.
  5. دیگر نیازی به فریب دادن، ارعاب یا رشوه دادن به مدل مزخرف نیست

من حتی می توانم این را در یک خلاصه کنم: بدانید چه می خواهید بپرسید و آن را به وضوح بپرسید.

مدل های مینی در مقابل فول

از آنجایی که مدل‌های استدلالی مانند o3 توکن‌های زیادی را در طول استنتاج مصرف می‌کنند – استفاده از آنها برای همه چیز نسبتاً گران است و تأخیر عالی نیست. بنابراین، ایده این است که سخت‌ترین کار را محول کنیم – تفکر و برنامه‌ریزی سطح بالا، و داشتن مدل‌های کوچک سریع‌تر و مقرون‌به‌صرفه‌تر برای اجرای طرح. می توان از آنها برای کارهایی مانند کدنویسی، ریاضی و علوم استفاده کرد.

این یک رویکرد نمایندگی است که به ما امکان می دهد بهترین های هر دو جهان را ترکیب کنیم – مدل های هوشمند اما گران قیمت با کارگران کوچک و سریع.

این مدل ها چقدر بهتر هستند؟

خیلی بهتره و به زودی بهتر میشه برای o1 به انسان های متخصص در ریاضیات و کدنویسی نزدیک می شود (به زیر مراجعه کنید):

ریاضی

تصویر توسط OpenAI

کد نویسی

تصویر توسط OpenAI

ELO 2727 o3 را در بین 200 بهترین کدنویس جهان قرار می دهد. اگر در مورد خود نگران نیستید شغل امنیت به عنوان یک توسعه دهنده – اکنون زمان شروع است. این دقیقاً همان کاری است که با افزودن قدرت محاسباتی بیشتر به طور کامل مقیاس می شود و سرعت پیشرفت فعلی هیچ نشانه ای از کاهش سرعت را نشان نمی دهد.

بعدش چیه

من فقط می توانم حدس بزنم اما برداشت من این است که برای یک یا دو سال می توان کیفیت مدل را به طور چشمگیری بهبود بخشید فقط با افزودن قدرت محاسباتی استنتاج بیشتر و بهبود داده های آموزشیمجموعه ها افزودن نوعی حافظه در خارج از پنجره زمینه نیز منطقی به نظر می رسد، اگرچه در مقیاس بزرگ بسیار گران است.

من فکر می‌کنم گام بزرگ بعدی واقعاً پیاده‌سازی معماری چند عاملی در سطح LLM است، بنابراین می‌تواند چندین گفتگوی داخلی مشترک داشته باشد که حافظه و زمینه یکسانی دارند. از مسیر فعلی تعبیه ابزارهای تفکر خارجی در مدل پیروی می کند و همچنین از مقیاس خطی قدرت محاسباتی در آموزش و استنتاج بهره می برد، بنابراین فکر می کنم در پایان این یا سال آینده شاهد یک LMM، مدل چند عاملی بزرگ یا چیزی مشابه خواهیم بود. آسمان حد چنین مدلی است، بنابراین پیشنهاد می کنم آن را SkyNet بنامیم.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/reasoning-model-short-overview-and-feature-for-developers