نویسنده(های): ایگور نوویکوف
در ابتدا منتشر شد به سمت هوش مصنوعی.
چه زمانی LLMs اول که بیرون آمدند یک جورهایی مثل بچه ها بودند، اولین چیزی را که به ذهنشان خطور می کرد می گفتند و منطق را خیلی اذیت نمی کرد. شما باید به آنها می گفتید که قبل از صحبت کردن باید فکر کنند. و درست مثل بچهها حتی در آن زمان به این معنی نبود که فکر کنند.
بسیاری استدلال کردند که به همین دلیل، مدلها از هوش واقعی برخوردار نیستند و باید با کمک انسان یا نوعی چارچوب خارجی در بالای آن تکمیل شوند. LLMمانند زنجیره فکر.
فقط یک مسئله زمان بود که توسعه دهندگان بزرگ LLM مانند OpenAI تصمیم گرفتند این مرحله تفکر بیرونی را در داخل یک LLM تکرار کنند (تصویر زیر را ببینید). پس از همه، بسیار ساده است – ایجاد یک مجموعه داده که نه تنها شامل جفت های پرسش و پاسخ بلکه کل منطق گام به گام است و در مورد آن آموزش دهید. علاوه بر این، به منابع محاسباتی بیشتری در زمان استنتاج نیاز دارد، زیرا یک مدل در هنگام تعیین پاسخ، فرآیند تفکر گام به گام یکسانی را طی میکند.
آنها به طور بومی مشکلات را به قطعات کوچک تقسیم می کنند و یک رویکرد زنجیره ای از فکر، تصحیح خطا، و امتحان استراتژی های متعدد را قبل از پاسخ ادغام می کنند.
O1 زمان بیشتری را صرف استنتاج میکند (o1 30 برابر کندتر از Gpt4o است)، چه شگفتانگیز – زمان فکر طولانیتر منجر به نتایج بهتر میشود!
نشانههای استدلال از یک نوبت به دور بعدی منتقل نمیشوند – فقط خروجی.
همچنین، راه حل را با ایجاد پاسخ های متعدد و انتخاب بهترین از طریق اجماع، و رویکردی که ما برای پیاده سازی دستی استفاده کردیم، تأیید می کند. در اینجا روند کلی آمده است:
یک نتیجه گیری مهم این است که پردازنده گرافیکی نیازهای محاسباتی رشد خواهند کرد زیرا بدیهی است که زمان تفکر طولانیتر (در توکنها) به پاسخهای بهتر منجر میشود، بنابراین میتوان کیفیت مدل را تنها با دادن قدرت محاسباتی بیشتر به مدل مقیاسبندی کرد، در حالی که قبلاً این بیشتر در مرحله آموزش صادق بود. بنابراین پردازنده گرافیکی الزامات برای مدل های مدرن به طور قابل توجهی بالاتر می رود.
بنابراین این مدل ها متفاوت هستند و رویکردهای قدیمی دیگر کار نمی کنند.
نحوه کار با مدل های استدلال
جالب است که این کار به نوعی شبیه به کار با یک انسان باهوش است:
- ساده و مستقیم باشید. سوال خود را واضح بیان کنید
- بدون زنجیره فکر صریح. مدل این کار را به صورت داخلی انجام خواهد داد
- ساختار خوبی داشته باشید: با استفاده از نشانه گذاری واضح، درخواست را به بخش هایی تقسیم کنید
- نمایش در مقابل بگویید: بهتر است مدل و مثال یک پاسخ یا رفتار خوب را نشان دهیم تا آن را در چندین هزار کلمه توصیف کنیم.
- دیگر نیازی به فریب دادن، ارعاب یا رشوه دادن به مدل مزخرف نیست
من حتی می توانم این را در یک خلاصه کنم: بدانید چه می خواهید بپرسید و آن را به وضوح بپرسید.
مدل های مینی در مقابل فول
از آنجایی که مدلهای استدلالی مانند o3 توکنهای زیادی را در طول استنتاج مصرف میکنند – استفاده از آنها برای همه چیز نسبتاً گران است و تأخیر عالی نیست. بنابراین، ایده این است که سختترین کار را محول کنیم – تفکر و برنامهریزی سطح بالا، و داشتن مدلهای کوچک سریعتر و مقرونبهصرفهتر برای اجرای طرح. می توان از آنها برای کارهایی مانند کدنویسی، ریاضی و علوم استفاده کرد.
این یک رویکرد نمایندگی است که به ما امکان می دهد بهترین های هر دو جهان را ترکیب کنیم – مدل های هوشمند اما گران قیمت با کارگران کوچک و سریع.
این مدل ها چقدر بهتر هستند؟
خیلی بهتره و به زودی بهتر میشه برای o1 به انسان های متخصص در ریاضیات و کدنویسی نزدیک می شود (به زیر مراجعه کنید):
ریاضی
کد نویسی
ELO 2727 o3 را در بین 200 بهترین کدنویس جهان قرار می دهد. اگر در مورد خود نگران نیستید شغل امنیت به عنوان یک توسعه دهنده – اکنون زمان شروع است. این دقیقاً همان کاری است که با افزودن قدرت محاسباتی بیشتر به طور کامل مقیاس می شود و سرعت پیشرفت فعلی هیچ نشانه ای از کاهش سرعت را نشان نمی دهد.
بعدش چیه
من فقط می توانم حدس بزنم اما برداشت من این است که برای یک یا دو سال می توان کیفیت مدل را به طور چشمگیری بهبود بخشید فقط با افزودن قدرت محاسباتی استنتاج بیشتر و بهبود داده های آموزشیمجموعه ها افزودن نوعی حافظه در خارج از پنجره زمینه نیز منطقی به نظر می رسد، اگرچه در مقیاس بزرگ بسیار گران است.
من فکر میکنم گام بزرگ بعدی واقعاً پیادهسازی معماری چند عاملی در سطح LLM است، بنابراین میتواند چندین گفتگوی داخلی مشترک داشته باشد که حافظه و زمینه یکسانی دارند. از مسیر فعلی تعبیه ابزارهای تفکر خارجی در مدل پیروی می کند و همچنین از مقیاس خطی قدرت محاسباتی در آموزش و استنتاج بهره می برد، بنابراین فکر می کنم در پایان این یا سال آینده شاهد یک LMM، مدل چند عاملی بزرگ یا چیزی مشابه خواهیم بود. آسمان حد چنین مدلی است، بنابراین پیشنهاد می کنم آن را SkyNet بنامیم.
منتشر شده از طریق به سمت هوش مصنوعی