
محققان شرکت AI Deepseek و دانشگاه Tsinghua تکنیک جدیدی را برای تقویت “استدلال” در مدل های بزرگ زبان (LLMS) معرفی کرده اند.
قابلیت های استدلال به عنوان یک معیار مهم در مسابقه برای ساخت سیستم های تولید کننده AI با عملکرد بالا ظاهر شده است. چین و ایالات متحده برای توسعه قدرتمندترین و عملی ترین مدل ها به طور فعال در حال رقابت هستند. براساس گزارش دانشگاه استنفورد در ماه آوریل ، LLMS چین به سرعت در حال بسته شدن شکاف با همتایان آمریکایی خود است. در سال 2024 ، چین 15 مدل AI قابل توجه در مقایسه با 40 در ایالات متحده تولید کرد ، اما منجر به ثبت اختراعات و نشریات دانشگاهی می شود.
تکنیک جدید Deepseek چیست؟
محققان Deepseek مقاله ای با عنوان “مقیاس بندی زمان استنباط برای مدل سازی پاداش عمومی” را در مورد Arxiv دانشگاه کرنل ، بایگانی مقالات علمی منتشر کردند. توجه داشته باشید که مقالات منتشر شده در ARXIV لزوماً مورد بررسی قرار نمی گیرند.
در مقاله ، محققان ترکیبی از دو روش آموزش AI: مدل سازی پاداش تولیدی و تنظیم انتقاد از خود.
محققان نوشتند: “در این کار ، ما چگونگی بهبود مدل سازی پاداش (RM) را با محاسبه استنباط بیشتر برای نمایش داده شد ، یعنی مقیاس پذیری زمان استنتاج RM عمومی و علاوه بر این ، چگونگی بهبود اثربخشی مقیاس بندی عملکرد و عملکرد با روشهای یادگیری مناسب بررسی می کنیم.”
ببینید: DDOS اکنون سلاح های کلیدی در درگیری های ژئوپلیتیکی حمله می کند، Netscout هشدار می دهد
مدل سازی پاداش فرایند آموزش هوش مصنوعی برای هماهنگی بیشتر با ترجیحات کاربر است. این مدل با تنظیم انتقاد از خود با توجه به خود ، انتقادات یا “اصول” خود را در هنگام استنباط برای تنظیم دقیق پاسخ های خود ایجاد می کند. رویکرد ترکیبی تلاش می کند تا LLM ها سریعتر پاسخ های مرتبط را ارائه دهند.
محققان نوشتند: “از نظر تجربی ، ما نشان می دهیم كه SPCT به طور قابل توجهی كیفیت و مقیاس پذیری GRM ها را بهبود می بخشد ، از روشها و مدل های موجود در معیارهای مختلف RM بدون تعصب شدید استفاده می كند و می تواند در مقایسه با مقیاس بندی زمان آموزش به عملکرد بهتری برسد.”
آنها مدلهای آموزش دیده با این روش Deepseek-GRM را خواندند.
محققان نوشتند: “Deepseek-GRM هنوز هم در برخی از کارها با چالش هایی روبرو می شود ، که ما معتقدیم با تلاش های آینده در سیستم های پاداش عمومی می توان به آنها رسیدگی کرد.”
چه چیزی برای Deepseek وجود دارد؟
Deepseek حول و حوش مدل R1 ایجاد کرده است ، که رقبای مدلهای استدلال متمرکز مانند Openai O1 را رقم می زند. یک مدل دوم ، Deepseek-R2 ، برای انتشار در ماه مه شایعه شده است. این شرکت نیز راه اندازی شد Deepseek-v3-0324، یک مدل استدلال به روز شده در اواخر ماه مارس منتشر شد.
طبق این مقاله ، مدل های ساخته شده با روش جدید GRM-SPCT باز جستجو می شوند ، اگرچه هیچ تاریخ انتشار مشخص نشده است.
منبع: https://www.techrepublic.com/article/news-deepseek-inference-time-scaling-research/