نویسنده(های): پل فرگوسن، Ph.D.
در ابتدا منتشر شد به سمت هوش مصنوعی.
مدلهای جدید هوش مصنوعی تقریباً هر هفته ظاهر میشوند و تمایز بین پیشرفتهای قابل توجه و بهروزرسانیهای جزئی را دشوار میسازند. DeepSeek-R1با این حال، یک استثنای واضح را نشان می دهد.
در حالی که عملکرد آن در بسیاری از وظایف با مدل های اختصاصی پیشرو (مانند o1 OpenAI) مطابقت دارد یا کمی فراتر می رود، سه دلیل برای اهمیت این مدل وجود دارد:
- کارایی هزینه: فقط برای 5-10٪ از هزینه مدل های قابل مقایسه آموزش دیده است
- قابلیت دسترسی را باز کنید: کاملاً منبع باز تحت مجوز MIT
- نوآوری فنی: روشهای جدید مانند استدلال خودآموخته با پردازش متمرکز بر کار
چیزی که این مدل را بسیار جالب می کند فقط عملکرد آن نیست، بلکه چگونه به دست آمده است: چارچوب منبع باز آن و کاهش بیش از 90 درصدی هزینه بر سیستمهای بسته فشار وارد میکند تا نوآوری کنند و در عین حال کسبوکارها را قادر میسازد تا هوش مصنوعی پیشرفته را با قیمت مقرون به صرفه به کار گیرند.
به طور خلاصه: ترکیبی از کارایی، شفافیت، و قابل انطباق یک معیار جدید برای صنعت است.
عملکرد رقابتی بدون قیمت برتر
معیارهای مستقل نشان میدهند که DeepSeek-R1 در تعدادی از حوزهها عملکرد قابل مقایسه با مدلهای بسته را دارد: این فرضیه که هوش مصنوعی منبع باز از سیستمهای اختصاصی عقب است را به چالش میکشد.
در حالی که از نظر دانش عمومی کمی عقب است (مثلاً MMLU: 90.8٪ در مقابل 91.8٪)، مزایای واضحی در وظایف فنی دارد: آن را به ویژه برای مهندسی نرم افزار، مدل سازی مالی و تحقیقات علمی مناسب می کند.
طراحی منبع باز
مدلهای بسته به اشتراکهای API پرهزینه نیاز دارند، در حالی که مجوز MIT DeepSeek-R1 به موارد زیر اجازه میدهد:
- سفارشی سازی کامل: مدل را برای برنامه های کاربردی (به عنوان مثال، مراقبت های بهداشتی، تجزیه و تحلیل قرارداد قانونی، و غیره) اصلاح کنید.
- استقرار محلی: انواع کوچکتر (پارامترهای 1.5B–70B) روی GPUهای درجه یک مصرف کننده اجرا می شوند (با اجتناب از هزینه های ابری). در قبلی مقاله، من اهمیت رو به رشد Small Language Models را مورد بحث قرار دادم و برخی از این مدل ها به خوبی در آن دسته قرار می گیرند).
- شفافیت: ممیزی مستقل از وزن مدل برای رفع تعصب یا نگرانی های ایمنی.
روش های بدیع
مزایای هزینه و کارایی DeepSeek در سه حوزه اصلی قرار دارد:
اول آموزش تقویتی
- استدلال خودآموخته: از طریق حل مسئله و خطا به جای بازخورد گران قیمت انسان یاد می گیرد
- مرحله کشف: استراتژی های جدید را بررسی می کند (به عنوان مثال، سعی می کند پاسخ های خود را تأیید کند)
- مرحله تراز: خروجی ها را برای انسجام و دقت اصلاح می کند
پیش بینی دو قدم جلوتر
- آموزش: دو نشانه بعدی را همزمان پیش بینی می کند
- استنتاج: از طریق پیشبینی نشانههای موازی، پاسخها را سریعتر تولید میکند
پراکنده، پردازش تخصصی کار
- فقط 5.5 درصد از پارامترها (37B/671B) در هر پرس و جو فعال می شوند
صرفه جویی در هزینه
قیمت گذاری DeepSeek آنچه را که کسب و کارها می توانند با بودجه محدود به دست آورند را تغییر می دهد:
- رایگان برای استفاده از طریق آن برنامه وب.
- اگرچه برای موارد استفاده تجاری، این موارد معمولاً از طریق تماس های API انجام می شود
- فراهم می کند دسترسی به API با هزینه نسبتاً کم (0.14 دلار برای 1 میلیون توکن ورودی، در مقایسه با 7.5 دلار برای مدل o1 OpenAI)
- به شرکت هایی که استفاده قابل توجهی از LLMs، این تفاوت ها می تواند در طول یک ماه به هزاران دلار اضافه شود
مفاهیم
- دموکراتیک شدن: شرکت های کوچکتر می توانند به راحتی با کسب و کارهای بزرگتر رقابت کنند.
- فشار روی مدل های بسته: شرکت هایی مانند OpenAI تحت فشار هستند تا قیمت های خود را کاهش دهند یا شفافیت مدل های خود را افزایش دهند.
- مبادلات اخلاقی: اگرچه وزنهای باز به کاهش تعصب کمک میکنند، سفارشیسازی غیرقابل تنظیم خطر سوءاستفاده را به همراه دارد.
نتیجه گیری
DeepSeek-R1 ثابت می کند که پیشرفت هوش مصنوعی نباید به سیستم های بسته یا بودجه های محاسباتی ناپایدار متکی باشد.
برای سازمان ها، این به این معنی است آزمایش سریعتر، موانع کمتر برای ورود، و کنترل ابزارهای هوش مصنوعی: ترکیبی که احتمالاً نوآوری را در صنایع مختلف سرعت می بخشد.
اگرچه بی عیب و نقص نیست، اما مدل منبع باز و نبوغ فنی آن استاندارد جدیدی را برای آنچه در هوش مصنوعی کارآمد و قابل دسترس ممکن است تعیین می کند.
اگر می خواهید در مورد من بیشتر بدانید، لطفا بررسی کنید www.paulferguson.me، یا با من در ارتباط باشید لینکدین.
منتشر شده از طریق به سمت هوش مصنوعی