پایان قوانین مقیاس بندی: چگونه “قوانین مقیاس بندی برای دقت” هاروارد آموزش LLM را متحول می کند


نویسنده(های): هنگتائو تانتای

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

تحلیلی در حال تغییر پارادایم که مفروضات اساسی در مورد مقیاس بندی و دقت مدل را به چالش می کشد.

مقاله تحقیقاتی اخیراً منتشر شده “مقیاس سازی قوانین برای دقت” – تلاش مشترکی از موسسات پیشرو از جمله دانشگاه هاروارد، دانشگاه استنفورد و MIT – بحث های قابل توجهی را در جامعه هوش مصنوعی برانگیخته است. از طریق آزمایش سیستماتیک، این مطالعه برای اولین بار روابط کمی بین دقت، شمارش پارامترها و حجم داده در مدل‌های زبان بزرگ ایجاد می‌کند و راهنمایی‌های نظری مهمی را برای روندهای فعلی در توسعه مدل ارائه می‌کند.

توسعه مدل های زبان بزرگ اساساً بر دو رویکرد متکی است:

گسترش مقیاس مدل از طریق افزایش قدرت محاسباتی تسریع آموزش از طریق کاهش دقت (32->16->8 بیت)

با این حال، این روندهای توسعه با چالش های مهمی روبرو هستند. در حالی که آخرین کارت محاسباتی AI NVIDIA، Blackwell، بهینه‌سازی‌های سطح سخت‌افزار را برای آموزش 8 بیتی اجرا کرده است، تحقیقات نشان می‌دهد که دقت 8 بیتی ممکن است برای پشتیبانی از فرآیندهای آموزشی با کیفیت بالا برای بسیاری از مدل‌های بزرگ کافی نباشد.

اهمیت این تحقیق با تایید قابل توجه کارشناسان برجسته در این زمینه برجسته شده است. پروفسور دان فو، دستیار UCSD، بیان می کند که این تحقیق جهت کوانتیزاسیون مدل های بزرگ را روشن می کند، در حالی که پروفسور تیم دتمرز، پروفسور CMU آن را به عنوان “مهم ترین مقاله در یک زمان بسیار طولانی” توصیف می کند. بنیانگذار OpenAI و سابق… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/the-end-of-scaling-laws-how-harvards-scaling-laws-for-precision-revolutionizes-llm-training