مایکروسافت بزرگترین LLM 1 بیتی را آزاد می کند و اجازه می دهد هوش مصنوعی قدرتمند روی برخی از سخت افزار قدیمی اجرا شود


محققان مایکروسافت ادعا می کنند اولین مدل زبان بزرگ 1 بیتی با 2 میلیارد پارامتر را توسعه داده اند. این مدل ، Bitnet B1.58 2B4T ، می تواند بر روی CPU های تجاری مانند M2 اپل اجرا شود.

مایکروسافت نوشت: “آموزش داده شده بر روی یک گروه از 4 تریلیون نشانه ، این مدل نشان می دهد که چگونه LLM های 1 بیتی بومی می توانند عملکردی قابل مقایسه با مدلهای پیشرو با وزن آزاد و با دقت با اندازه مشابه را بدست آورند ، در حالی که مزایای قابل توجهی در راندمان محاسباتی (حافظه ، انرژی ، تأخیر) ارائه می دهند.” سپرده گذاری چهره بغل کردن پروژهبشر

چه چیزی یک مدل Bitnet را متفاوت می کند؟

Bitnets ، یا LLM های 1 بیتی ، نسخه های فشرده شده از مدل های بزرگ زبان هستند. مدل مقیاس پارامتر 2 میلیارد اصلی که بر روی جسد 4 میلیارد توکن آموزش دیده است ، با نیازهای حافظه به شدت کاهش یافته به نسخه ای کاهش یافته است. تمام وزن ها به عنوان یکی از سه مقدار بیان می شوند: -1 ، 0 و 1.. LLM های دیگر ممکن است از قالب های 32 بیتی یا 16 بیتی شناور استفاده کنند.

مشاهده کنید: بازیگران تهدید می توانند بسته های مخرب را به مدل های هوش مصنوعی تزریق کنید این دوباره در طول “برنامه نویسی VIBE”.

در مقاله تحقیق، که در Arxiv به عنوان اثری در حال انجام ارسال شده است ، محققان جزئیات نحوه ایجاد Bitnet را شرح می دهند. سایر گروه ها قبلاً بیتت ایجاد کرده اند ، اما ، محققان می گویند ، بیشتر تلاش های آنها یا روش های کمیت پس از آموزش (PTQ) است که برای مدل های با دقت کامل از قبل آموزش داده شده یا مدلهای 1 بیتی بومی که از ابتدا آموزش داده شده است که در وهله اول در مقیاس کوچکتر توسعه یافته اند ، اعمال می شود. Bitnet B1.58 2B4T یک LLM بومی 1 بیتی است که در مقیاس آموزش دیده است. این تنها 400 مگابایت در مقایسه با سایر “مدل های کوچک” که می توانند تا 4.8 گیگابایت برسند ، طول می کشد.

Bitnet B1.58 2B4T عملکرد ، هدف و محدودیت ها

عملکرد در مقایسه با سایر مدل های هوش مصنوعی

به گفته مایکروسافت ، Bitnet B1.58 2B4T از سایر مدل های 1 بیتی بهتر عمل می کند. Bitnet B1.58 2B4T دارای حداکثر طول دنباله 4096 توکن است. مایکروسافت ادعا می کند که از مدل های کوچکی مانند Meta’s Llama 3.2 1B یا Google’s Gemma 3 1B بهتر عمل می کند.

هدف محققان برای این Bitnet

هدف مایکروسافت این است که LLM ها را با ایجاد نسخه هایی که در دستگاه های Edge ، در محیط های دارای منابع محدود یا برنامه های کاربردی در زمان واقعی اجرا می شوند ، در دسترس افراد بیشتری قرار دهد.

با این حال ، Bitnet B1.58 2B4T هنوز کار ساده ای نیست. به سخت افزار سازگار با چارچوب Bitnet.cpp مایکروسافت نیاز دارد. اجرای آن در یک کتابخانه استاندارد ترانسفورماتور از نظر سرعت ، تأخیر یا مصرف انرژی هیچ یک از مزایا را ایجاد نمی کند. همانطور که اکثر مدل های AI انجام می دهند ، Bitnet B1.58 2B4T روی GPU ها اجرا نمی شود.

چه چیزی بعدی؟

محققان مایکروسافت قصد دارند آموزش مدلهای بزرگتر و 1 بیتی بومی (پارامترهای 7B ، 13B و موارد دیگر) را کشف کنند. آنها توجه داشته باشند که بیشتر زیرساخت های هوش مصنوعی امروز فاقد سخت افزار مناسب برای مدل های 1 بیتی هستند ، بنابراین آنها قصد دارند “طراحی شتاب دهنده های سخت افزار آینده” را که بطور خاص برای فشرده سازی AI طراحی شده اند ، کشف کنند. محققان همچنین هدف این هستند:

  • طول زمینه را افزایش دهید.
  • بهبود عملکرد در کارهای استدلال زنجیره ای با فکر طولانی.
  • پشتیبانی از چندین زبان غیر از انگلیسی را اضافه کنید.
  • مدل های 1 بیتی را در معماری های چندمودال ادغام کنید.
  • بهتر این تئوری را درک کنید که چرا آموزش 1 بیتی در مقیاس کارآیی ایجاد کرده است.



منبع: https://www.techrepublic.com/article/news-microsoft-bitnet-small-ai-model/