نویسنده(های): پل فرگوسن، Ph.D.
در ابتدا منتشر شد به سمت هوش مصنوعی.
مدلهای زبان کوچک با ارائه راهحلهایی که با استفاده از سختافزار استاندارد بهطور کارآمد عمل میکنند، روشهای پیادهسازی هوش مصنوعی را تغییر میدهند.
علیرغم توجهی که به مدلهای عظیم هوش مصنوعی میشود، این جایگزینهای فشرده نشان میدهند که در دنیای واقعی، کوچکتر اغلب به معنای هوشمندتر، سریعتر و مقرونبهصرفهتر است.
SLM چیست؟
مدل های زبان کوچک (SLM) بسیار شبیه به آن هستند مدل های زبان بزرگ (LLMs) که همه ما با آن آشنا هستیم (مثلا ChatGPT)، به جز اینکه اندازه آنها کوچکتر است.
مقیاس مدل
- SLM ها معمولاً از چند میلیون تا چند میلیارد پارامتر متغیر هستند
- LLM ها بسیار بزرگتر هستند و ده ها میلیارد تا تریلیون پارامتر دارند
- مثال: Meta’s Llama 2 در انواع 7B (7 میلیارد پارامتر) و 70B (70 میلیارد پارامتر) عرضه می شود که هر کدام نیازهای متفاوتی را برآورده می کنند.
پیاده سازی عملی
- می تواند بر روی سخت افزار محاسباتی استاندارد اجرا شود
- مناسب برای دستگاه های تلفن همراه و محاسبات لبه
- سازگار با نیازهای خاص کسب و کار از طریق تنظیم دقیق
افزایش پذیرش
یکی از دلایل اصلی این امر این است که آنها به طور ایده آل برای برخی از کوچکترها مناسب هستند مجموعه داده ها که در مشاغل معمولی رایج تر هستند. آنها همچنین می توانند به راحتی با نیازهای دقیق یک شرکت خاص و داده های خود تنظیم شوند.
کلم دلانگ، مدیر عامل Hugging Face، این را پیش بینی می کند تا 99 درصد موارد استفاده از هوش مصنوعی را می توان با استفاده از SLM ها بررسی کرد.
شرکتهای برجستهای مانند مایکروسافت و گوگل به همراه آیبیام و متا SLMهایی مانند Phi Trio و Gemma و همچنین نسخههای فشرده مدلهای Llama را معرفی کردهاند. نشان دهنده پذیرش گسترده، در صنعت.
مزایای کلیدی مدل های زبان کوچک
این مدل های جمع و جور نتایج چشمگیری را با میلیون ها پارامتر به جای میلیاردها ارائه می دهند.
مزایای آنها عبارتند از:
- کارایی و مقرون به صرفه بودن: SLMها در مقایسه با LLMها به قدرت محاسباتی و حافظه کمتری نیاز دارند: این امر باعث میشود که آنها را سریعتر آموزش دهند و همچنین برای اجرای طولانیمدت مقرون به صرفهتر باشند.
- برنامه های کاربردی مخصوص دامنه: SLMها در کارهایی که نیاز به دانش تخصصی دارند، مانند رباتهای گفتگوی پشتیبانی مشتری، ترجمه بلادرنگ، خلاصهسازی اسناد و عملیات دستگاه اینترنت اشیا، به خوبی عمل میکنند. اندازه کوچکتر آنها امکان تنظیم راحتتر مجموعه دادههای خاص را فراهم میآورد که به آنها امکان میدهد تا با موارد خاص استفاده کنند.
- حریم خصوصی پیشرفته: به دلیل ماهیت فشرده خود، SLM ها می توانند به صورت محلی (به عنوان مثال، در دستگاه های تلفن همراه) کار کنند. این به طور قابل توجهی حفاظت از داده ها را با محدود کردن نیاز به خدمات پردازش مبتنی بر ابر افزایش می دهد.
- کاهش اثرات زیست محیطی: نیازهای محاسباتی کمتر منجر به مصرف انرژی کمتر در هر دو فرآیند آموزش و استنتاج می شود. که برای شرکت هایی که هدفشان دستیابی به اهداف پایداری است، عاملی حیاتی است.
مبانی فنی
سه استراتژی کلیدی امکان ایجاد این مدل ها را فراهم می کند.
- تقطیر دانش: این فرآیند شامل آموزش یک مدل کوچکتر برای تقلید از رفتار یک فرد بزرگتر است. به عنوان مثال، یک SLM خدمات مشتری ممکن است متداول ترین سناریوهای پشتیبانی را از یک مدل بزرگتر بیاموزد در حالی که به اندازه کافی جمع و جور باقی بماند تا روی سرورهای محلی اجرا شود.
- هرس مدل: این تکنیک شامل حذف اتصالات کمتر مهم در مدل است: از طریق هرس دقیق، مدل ها اغلب می توانند بیشتر عملکرد خود را حفظ کنند و در عین حال اندازه خود را به میزان قابل توجهی کاهش دهند.
- کمی سازی: این روش نحوه ذخیره و پردازش داده های عددی توسط مدل را بهینه می کند. به جای استفاده از اعداد با دقت بالا (که نیاز به ذخیره سازی بیشتری دارند)، کمی سازی از قالب های اعداد کوچکتر استفاده می کند که دقت قابل قبولی را حفظ می کند. به عنوان مثال، کاهش دقت، از 32 بیت به 8 بیت، می تواند به طور قابل توجهی اندازه مدل را کوچک کند در حالی که به طور کلی سطوح عملکرد مناسب را برای استفاده های مختلف تجاری حفظ می کند.
درک محدودیت ها
در حالی که SLM ها مزایای زیادی دارند، درک برخی از محدودیت های آنها مهم است:
پیچیدگی کار
- SLM ها مانند ابزارهای تخصصی هستند، در حالی که LLM ها بیشتر شبیه چاقوهای ارتش سوئیس هستند
- آنها در وظایف خاص عالی هستند، اما ممکن است با برنامه های کاربردی گسترده تر مبارزه کنند
- برای مشکلات تجاری متمرکز و کاملاً تعریف شده مناسب است
انواع ورودی
- اکثر SLM ها با یک نوع ورودی کار می کنند (معمولا متن)
- برخلاف مدلهای بزرگتر، معمولاً چندوجهی نیستند (نمیتوانند تصاویر، صدا و غیره را پردازش کنند).
- برای بسیاری از کاربردهای تجاری، این رویکرد تک تمرکز در واقع سودمند است
پنجره زمینه
- SLM ها پنجره های زمینه کوچک تری دارند – مقدار متنی که می توانند به طور همزمان پردازش کنند
- مثال: SLM هایی مانند Llama 3.2 با 128 هزار توکن مدیریت می کنند، در حالی که Gemini 1.5 2 میلیون توکن را پردازش می کند.
- راه حل هایی مانند “تکه تکه شدنبه مدیریت متنهای طولانیتر با شکستن آنها به قطعات کوچکتر کمک کنید
جاده پیش رو
SLM ها در چندین برنامه تجاری کلیدی موفقیت پیدا می کنند:
- برنامه های کاربردی هدفمند: کسبوکارهایی با وظایف زبانی خاص و با دامنه محدود، مانند تجزیه و تحلیل بازخورد مشتری یا درخواستهای خاص دامنه، میتوانند از کارایی SLM بهره ببرند.
- پردازش زمان واقعی: SLM ها برای تعاملات بلادرنگ، مانند چت بات ها و خدمات ترجمه زنده، مناسب هستند، زیرا به دلیل اندازه کوچکتر، زمان پاسخگویی سریع تری را ارائه می دهند.
- نگرانی های حفظ حریم خصوصی داده ها: در صنایعی مانند مراقبت های بهداشتی و مالی، SLM ها می توانند داده های حساس را به صورت محلی پردازش کنند و به شرکت ها کمک می کنند تا از مقرراتی مانند GDPR یا HIPAA پیروی کنند.
- عوامل هوش مصنوعی و ارکستراسیون: SLM ها به عنوان عوامل تخصصی هوش مصنوعی برتری می یابند که هر کدام وظایف خاصی را انجام می دهند. کسب و کارها می توانند سیستم هایی از این عوامل ایجاد کنند که با هم کار می کنند و کارایی SLM ها را با تطبیق پذیری داشتن چندین مؤلفه تخصصی ترکیب می کنند.
انتخاب درست برای کسب و کار شما
هنگام تصمیم گیری در مورد اینکه آیا SLM ها برای نیازهای شرکت شما مناسب هستند یا خیر، در اینجا باید به چند عامل توجه کنید:
- وظیفه یا مشکل خاصی که سعی در حل آن دارید چیست؟
- منابع محاسباتی و محدودیت های بودجه شما چیست؟
- آیا الزامات خاصی برای حفظ حریم خصوصی داده ها دارید؟
- حجم و فرکانس مورد انتظار استفاده از مدل چقدر است؟
- آیا به قابلیت های پردازش بلادرنگ نیاز دارید؟
SLM ها اجرای عملی هوش مصنوعی را نشان می دهند. آنها تعادل موثری از قابلیت و کارایی را برای مشاغلی که به دنبال راه حل های هوش مصنوعی قابل اعتماد و مقرون به صرفه هستند ارائه می دهند.
اگر می خواهید در مورد من بیشتر بدانید، لطفا بررسی کنید www.paulferguson.me، یا با من در ارتباط باشید لینکدین.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/artificial-intelligence/why-small-language-models-make-business-sense