چرا مدل های زبانی کوچک به کسب و کار معنا می دهند؟

نویسنده(های): پل فرگوسن، Ph.D.

در ابتدا منتشر شد به سمت هوش مصنوعی.

مدل‌های زبان کوچک با ارائه راه‌حل‌هایی که با استفاده از سخت‌افزار استاندارد به‌طور کارآمد عمل می‌کنند، روش‌های پیاده‌سازی هوش مصنوعی را تغییر می‌دهند.

علیرغم توجهی که به مدل‌های عظیم هوش مصنوعی می‌شود، این جایگزین‌های فشرده نشان می‌دهند که در دنیای واقعی، کوچک‌تر اغلب به معنای هوشمندتر، سریع‌تر و مقرون‌به‌صرفه‌تر است.

SLM چیست؟

مدل های زبان کوچک (SLM) بسیار شبیه به آن هستند مدل های زبان بزرگ (LLMs) که همه ما با آن آشنا هستیم (مثلا ChatGPT)، به جز اینکه اندازه آنها کوچکتر است.

مقیاس مدل

SLM ها معمولاً از چند میلیون تا چند میلیارد پارامتر متغیر هستند
LLM ها بسیار بزرگتر هستند و ده ها میلیارد تا تریلیون پارامتر دارند
مثال: Meta’s Llama 2 در انواع 7B (7 میلیارد پارامتر) و 70B (70 میلیارد پارامتر) عرضه می شود که هر کدام نیازهای متفاوتی را برآورده می کنند.

پیاده سازی عملی

می تواند بر روی سخت افزار محاسباتی استاندارد اجرا شود
مناسب برای دستگاه های تلفن همراه و محاسبات لبه
سازگار با نیازهای خاص کسب و کار از طریق تنظیم دقیق

افزایش پذیرش

یکی از دلایل اصلی این امر این است که آنها به طور ایده آل برای برخی از کوچکترها مناسب هستند مجموعه داده ها که در مشاغل معمولی رایج تر هستند. آنها همچنین می توانند به راحتی با نیازهای دقیق یک شرکت خاص و داده های خود تنظیم شوند.

کلم دلانگ، مدیر عامل Hugging Face، این را پیش بینی می کند تا 99 درصد موارد استفاده از هوش مصنوعی را می توان با استفاده از SLM ها بررسی کرد.

شرکت‌های برجسته‌ای مانند مایکروسافت و گوگل به همراه آی‌بی‌ام و متا SLM‌هایی مانند Phi Trio و Gemma و همچنین نسخه‌های فشرده مدل‌های Llama را معرفی کرده‌اند. نشان دهنده پذیرش گسترده، در صنعت.

*موارد استفاده مناسب برای LLM در مقابل SLM*

مزایای کلیدی مدل های زبان کوچک

این مدل های جمع و جور نتایج چشمگیری را با میلیون ها پارامتر به جای میلیاردها ارائه می دهند.

مزایای آنها عبارتند از:

کارایی و مقرون به صرفه بودن: SLMها در مقایسه با LLMها به قدرت محاسباتی و حافظه کمتری نیاز دارند: این امر باعث می‌شود که آنها را سریع‌تر آموزش دهند و همچنین برای اجرای طولانی‌مدت مقرون به صرفه‌تر باشند.
برنامه های کاربردی مخصوص دامنه: SLMها در کارهایی که نیاز به دانش تخصصی دارند، مانند ربات‌های گفتگوی پشتیبانی مشتری، ترجمه بلادرنگ، خلاصه‌سازی اسناد و عملیات دستگاه اینترنت اشیا، به خوبی عمل می‌کنند. اندازه کوچکتر آن‌ها امکان تنظیم راحت‌تر مجموعه داده‌های خاص را فراهم می‌آورد که به آنها امکان می‌دهد تا با موارد خاص استفاده کنند.
حریم خصوصی پیشرفته: به دلیل ماهیت فشرده خود، SLM ها می توانند به صورت محلی (به عنوان مثال، در دستگاه های تلفن همراه) کار کنند. این به طور قابل توجهی حفاظت از داده ها را با محدود کردن نیاز به خدمات پردازش مبتنی بر ابر افزایش می دهد.
کاهش اثرات زیست محیطی: نیازهای محاسباتی کمتر منجر به مصرف انرژی کمتر در هر دو فرآیند آموزش و استنتاج می شود. که برای شرکت هایی که هدفشان دستیابی به اهداف پایداری است، عاملی حیاتی است.

مبانی فنی

سه استراتژی کلیدی امکان ایجاد این مدل ها را فراهم می کند.

تقطیر دانش: این فرآیند شامل آموزش یک مدل کوچکتر برای تقلید از رفتار یک فرد بزرگتر است. به عنوان مثال، یک SLM خدمات مشتری ممکن است متداول ترین سناریوهای پشتیبانی را از یک مدل بزرگتر بیاموزد در حالی که به اندازه کافی جمع و جور باقی بماند تا روی سرورهای محلی اجرا شود.
هرس مدل: این تکنیک شامل حذف اتصالات کمتر مهم در مدل است: از طریق هرس دقیق، مدل ها اغلب می توانند بیشتر عملکرد خود را حفظ کنند و در عین حال اندازه خود را به میزان قابل توجهی کاهش دهند.
کمی سازی: این روش نحوه ذخیره و پردازش داده های عددی توسط مدل را بهینه می کند. به جای استفاده از اعداد با دقت بالا (که نیاز به ذخیره سازی بیشتری دارند)، کمی سازی از قالب های اعداد کوچکتر استفاده می کند که دقت قابل قبولی را حفظ می کند. به عنوان مثال، کاهش دقت، از 32 بیت به 8 بیت، می تواند به طور قابل توجهی اندازه مدل را کوچک کند در حالی که به طور کلی سطوح عملکرد مناسب را برای استفاده های مختلف تجاری حفظ می کند.

درک محدودیت ها

در حالی که SLM ها مزایای زیادی دارند، درک برخی از محدودیت های آنها مهم است:

پیچیدگی کار

SLM ها مانند ابزارهای تخصصی هستند، در حالی که LLM ها بیشتر شبیه چاقوهای ارتش سوئیس هستند
آنها در وظایف خاص عالی هستند، اما ممکن است با برنامه های کاربردی گسترده تر مبارزه کنند
برای مشکلات تجاری متمرکز و کاملاً تعریف شده مناسب است

انواع ورودی

اکثر SLM ها با یک نوع ورودی کار می کنند (معمولا متن)
برخلاف مدل‌های بزرگ‌تر، معمولاً چندوجهی نیستند (نمی‌توانند تصاویر، صدا و غیره را پردازش کنند).
برای بسیاری از کاربردهای تجاری، این رویکرد تک تمرکز در واقع سودمند است

پنجره زمینه

SLM ها پنجره های زمینه کوچک تری دارند – مقدار متنی که می توانند به طور همزمان پردازش کنند
مثال: SLM هایی مانند Llama 3.2 با 128 هزار توکن مدیریت می کنند، در حالی که Gemini 1.5 2 میلیون توکن را پردازش می کند.
راه حل هایی مانند “تکه تکه شدنبه مدیریت متن‌های طولانی‌تر با شکستن آن‌ها به قطعات کوچک‌تر کمک کنید

جاده پیش رو

SLM ها در چندین برنامه تجاری کلیدی موفقیت پیدا می کنند:

برنامه های کاربردی هدفمند: کسب‌وکارهایی با وظایف زبانی خاص و با دامنه محدود، مانند تجزیه و تحلیل بازخورد مشتری یا درخواست‌های خاص دامنه، می‌توانند از کارایی SLM بهره ببرند.
پردازش زمان واقعی: SLM ها برای تعاملات بلادرنگ، مانند چت بات ها و خدمات ترجمه زنده، مناسب هستند، زیرا به دلیل اندازه کوچکتر، زمان پاسخگویی سریع تری را ارائه می دهند.
نگرانی های حفظ حریم خصوصی داده ها: در صنایعی مانند مراقبت های بهداشتی و مالی، SLM ها می توانند داده های حساس را به صورت محلی پردازش کنند و به شرکت ها کمک می کنند تا از مقرراتی مانند GDPR یا HIPAA پیروی کنند.
عوامل هوش مصنوعی و ارکستراسیون: SLM ها به عنوان عوامل تخصصی هوش مصنوعی برتری می یابند که هر کدام وظایف خاصی را انجام می دهند. کسب و کارها می توانند سیستم هایی از این عوامل ایجاد کنند که با هم کار می کنند و کارایی SLM ها را با تطبیق پذیری داشتن چندین مؤلفه تخصصی ترکیب می کنند.

انتخاب درست برای کسب و کار شما

هنگام تصمیم گیری در مورد اینکه آیا SLM ها برای نیازهای شرکت شما مناسب هستند یا خیر، در اینجا باید به چند عامل توجه کنید:

وظیفه یا مشکل خاصی که سعی در حل آن دارید چیست؟
منابع محاسباتی و محدودیت های بودجه شما چیست؟
آیا الزامات خاصی برای حفظ حریم خصوصی داده ها دارید؟
حجم و فرکانس مورد انتظار استفاده از مدل چقدر است؟
آیا به قابلیت های پردازش بلادرنگ نیاز دارید؟

SLM ها اجرای عملی هوش مصنوعی را نشان می دهند. آنها تعادل موثری از قابلیت و کارایی را برای مشاغلی که به دنبال راه حل های هوش مصنوعی قابل اعتماد و مقرون به صرفه هستند ارائه می دهند.

اگر می خواهید در مورد من بیشتر بدانید، لطفا بررسی کنید www.paulferguson.me، یا با من در ارتباط باشید لینکدین.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/artificial-intelligence/why-small-language-models-make-business-sense