در این مقاله، پنج تکنیک فشرده سازی سریع عملی را یاد خواهید گرفت که توکن ها را کاهش می دهد و تولید مدل زبان بزرگ (LLM) را بدون کاهش کیفیت کار سرعت می بخشد.
موضوعاتی که به آنها خواهیم پرداخت عبارتند از:
- خلاصه معنایی چیست و چه زمانی باید از آن استفاده کرد
- اعلان ساختاری، فیلتر ارتباط، و ارجاع دستورالعمل برش توکن شمارش می شود
- انتزاع الگو در کجا قرار می گیرد و چگونه می توان آن را به طور مداوم اعمال کرد
بیایید این تکنیک ها را بررسی کنیم.
فشرده سازی سریع برای بهینه سازی نسل LLM و کاهش هزینه
تصویر توسط ویرایشگر
مقدمه
مدل های زبان بزرگ (LLMs) عمدتاً برای ایجاد پاسخهای متنی به سؤالات یا درخواستهای کاربر، با استدلال پیچیده زیر سرپوشیده آموزش دیدهاند که نه تنها شامل تولید زبان با پیشبینی هر نشانه بعدی در دنباله خروجی است، بلکه مستلزم درک عمیق الگوهای زبانی پیرامون متن ورودی کاربر است.
فشرده سازی سریع تکنیکها یک موضوع تحقیقاتی هستند که اخیراً به دلیل نیاز به کاهش استنتاج آهسته و زمانبر ناشی از درخواستهای کاربر بزرگتر و پنجرههای زمینه، توجه را در سراسر چشمانداز LLM به خود جلب کرده است. این تکنیکها برای کمک به کاهش استفاده از توکن، تسریع تولید توکن و کاهش هزینههای محاسباتی کلی طراحی شدهاند و در عین حال کیفیت نتیجه کار را تا حد امکان حفظ میکنند.
این مقاله پنج تکنیک فشرده سازی سریع را که معمولاً مورد استفاده قرار می گیرد برای سرعت بخشیدن به تولید LLM در سناریوهای چالش برانگیز ارائه و توصیف می کند.
1. خلاصه معنایی
خلاصهسازی معنایی تکنیکی است که محتوای طولانی یا تکراری را در نسخهای مختصرتر فشرده میکند و در عین حال معنای اساسی خود را حفظ میکند. به جای تغذیه کل مکالمه یا اسناد متنی به مدل به صورت مکرر، خلاصه ای که فقط شامل موارد ضروری است ارسال می شود. نتیجه: تعداد نشانههای ورودی که مدل باید بخواند کمتر میشود، در نتیجه فرآیند تولید توکن بعدی تسریع میشود و هزینهها بدون از دست دادن اطلاعات کلیدی کاهش مییابد.
فرض کنید یک متن سریع طولانی شامل صورتجلسه جلسه، مانند «در جلسه دیروز، ایوان اعداد سه ماهه را بررسی کرد…“، جمع بندی حداکثر پنج پاراگراف. پس از خلاصه معنایی، متن کوتاه شده ممکن است شبیه به “خلاصه: ایوان اعداد سه ماهه را بررسی کرد، کاهش فروش در سه ماهه چهارم را برجسته کرد و اقداماتی را برای صرفه جویی در هزینه پیشنهاد کرد.”
2. اعلان ساختار یافته (JSON).
این تکنیک بر بیان قطعات طولانی و روان اطلاعات متنی در قالبهای فشرده و نیمه ساختار یافته مانند JSON (یعنی جفتهای کلید-مقدار) یا لیستی از نقاط گلوله تمرکز دارد. قالبهای هدف مورد استفاده برای تحریک ساختاریافته معمولاً کاهش تعداد توکنها را به دنبال دارد. این به مدل کمک می کند تا دستورالعمل های کاربر را با اطمینان بیشتری تفسیر کند و در نتیجه، سازگاری مدل را افزایش می دهد و ابهام را کاهش می دهد و در عین حال اعلان ها را در طول مسیر کاهش می دهد.
الگوریتمهای اعلان ساختیافته ممکن است اعلانهای خام را با دستورالعملهایی مانند تغییر شکل دهند لطفاً مقایسه دقیقی بین محصول X و محصول Y با تمرکز بر قیمت، ویژگیهای محصول و رتبهبندی مشتریان ارائه دهید به شکل ساختاری مانند: {وظیفه: «مقایسه»، موارد: [“Product X”, “Product Y”]، معیارها: [“price”, “features”, “ratings”]}
3. Relevance Filtering
فیلتر ارتباط، اصل «تمرکز بر آنچه واقعاً مهم است» را اعمال میکند: ارتباط را در بخشهایی از متن اندازهگیری میکند و در آخرین درخواست تنها بخشهایی از زمینه را که واقعاً برای کار مورد نظر مرتبط هستند، ترکیب میکند. به جای ریختن کل اطلاعات مانند اسنادی که بخشی از زمینه هستند، فقط زیرمجموعه های کوچکی از اطلاعاتی که بیشترین ارتباط را با درخواست هدف دارند نگهداری می شوند. این روش دیگری برای کاهش شدید اندازه سریع است و به مدل کمک می کند تا از نظر تمرکز و دقت پیش بینی بهتر رفتار کند (به یاد داشته باشید که تولید توکن LLM در اصل یک کار پیش بینی کلمه بعدی است که بارها تکرار می شود).
به عنوان مثال، یک کتابچه راهنمای محصول 10 صفحهای کامل برای تلفن همراه را در نظر بگیرید که به عنوان پیوست اضافه شده است (زمینه فوری). پس از اعمال فیلتر مربوطه، تنها چند بخش کوتاه مرتبط در مورد «عمر باتری» و «فرایند شارژ» حفظ میشوند زیرا از کاربر در مورد پیامدهای ایمنی هنگام شارژ کردن دستگاه خواسته شده است.
4. ارجاع دستورالعمل
بسیاری از اعلانها همان نوع دستورالعملها را بارها و بارها تکرار میکنند، بهعنوان مثال، «این لحن را اتخاذ کنید»، «در این قالب پاسخ دهید» یا «از جملات مختصر استفاده کنید». ارجاع دستورالعمل برای هر دستورالعمل رایج (شامل مجموعه ای از نشانه ها) یک مرجع ایجاد می کند، هر یک را فقط یک بار ثبت می کند و دوباره از آن به عنوان یک شناسه نشانه استفاده می کند. هر زمان که درخواست های آینده یک “درخواست مشترک” ثبت شده را ذکر کنند، از آن شناسه استفاده می شود. علاوه بر کوتاه کردن اعلانها، این استراتژی همچنین به حفظ رفتار ثابت در طول زمان کمک میکند.
مجموعه ای ترکیبی از دستورالعمل ها مانند “با لحن دوستانه بنویسید. از اصطلاحات خاص خودداری کنید. جملات را مختصر نگه دارید. مثال هایی ارائه دهید.” می تواند به عنوان “Use Style Guide X” ساده شود. و پس از مشخص شدن مجدد دستورالعمل های معادل، دوباره مورد استفاده قرار گیرد.
5. انتزاع الگو
برخی از الگوها یا دستورالعملها اغلب در میان اعلانها ظاهر میشوند – به عنوان مثال، ساختارهای گزارش، قالبهای ارزیابی، یا روشهای گام به گام. انتزاع الگو یک اصل مشابه را برای ارجاع دستورالعمل اعمال میکند، اما بر روی شکل و قالبی که خروجیهای تولید شده باید داشته باشند، تمرکز میکند و آن الگوهای رایج را تحت یک نام الگو قرار میدهد. سپس از ارجاع الگو استفاده می شود و LLM کار پر کردن بقیه اطلاعات را انجام می دهد. این نه تنها به شفافتر ماندن درخواستها کمک میکند، بلکه حضور توکنهای مکرر را نیز بهطور چشمگیری کاهش میدهد.
پس از انتزاع الگو، یک درخواست ممکن است به چیزی مانند «تولید یک تحلیل رقابتی با استفاده از الگوی AB-3» تبدیل شود. که در آن AB-3 لیستی از بخش های محتوای درخواستی برای تجزیه و تحلیل است که هر یک به وضوح تعریف شده است. چیزی شبیه به:
یک تحلیل رقابتی با چهار بخش تولید کنید:
- بررسی اجمالی بازار (2 تا 3 پاراگراف که روندهای صنعت را خلاصه می کند)
- تفکیک رقبا (جدول مقایسه حداقل 5 رقیب)
- نقاط قوت و ضعف (نقاط گلوله)
- توصیه های استراتژیک (3 گام قابل اجرا).
بسته بندی
این مقاله پنج روش متداول را برای سرعت بخشیدن به تولید LLM در سناریوهای چالش برانگیز با فشرده سازی اعلان های کاربر، که اغلب بر روی بخش متن آن متمرکز می شود، ارائه و شرح می دهد، که اغلب علت اصلی “اعلان های بیش از حد” است که باعث کاهش سرعت LLM می شود.