نویسنده(های): چارلی پلی
در ابتدا منتشر شد به سمت هوش مصنوعی.
با نزدیک شدن به پایان سال 2024، یکی از مشاهدات اصلی را می توان انجام داد: مهندسی هوش مصنوعی در حال بلوغ است، به دنبال راهی ایمن تر، دقیق تر و قابل اعتمادتر برای قرار دادن RAG ها و Agents در دست کاربر.
تکرارهای تحریک اکنون بر ارزیابی ها یا “Evals” تکیه می کنند، تکنیکی که از تست واحد مهندسی نرم افزار کلاسیک الهام گرفته شده است. AI Engineering همچنین با معماری مهندسی نرم افزار ادغام می شود تا از ارکستراسیون پشتیبانی کند نیاز روزافزون به ابزارهای بیشتر و استفاده از مخلوط مدل ها در گردش کار عاملی.
این مقاله سه ستون مورد استفاده در مهندسی هوش مصنوعی را پوشش میدهد تا مأموریت خود را برای ارائه یک تجربه هوش مصنوعی ایمن و قابل اعتماد به کاربران در مقیاس انجام دهد: ارزیابی LLM، نرده های محافظ، و ارکستراسیون بهتر.
ارزیابی LLM: از تست واحد تا نظارت
ارزیابی LLM چیست؟
ارزیابیهای LLM کیفیت و ارتباط پاسخهایی را که یک مدل هوش مصنوعی از اعلانهای داده شده تولید میکند، ارزیابی میکند. در حالی که تا حدی از آزمایش واحد الهام گرفته شده است، ارزیابی LLM فقط در مراحل توسعه و نمونه سازی اتفاق نمی افتد. در حال حاضر بهترین روش ارزیابی مداوم کیفیت و ارتباط به طور مداوم است، مشابه آزمایش A/B:
- استفاده از ارزیابی LLM در طول توسعه متشکل از محک زدن کیفیت و ارتباط پیام های شما
- هنگامی که در تولید استفاده می شود، ارزیابی LLM (که “ارزیابی آنلاین” نیز نامیده می شود) کمک می کند بر تکامل نظارت کند کیفیت برنامه هوش مصنوعی شما در طول زمان و شناسایی مشکلات احتمالی رگرسیون.
چگونه ارزیابی LLM را انجام دهیم؟
یک ارزیابی LLM از چهار جزء تشکیل شده است:
- یک ورودی (همان چیزی است که برای مدل LLM ارائه شده است)
- یک خروجی مورد انتظار
- یک امتیاز دهنده یا روش های ارزشیابی
- یک مدل LLM برای تماس
مهمترین مؤلفه ارزیابی LLM این است امتیاز دهنده یا روش ارزیابی.
در حالی که آزمونهای معمولی واحد مهندسی نرمافزار بر موارد منطبق است (“برابر است”، “تطابق دارد”، “شامل”)، ماهیت غیرقابل پیشبینی LLM ما را ملزم میکند که پاسخهای آنها را با انعطافپذیری بیشتری ارزیابی کنیم.
به همین دلیل، روشهای ارزیابی مبتنی بر ارزیابی آماری مانند فاصله لونشتاین یا استفاده از دیگری است LLM به عنوان یک قاضی.
هنگام حرکت به سمت تولید، یک روش خوب این است که گزارش های عملیات LLM و بازخورد کاربر نهایی را به یک ابزار مشاهده پذیری LLM ارسال کنید.
گزارشها و بازخورد کاربر سپس نمونهبرداری میشوند و در برابر LLM به عنوان یک روش ارزیابی داوری ارزیابی میشوند و نتایج بهموقع رسم میشوند تا عملکرد بیش از زمان را برجسته کنند.
غذای آماده
ارزیابی LLM اکنون بخش مهمی از مهندسی هوش مصنوعی است که به عنوان یک مرحله تضمین کیفیت در موارد زیر عمل می کند:
- مرحله نمونه سازی: کمک به تکرار سریع دستورات و انتخاب مدل.
- انتشار تغییرات در تولید: کمک به ارزیابی عملکرد گردش کار هوش مصنوعی شما در طول زمان و جلوگیری از رگرسیون.
اکنون بیایید به ستون دیگری در انتقال ایمن هوش مصنوعی به سمت تولید برویم: حفاظ ها.
زیرساخت ارکستراسیون: قابلیت اطمینان بهتر و کارایی هزینه
بسیاری اوراق و مقالات در اوایل سال جاری منتشر شد و به نمایش گذاشت عملکرد فوق العاده از ترکیب چندین نوع مدل و ابزارهای اهرمی بهتر.
ابزارهای جدیدی برای کمک به تنظیم پیچیدگی رو به افزایش گردش کار هوش مصنوعی ایجاد شده است، مانند LangGraph و اخیراً ازدحام OpenAI. با این حال، این ابزارها عمدتاً بر کمک به نمونهسازی سریع جریانهای کاری عامل تمرکز میکنند و ما را مجبور به مقابله با چالش های اصلی پیشبرد جریان های کاری هوش مصنوعی در تولید:
- قابلیت اطمینان و مقیاس پذیری: از آنجایی که گردشهای کاری هوش مصنوعی خدمات خارجی بیشتری (Evals، Guardrails)، ابزارها (API) و مدلها را برای دستیابی به بهترین عملکرد LLM ترکیب میکنند، پیچیدگی و قرار گرفتن در معرض خطاهای خارجی افزایش مییابد.
- مدیریت هزینه: قرار دادن یک برنامه AI در تولید به برخی از Guardrail ها برای محافظت از کاربران نهایی نیاز دارد، اما از برنامه هوش مصنوعی در برابر سوء استفاده محافظت نمی کند، که منجر به هزینه های ناخواسته LLM می شود.
- ماهیت چند اجاره ای برنامه های هوش مصنوعی: بیشتر برنامه های هوش مصنوعی به مکالمات یا داده های چند کاربر متکی هستند. این امر مستلزم برخی انتخابهای معماری برای جلوگیری از مسائل منصفانه است (استفاده از یک کاربر نباید بر دیگری تأثیر بگذارد) و جداسازی دادهها برای جلوگیری از نشت دادهها.
از آنجایی که شرکتهای بیشتری برنامههای هوش مصنوعی را برای تولید عرضه میکنند، بسیاری از آنها به راهحلهای هماهنگسازی گردش کار هوش مصنوعی روی میآورند تا به طور قابل اعتماد برنامههای خود را در مقیاس اجرا کنند.
گردش کار هوش مصنوعی به عنوان مراحل: قابلیت اطمینان و ذخیره سازی گنجانده شده است
یکی از رویکردهای موفق برای عملیاتی کردن گردشهای کاری هوش مصنوعی در تولید، بر آن تکیه دارد گردش کار بادوام مانند اینگست.
گردشهای کاری بادوام به شما امکان میدهد گردشهای کاری هوش مصنوعی متشکل از مراحل قابل تکرار و مرتبط (مانند زنجیرهها) با بهرهمندی از سه ویژگی ضروری بسازید:
شکست در مرحله دوم گردش کار هوش مصنوعی Inngest باعث اجرای مجدد اولین تماس LLM نمی شود.
Durable Workflows یک رویکرد مدرن برای ساخت گردشهای کاری طولانیمدت متشکل از مراحل قابل اعتماد ارائه میکند، که معمولاً برای نوشتن با استفاده از راهحلهایی مانند Airflow، AWS Step Functions یا SQS چالشبرانگیزتر است.
اهمیت چند اجارهنشینی در برنامههای هوش مصنوعی
برنامه های کاربردی هوش مصنوعی اغلب در SaaS کار می کنند و توسط چندین کاربر از شرکت های مختلف استفاده می شوند.
در این تنظیمات، بسیار مهم است که اطمینان حاصل شود که هر جریان کاری هوش مصنوعی در مستاجر خودش تکامل مییابد بدون هیچ گونه عوارض جانبی ناشی از افزایش استفاده و با جداسازی داده های متمایز.
گردشهای کاری هوش مصنوعی ساختهشده با Inngest بر مکانیزم صف تکیه دارند. افزودن قابلیت های چند اجاره ای را آسان می کند.
محدود کردن تعداد فراخوانی گردش کار هوش مصنوعی ما به ازای هر کاربر با یک روش ساده به دست می آیدthrottle
پیکربندی:
درباره انصاف و چند اجاره ای در سیستم های صف بیشتر بیاموزید.
نرده های محافظ: ایمنی و رعایت
چرا به گاردریل نیاز داریم؟
در حالی که ارزیابی LLM به ارزیابی کیفیت کلی ویژگی های هوش مصنوعی شما کمک می کند، از رفتار ناخواسته پاسخ های LLM شما جلوگیری نمی کند. کاربران آن می توانند LLM را دستکاری کنند یا توهم داشته باشند که در نتیجه به برند یا تجارت شما آسیب وارد می کند (به عنوان مثال، ربات چت AirCanada در حال اختراع T&Cهای جدید است).
LLM Guardrails به شناسایی و رهگیری ورودی های ناخواسته کاربر و خروجی های LLM کمک می کند.
نحوه اجرای گاردریل
LLM Guardrails شباهتهایی با روش ارزیابی LLM-as-a-a-judge با تکیه بر دستورالعملهای ایمنی LLM Evaluations دارد:
اعتبارات: [2401.18018] در مورد حفاظت سریع برای مدل های زبان بزرگ
اعلان های ایمنی را می توان به راحتی به عنوان راهنمایی به درخواست های LLM موجود شما اضافه کرد. یک رویکرد قوی تر به رویکرد LLM-as-a-judge متکی است که قبلاً در ارزیابی های LLM پوشش داده شده بود. یک مثال کامل از پایتون پیدا خواهید کرد در این کتاب آشپزی OpenAI.
اگر میخواهید از برنامهتان در برابر رفتارهای نادرست رایج مانند فحاشی، خلاصهسازی بد یا ذکر رقبا محافظت کنید، به نرده محافظ نمو یا Guardrails AI.
تکامل بعدی Guardrails
یک مطالعه اخیر پیشنهاد می کند که استفاده از دستورات ایمنی احتمال منفی کاذب را افزایش می دهد و در نتیجه مدل ها ورودی های بی ضرر را رد می کنند.
در عوض، رویکرد آنها شامل استفاده از تعبیهها برای تکامل سریع ایمنی در طول زمان است که منجر به ارزیابی بهتر درخواستهای مضر میشود:
ما روشی به نام DRO (بهینه سازی نمایندگی مستقیم) برای بهینه سازی سریع ایمنی خودکار پیشنهاد می کنیم. این درخواستهای ایمنی را بهعنوان جاسازیهای پیوسته و قابل آموزش در نظر میگیرد و یاد میگیرد که نمایشهای جستجوهای مضر/بیضرر را در امتداد/برعکس جهتی که احتمال امتناع مدل افزایش مییابد، حرکت دهد.»
[2401.18018] در مورد حفاظت سریع برای مدل های زبان بزرگ
نمونه کد هستند در GitHub موجود است.
غذای آماده
راهاندازی ارزیابیهای LLM مانع از ایجاد توهم یا ذکر نام رقبای برنامه هوش مصنوعی شما نمیشود.
حفاظها را میتوان به راحتی پیادهسازی کرد، با دستورات ایمنی شروع کرد یا از کتابخانههای آزمایششده مانند Guardrails AI یا NeMo Guardrails استفاده کرد. با پیشرفت تحقیقات، ممکن است تا پایان سال شاهد جایگزینهای مقرونبهصرفه و کارآمدتری بهعنوان کتابخانهها باشیم.
نتیجه گیری
مهندسی هوش مصنوعی در سال 2024 به سرعت در حال پیشرفت است تا اطمینان حاصل شود که راه حل های هوش مصنوعی ایمن، قابل اعتماد و کاربردی هستند تا توسط کاربران در مقیاس مورد استفاده قرار گیرند، با موارد زیر:
- ارکستراسیون برای گردش های کاری قابل اعتماد هوش مصنوعی: ابزار ارکستراسیون در مدیریت گردشهای کاری عامل و هماهنگی تعاملات چندوجهی حیاتی میشوند و از ادغام یکپارچه عملکردهای متنوع هوش مصنوعی پشتیبانی میکنند.
- ارزیابی LLM به عنوان تمرین مستمر: با الهام از تست واحد مهندسی نرم افزار، ارزیابی LLM در طول توسعه و تولید برای معیار و بهبود پاسخ های مدل به طور مداوم ضروری است.
- اجرای حفاظ برای ایمنی: نردههای محافظ به مدیریت و کنترل رفتار هوش مصنوعی کمک میکنند، اطمینان حاصل میکنند که پاسخها با استانداردهای اخلاقی و عملکردی مطابقت دارند، بنابراین اعتماد و ایمنی کاربر را افزایش میدهند.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/l/the-principles-of-production-ai