اصول تولید هوش مصنوعی

نویسنده(های): چارلی پلی

در ابتدا منتشر شد به سمت هوش مصنوعی.

با نزدیک شدن به پایان سال 2024، یکی از مشاهدات اصلی را می توان انجام داد: مهندسی هوش مصنوعی در حال بلوغ است، به دنبال راهی ایمن تر، دقیق تر و قابل اعتمادتر برای قرار دادن RAG ها و Agents در دست کاربر.

تکرارهای تحریک اکنون بر ارزیابی ها یا “Evals” تکیه می کنند، تکنیکی که از تست واحد مهندسی نرم افزار کلاسیک الهام گرفته شده است. AI Engineering همچنین با معماری مهندسی نرم افزار ادغام می شود تا از ارکستراسیون پشتیبانی کند نیاز روزافزون به ابزارهای بیشتر و استفاده از مخلوط مدل ها در گردش کار عاملی.

این مقاله سه ستون مورد استفاده در مهندسی هوش مصنوعی را پوشش می‌دهد تا مأموریت خود را برای ارائه یک تجربه هوش مصنوعی ایمن و قابل اعتماد به کاربران در مقیاس انجام دهد: ارزیابی LLM، نرده های محافظ، و ارکستراسیون بهتر.

ارزیابی LLM: از تست واحد تا نظارت

ارزیابی LLM چیست؟

ارزیابی‌های LLM کیفیت و ارتباط پاسخ‌هایی را که یک مدل هوش مصنوعی از اعلان‌های داده شده تولید می‌کند، ارزیابی می‌کند. در حالی که تا حدی از آزمایش واحد الهام گرفته شده است، ارزیابی LLM فقط در مراحل توسعه و نمونه سازی اتفاق نمی افتد. در حال حاضر بهترین روش ارزیابی مداوم کیفیت و ارتباط به طور مداوم است، مشابه آزمایش A/B:

استفاده از ارزیابی LLM در طول توسعه متشکل از محک زدن کیفیت و ارتباط پیام های شما
هنگامی که در تولید استفاده می شود، ارزیابی LLM (که “ارزیابی آنلاین” نیز نامیده می شود) کمک می کند بر تکامل نظارت کند کیفیت برنامه هوش مصنوعی شما در طول زمان و شناسایی مشکلات احتمالی رگرسیون.

چگونه ارزیابی LLM را انجام دهیم؟

یک ارزیابی LLM از چهار جزء تشکیل شده است:

یک ورودی (همان چیزی است که برای مدل LLM ارائه شده است)
یک خروجی مورد انتظار
یک امتیاز دهنده یا روش های ارزشیابی
یک مدل LLM برای تماس

مهمترین مؤلفه ارزیابی LLM این است امتیاز دهنده یا روش ارزیابی.
در حالی که آزمون‌های معمولی واحد مهندسی نرم‌افزار بر موارد منطبق است (“برابر است”، “تطابق دارد”، “شامل”)، ماهیت غیرقابل پیش‌بینی LLM ما را ملزم می‌کند که پاسخ‌های آنها را با انعطاف‌پذیری بیشتری ارزیابی کنیم.
به همین دلیل، روش‌های ارزیابی مبتنی بر ارزیابی آماری مانند فاصله لونشتاین یا استفاده از دیگری است LLM به عنوان یک قاضی.

هنگام حرکت به سمت تولید، یک روش خوب این است که گزارش های عملیات LLM و بازخورد کاربر نهایی را به یک ابزار مشاهده پذیری LLM ارسال کنید.
گزارش‌ها و بازخورد کاربر سپس نمونه‌برداری می‌شوند و در برابر LLM به عنوان یک روش ارزیابی داوری ارزیابی می‌شوند و نتایج به‌موقع رسم می‌شوند تا عملکرد بیش از زمان را برجسته کنند.

غذای آماده

ارزیابی LLM اکنون بخش مهمی از مهندسی هوش مصنوعی است که به عنوان یک مرحله تضمین کیفیت در موارد زیر عمل می کند:

مرحله نمونه سازی: کمک به تکرار سریع دستورات و انتخاب مدل.
انتشار تغییرات در تولید: کمک به ارزیابی عملکرد گردش کار هوش مصنوعی شما در طول زمان و جلوگیری از رگرسیون.

اکنون بیایید به ستون دیگری در انتقال ایمن هوش مصنوعی به سمت تولید برویم: حفاظ ها.

زیرساخت ارکستراسیون: قابلیت اطمینان بهتر و کارایی هزینه

بسیاری اوراق و مقالات در اوایل سال جاری منتشر شد و به نمایش گذاشت عملکرد فوق العاده از ترکیب چندین نوع مدل و ابزارهای اهرمی بهتر.
ابزارهای جدیدی برای کمک به تنظیم پیچیدگی رو به افزایش گردش کار هوش مصنوعی ایجاد شده است، مانند LangGraph و اخیراً ازدحام OpenAI. با این حال، این ابزارها عمدتاً بر کمک به نمونه‌سازی سریع جریان‌های کاری عامل تمرکز می‌کنند و ما را مجبور به مقابله با چالش های اصلی پیشبرد جریان های کاری هوش مصنوعی در تولید:

قابلیت اطمینان و مقیاس پذیری: از آنجایی که گردش‌های کاری هوش مصنوعی خدمات خارجی بیشتری (Evals، Guardrails)، ابزارها (API) و مدل‌ها را برای دستیابی به بهترین عملکرد LLM ترکیب می‌کنند، پیچیدگی و قرار گرفتن در معرض خطاهای خارجی افزایش می‌یابد.
مدیریت هزینه: قرار دادن یک برنامه AI در تولید به برخی از Guardrail ها برای محافظت از کاربران نهایی نیاز دارد، اما از برنامه هوش مصنوعی در برابر سوء استفاده محافظت نمی کند، که منجر به هزینه های ناخواسته LLM می شود.
ماهیت چند اجاره ای برنامه های هوش مصنوعی: بیشتر برنامه های هوش مصنوعی به مکالمات یا داده های چند کاربر متکی هستند. این امر مستلزم برخی انتخاب‌های معماری برای جلوگیری از مسائل منصفانه است (استفاده از یک کاربر نباید بر دیگری تأثیر بگذارد) و جداسازی داده‌ها برای جلوگیری از نشت داده‌ها.

از آنجایی که شرکت‌های بیشتری برنامه‌های هوش مصنوعی را برای تولید عرضه می‌کنند، بسیاری از آنها به راه‌حل‌های هماهنگ‌سازی گردش کار هوش مصنوعی روی می‌آورند تا به طور قابل اعتماد برنامه‌های خود را در مقیاس اجرا کنند.

گردش کار هوش مصنوعی به عنوان مراحل: قابلیت اطمینان و ذخیره سازی گنجانده شده است

یکی از رویکردهای موفق برای عملیاتی کردن گردش‌های کاری هوش مصنوعی در تولید، بر آن تکیه دارد گردش کار بادوام مانند اینگست.
گردش‌های کاری بادوام به شما امکان می‌دهد گردش‌های کاری هوش مصنوعی متشکل از مراحل قابل تکرار و مرتبط (مانند زنجیره‌ها) با بهره‌مندی از سه ویژگی ضروری بسازید:

شکست در مرحله دوم گردش کار هوش مصنوعی Inngest باعث اجرای مجدد اولین تماس LLM نمی شود.

Durable Workflows یک رویکرد مدرن برای ساخت گردش‌های کاری طولانی‌مدت متشکل از مراحل قابل اعتماد ارائه می‌کند، که معمولاً برای نوشتن با استفاده از راه‌حل‌هایی مانند Airflow، AWS Step Functions یا SQS چالش‌برانگیزتر است.

اهمیت چند اجاره‌نشینی در برنامه‌های هوش مصنوعی

برنامه های کاربردی هوش مصنوعی اغلب در SaaS کار می کنند و توسط چندین کاربر از شرکت های مختلف استفاده می شوند.
در این تنظیمات، بسیار مهم است که اطمینان حاصل شود که هر جریان کاری هوش مصنوعی در مستاجر خودش تکامل می‌یابد بدون هیچ گونه عوارض جانبی ناشی از افزایش استفاده و با جداسازی داده های متمایز.

گردش‌های کاری هوش مصنوعی ساخته‌شده با Inngest بر مکانیزم صف تکیه دارند. افزودن قابلیت های چند اجاره ای را آسان می کند.
محدود کردن تعداد فراخوانی گردش کار هوش مصنوعی ما به ازای هر کاربر با یک روش ساده به دست می آیدthrottle پیکربندی:

درباره انصاف و چند اجاره ای در سیستم های صف بیشتر بیاموزید.

نرده های محافظ: ایمنی و رعایت

چرا به گاردریل نیاز داریم؟

در حالی که ارزیابی LLM به ارزیابی کیفیت کلی ویژگی های هوش مصنوعی شما کمک می کند، از رفتار ناخواسته پاسخ های LLM شما جلوگیری نمی کند. کاربران آن می توانند LLM را دستکاری کنند یا توهم داشته باشند که در نتیجه به برند یا تجارت شما آسیب وارد می کند (به عنوان مثال، ربات چت AirCanada در حال اختراع T&Cهای جدید است).
LLM Guardrails به شناسایی و رهگیری ورودی های ناخواسته کاربر و خروجی های LLM کمک می کند.

نحوه اجرای گاردریل

LLM Guardrails شباهت‌هایی با روش ارزیابی LLM-as-a-a-judge با تکیه بر دستورالعمل‌های ایمنی LLM Evaluations دارد:

اعتبارات: [2401.18018] در مورد حفاظت سریع برای مدل های زبان بزرگ

اعلان های ایمنی را می توان به راحتی به عنوان راهنمایی به درخواست های LLM موجود شما اضافه کرد. یک رویکرد قوی تر به رویکرد LLM-as-a-judge متکی است که قبلاً در ارزیابی های LLM پوشش داده شده بود. یک مثال کامل از پایتون پیدا خواهید کرد در این کتاب آشپزی OpenAI.

اگر می‌خواهید از برنامه‌تان در برابر رفتارهای نادرست رایج مانند فحاشی، خلاصه‌سازی بد یا ذکر رقبا محافظت کنید، به نرده محافظ نمو یا Guardrails AI.

تکامل بعدی Guardrails

یک مطالعه اخیر پیشنهاد می کند که استفاده از دستورات ایمنی احتمال منفی کاذب را افزایش می دهد و در نتیجه مدل ها ورودی های بی ضرر را رد می کنند.
در عوض، رویکرد آن‌ها شامل استفاده از تعبیه‌ها برای تکامل سریع ایمنی در طول زمان است که منجر به ارزیابی بهتر درخواست‌های مضر می‌شود:

ما روشی به نام DRO (بهینه سازی نمایندگی مستقیم) برای بهینه سازی سریع ایمنی خودکار پیشنهاد می کنیم. این درخواست‌های ایمنی را به‌عنوان جاسازی‌های پیوسته و قابل آموزش در نظر می‌گیرد و یاد می‌گیرد که نمایش‌های جستجوهای مضر/بی‌ضرر را در امتداد/برعکس جهتی که احتمال امتناع مدل افزایش می‌یابد، حرکت دهد.»
[2401.18018] در مورد حفاظت سریع برای مدل های زبان بزرگ

نمونه کد هستند در GitHub موجود است.

غذای آماده

راه‌اندازی ارزیابی‌های LLM مانع از ایجاد توهم یا ذکر نام رقبای برنامه هوش مصنوعی شما نمی‌شود.
حفاظ‌ها را می‌توان به راحتی پیاده‌سازی کرد، با دستورات ایمنی شروع کرد یا از کتابخانه‌های آزمایش‌شده مانند Guardrails AI یا NeMo Guardrails استفاده کرد. با پیشرفت تحقیقات، ممکن است تا پایان سال شاهد جایگزین‌های مقرون‌به‌صرفه و کارآمدتری به‌عنوان کتابخانه‌ها باشیم.

نتیجه گیری

مهندسی هوش مصنوعی در سال 2024 به سرعت در حال پیشرفت است تا اطمینان حاصل شود که راه حل های هوش مصنوعی ایمن، قابل اعتماد و کاربردی هستند تا توسط کاربران در مقیاس مورد استفاده قرار گیرند، با موارد زیر:

ارکستراسیون برای گردش های کاری قابل اعتماد هوش مصنوعی: ابزار ارکستراسیون در مدیریت گردش‌های کاری عامل و هماهنگی تعاملات چندوجهی حیاتی می‌شوند و از ادغام یکپارچه عملکردهای متنوع هوش مصنوعی پشتیبانی می‌کنند.
ارزیابی LLM به عنوان تمرین مستمر: با الهام از تست واحد مهندسی نرم افزار، ارزیابی LLM در طول توسعه و تولید برای معیار و بهبود پاسخ های مدل به طور مداوم ضروری است.
اجرای حفاظ برای ایمنی: نرده‌های محافظ به مدیریت و کنترل رفتار هوش مصنوعی کمک می‌کنند، اطمینان حاصل می‌کنند که پاسخ‌ها با استانداردهای اخلاقی و عملکردی مطابقت دارند، بنابراین اعتماد و ایمنی کاربر را افزایش می‌دهند.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/l/the-principles-of-production-ai