از 10 تا 10،000 کاربر: دفترچه بازی مقیاس AI عامل AI

نویسنده (ها): دره تیواری

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

از 10 تا 10،000 کاربر: دفترچه بازی مقیاس AI عامل AI

شما یک عامل هوش مصنوعی ساخته اید که با قول می درخشد ، MVP خیره کننده ای که هر نسخه ی نمایشی را به خود اختصاص می داد. در تنظیمات کنترل شده درخشان بود. اما پس از آن ، دنیای واقعی برخورد کرد.

سفارشات قصابی AI از طریق AI مک دونالد ، یا تاکسی های خود رانندگی که در خیابان های شلوغ انجماد می کنند؟ اینها اشکال جزئی نیستند. آنها یادآور واضح از شکاف گسترده بین یک نمونه اولیه امیدوار کننده و یک سیستم هوش مصنوعی هستند که قادر به اداره هرج و مرج محض مقیاس زندگی واقعی هستند.

مقیاس گذاری فقط مربوط به سرورهای بیشتر نیست. این در مورد مهندسی اساسی برای استحکام ، یادگیری مداوم ، حفاظت های اخلاقی و ستون فقرات عملیاتی است که با سرعت صنعتی سازگار است. بدون این کتاب بازی استراتژیک ، حتی مهمترین AI MVP یک رویا شکننده باقی مانده است ، که در برابر سقوط تحت همان موفقیت که برای دستیابی به آن طراحی شده است ، آسیب پذیر است.

مشکلاتی که هنگام ساخت 10،000+ کاربر ایجاد می شود

1. امنیت

استفاده مخالف وقتی انتظار دارید که از 1000 کاربران استفاده شود ، یک درد بزرگ است. آنها فرار از زندان ، حملات تزریق سریع را امتحان می کنند تا بتوانند عامل خود را کنترل کنند و این کار را انجام دهند و انجام کارهای خاصی را انجام دهند یا دانش حساس را نشان دهند.

همچنین ، برای شرکت ها ممکن است نمایندگان در برابر اهداف شرکت پاسخ دهند که برای استقرار شرکت ها به یک مشکل تبدیل شده است.

2. توهم

LLMS فضای دانش داشته باشید و اگر سریع باعث ایجاد شود LLM به یک فضای دانش بروید که در آن کمتر آموزش دیده باشد یا اصلاً آموزش دیده باشد ، آنها منجر به توهم می شوند که یک پاسخ ساخته شده است ، زیرا آنها باید جواب دهند چه صحیح باشند یا نه.

3. تأخیر

زیرساخت ها یک مشکل است ، به خصوص برای آن ها GPUمدل های خاردار. اگر عوامل هوش مصنوعی شما تأخیر بالایی دارند ، احتمالاً زیاد است که ممکن است هرگز نتوانید فروش خود را انجام دهید.

فهمیدن اینکه از کدام مدل ها استفاده می شود و چگونه می توان تأخیر را کاهش داد معماری که شما ساخته اید این در مورد فراخوانی LLM و دریافت پاسخ نیست ، امروزه عوامل ارکسترهای پیچیده ای هستند که باید با توجه به ورودی ها ، خروجی ها و کاربر هدفمند ، معماری شوند

4. مشاهده

نمایندگان هوش مصنوعی نمی توانند اشکال زدایی شوند و برای کار با توسعه دهندگان که انتظار دارند یک برنامه برای بازده خاص باشد ، کار با آنها غیرقانونی هستند. اشکال زدایی یا ردیابی را می توان تا حدودی در این جعبه های سیاه با ردپایی ، Evals و Prompts انجام داد.

5. تکرارپذیری و تراز

چگونه می دانید که یک عامل هوش مصنوعی در حال اجرا است؟ هیچ تضمینی وجود ندارد که نمایندگان شما به طور مداوم در تولید عمل کنند

6. پنجره زمینه بزرگ

نگه داشتن کل پنجره زمینه برای هر تعامل یک تنگنا محاسباتی و مالی است ، به خصوص که مکالمات طولانی تر می شوند و تعداد کاربر افزایش می یابد.

استقرار به تولید نیاز به مجموعه ای از تکنیک ها دارد که برای مقاومت در برابر و قوی بودن استفاده می شود. اجرای EVALS ، اضافه کردن مشاهده ، حافظه و نگهبان برای اطمینان از اینکه سرکش را به تولید نمی فرستید یا اعتماد به نفس خود را از دست نمی دهید.

ارزیابی (EVALS)

مقیاس گذاری عوامل هوش مصنوعی به محیط های تولید با 10،000+ کاربر نیاز به یک چارچوب ارزیابی قوی دارد. موفقیت نه تنها به دقت خام بلکه به کارآیی ، قابلیت اطمینان ، استحکام ، هزینه و تجربه کاربر نیز وابسته است.

بچ مارک ها

معیارها مدل های AI را در آن ارزیابی می کنند مجموعه داده ها، وظایف ، گردش کار یا از طریق ارزیابی انسانی ، مانند آزمایش کور یا بررسی دقت در مورد مشکلات ریاضی. هنگام توسعه عوامل مقیاس پذیر AI ، معیارهای انتخاب مدل را راهنمایی می کنند.

به عنوان مثال برای یک کار حل مسئله در یک گردش کار عامل ، من با یک معیار ریاضی مشورت می کنم تا مدل برتر را انتخاب کنم و در عین حال اطمینان حاصل شود که سایر عوامل نیز مورد توجه قرار می گیرند.

انسان در حلقه

این یک روش دستی برای ارزیابی LLM ها و بهبود عملکرد آنها است. انسانها درباره تولید LLM ها در معیارها قضاوت می کنند ، آنها می توانند به روش های زیر قضاوت کنند.

امتیاز دهی به سمت
مقایسه زوج
زنجیره فکر

LLM به عنوان قاضی

با استفاده از LLMS برای درجه بندی پاسخ های داده شده توسط عوامل و روش خودکار ارزیابی انسان ، این LLM ها باید دقیقاً از آنجا که برای اعلان ها شکننده هستند ، مطرح شود. از این برای مقیاس و سهولت استفاده کنید ، HITL برای کارهای مهم بهتر کار می کند.

برای بهبود عملکرد قاضی LLM ما می توانیم 10-20 نمونه حاشیه نویسی انسانی را جمع آوری کنیم و عملکرد این LLM ها را با انسان مقایسه کنیم ، و از آنجا که آنها نسبت به آنها حساس هستند ، ما می توانیم فوری را برای افزایش افزایش دهیم همبستگی از انسان و LLMS!

معیارها

معیارها عملکرد ، استحکام و سازگاری یک عامل هوش مصنوعی را در دنیای واقعی تعیین می کنند. آنها می توانند به شما در درک بهتر پاسخ های عامل کمک کنند و از آنها برای تنظیم عامل در جهت درست استفاده کنند. این به شرکت ها کمک می کند تا عوامل خود را تنظیم کنند تا یک پاسخ اخلاقی ارائه دهند و در عین حال اطمینان از کامل بودن تأخیر نیز داشته باشند.

معیارهای اصلی برای Evals

تأخیر – بر تجربه کاربر تأثیر می گذارد. تأخیر کم به معنای پاسخگویی است.
استفاده از توکن – با هزینه و سرعت ارتباط دارد.
نرخ موفقیت – نشان می دهد که آیا نماینده اهداف خود را برآورده می کند یا خیر.
استحکام – تضمین می کند که عامل تحت ورودی های غیر منتظره شکننده نیست.
سازگاری-برای سودمندی طولانی مدت مهم است.
قابلیت اطمینان – اعتماد با نتایج قابل تکرار ایجاد می کند.
هزینه – بر امکان سنجی و مقیاس پذیری تأثیر می گذارد.

رعایت

به طور مداوم جمع آوری ، تجزیه و تحلیل و تجسم داده های دقیق در مورد رفتار عامل ، مسیرهای تصمیم گیری ، استفاده از ابزار و تعامل سیستم. این فراتر از نظارت سنتی با ضبط نه تنها معیارهای عملکرد (مانند تأخیر و خطاها) بلکه استدلال ، حافظه و گردش کار پویا منحصر به فرد برای عوامل AI است

ابزارهایی که در این فضا استفاده می شوند

پس از ملوان اعتیاد به مواد مخدره در سال 2020 ، بیشتر استارتاپ ها شروع به پرش کرده اند تا همین کار را در این فضا انجام دهند.

AgentOps-هدف ساخته شده برای سیستم های چند عامل ، تنظیم و مختصر آسان تر است.
LANFUSE – برنامه های متمرکز LLM ، منبع باز.
Langsmith-ردیابی Deep LLM ، کنترل ریز دانه در مقایسه با دیگران.
شرکت ها -> Arize ، Datadog و Dynatrace

نگهبان

عوامل هوش مصنوعی نیاز به اجرای شیوه های جامع در سطح معماری دارند که از ایمنی ، قابلیت اطمینان و انطباق در مقیاس اطمینان می یابد.

نگهبان ها باید از طریق خط لوله اضافه شوند

از تزریق سریع ایمن شوید
استفاده از ابزار را با استفاده از IAM ، کنترل دسترسی محدود کنید
داده های دروغین را در حافظه ذخیره کنید
برای اهداف ناامن بهینه سازی کنید
خروجی های ایمن

AWS Guardrails Bedrock را ارائه می دهد ، که می تواند با Crewai و Langgraph یکپارچه شود

GuardRails AI یک چارچوب منبع باز برای انواع مختلف نگهبان است که می توانند به سرعت به پروژه هوش مصنوعی شما اضافه شوند.

زره های مدل شبیه به نگهبان های بستر است اما در GCP است.

خاطره

این به انسجام چت ها کمک می کند ، وقتی با یک شخص واقعی صحبت می کنیم ، آنها چت های قبلی ما را به عنوان خلاصه به یاد می آورند و چت فعلی ما به وضوح. به همین ترتیب ما سعی می کنیم حافظه را به همان روش با داشتن:

حافظه کوتاه مدت

پارچه ساده بر اساس جلسه فعلی انسان با LLM. RAG تمام گپ ها را به صورت متراکم به عنوان خاطرات کوتاه مدت ذخیره می کند.

حافظه بلند مدت

این معمولاً یک پایگاه داده با خاطرات متراکم و خلاصه بر اساس چت های گذشته است.

این به LLM کمک می کند تا با محیط خود درک و سازگار شود و احساس انسان تر کند ، نه مانند دستگاهی که روز گذشته آنچه را که به آن گفته اید فراموش کند. این همچنین می تواند به ذخیره ترجیحات کاربر کمک کند ، که با ذخیره اطلاعات/خاطرات بیشتر ، چت ها را شخصی سازی می کند.

حافظه موجودیت

LLMS مردم و روابط آنها را درک نمی کند. به عنوان مثال ، “سارا از حسابداری همیشه به گزارش های هزینه در قالب PDF نیاز دارد ، نه اکسل” ، اما برای LLM ، “سارا” فقط یک انسان دیگر است.

این بازی هنگامی تغییر می کند که خاطرات خاصی را با سارا مرتبط می کنیم ، همانطور که LLM شخصیت سارا را می شناسد.

حافظه متن

LLM ها این نوع خاطرات مختلف را درک نمی کنند ، و آنها فقط به یک سریع نیاز دارند که حاوی خاطرات مختلف باشد. تمام انواع قبلی خاطرات در واقع مؤلفه های حافظه متنی هستند.

وقتی می روید و از این تکنیک های حافظه استفاده می کنید ، باید انتخاب کنید ، زیرا برای اختراع چرخ ، تولید کننده نخواهد بود.

ارائه دهندگان حافظه

mem0.ai
Letta (Prev. Memgpt)

حافظه همچنین به عملکرد کمک می کند زیرا LLMS نیازی به محاسبه مجدد یا دلیل مجدد ندارد و آنها به حافظه بلند مدت خود دسترسی خواهند داشت ، که حاوی یک مورد از چت ها و استدلال های گذشته است.

حال ، چگونه می توانید عملکرد این حافظه زیبا را در واقع در تولید وحشیانه با 1000 کاربر کار می کنید؟ رعایت!

همین است!

AI Agent Gold Rush واقعی است ، اما بیشتر تیم ها در مقیاس سقوط و می سوزانند. تفاوت بین موفقیت و شکست انتخاب مدل یا معماری فانتزی شما نیست. این است که آیا شما قبل از نیاز به آنها ، سیستم های ارزیابی ، مشاهده و حافظه مناسب را ایجاد کرده اید. پس از اینکه نماینده شما در تولید سرکش می شود ، تیم برای اضافه کردن GuardRails تلاش نکنید

– – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – – –

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/l/from-10-to-10000-users-the-ai-agent-scaling-playbook