ساخت مدل های اقدام بزرگ: بینش های مایکروسافت

نویسنده(های): خسوس رودریگز

در ابتدا منتشر شد به سمت هوش مصنوعی.

من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:

TheSequence | خسوس رودریگز | زیر پشته

بهترین منبع برای به‌روز ماندن با پیشرفت‌های یادگیری ماشین، هوش مصنوعی و داده‌ها…

thesequence.ai

اجرای اکشن یکی از بلوک‌های کلیدی سازنده جریان‌های کاری عامل است. یکی از جالب‌ترین بحث‌ها این است که آیا اقدامات توسط خود مدل اجرا می‌شوند یا توسط یک لایه هماهنگی خارجی. حامیان فرضیه قبلی پشت نظریه ای به نام مدل های اقدام بزرگ (LAMs) با پروژه هایی مانند گوریل یا خرگوش r1 به عنوان پیشگامان کلیدی صف کشیده اند. با این حال، هنوز تنها چند نمونه عملی از چارچوب های LAM وجود دارد. اخیرا، مایکروسافت ریسرچ یکی از کامل‌ترین مقالات را در این زمینه منتشر کرد که چارچوب کاملی را برای مدل‌های LAM ارائه می‌کرد. ایده اصلی مایکروسافت این است که به سادگی شکاف بین قدرت درک زبان را پر کند LLMs و نیاز به اجرای اکشن در دنیای واقعی.

از LLM به LAM: یک تغییر پارادایم

محدودیت های سنتی LLMs در تعامل با دنیای فیزیکی و دستکاری آن، توسعه LAMها ضروری است. در حالی که LLM ها در تولید پاسخ های متنی پیچیده عالی هستند، ناتوانی آنها در ترجمه درک به اقدامات ملموس، کاربرد آنها را در سناریوهای دنیای واقعی محدود می کند. LAM ها با گسترش تخصص LLM ها از پردازش زبان به تولید کنش، این چالش را برطرف می کنند و آنها را قادر می سازد تا اقدامات را در محیط های فیزیکی و دیجیتالی انجام دهند. این انتقال نشان‌دهنده تغییر از درک زبان غیرفعال به تکمیل کار فعال است که نقطه عطف مهمی در توسعه هوش مصنوعی است.

مولفه های کلیدی معماری: رویکرد گام به گام

چارچوب مایکروسافت برای توسعه LAM ها، یک فرآیند سیستماتیک را مشخص می کند که شامل مراحل حیاتی از آغاز تا استقرار است. اجزای اصلی معماری عبارتند از:

جمع آوری و آماده سازی داده ها

این گام اساسی شامل جمع‌آوری و تنظیم داده‌های با کیفیت بالا و اقدام‌محور برای موارد استفاده خاص است. این داده ها شامل پرس و جوهای کاربر، زمینه محیطی، اقدامات بالقوه، و هر گونه اطلاعات مرتبط دیگری است که برای آموزش موثر LAM لازم است. یک رویکرد جمع آوری داده دو مرحله ای اتخاذ شده است:

مجموعه Task-Plan

این مرحله بر جمع آوری داده های متشکل از وظایف و برنامه های مربوط به آنها متمرکز است. وظایف نشان دهنده درخواست های کاربر بیان شده در زبان طبیعی، در حالی که برنامه ها مراحل دقیق گام به گام طراحی شده برای انجام این درخواست ها را ترسیم می کنند. این داده‌ها برای آموزش مدل برای ایجاد برنامه‌های مؤثر و افزایش قابلیت‌های استدلال و برنامه‌ریزی سطح بالای آن بسیار مهم است. منابع این داده ها شامل مستندات برنامه، راهنماهای آنلاین نحوه کار کردن مانند WikiHow و جست و جوهای تاریخی است.

مجموعه وظیفه-عمل

این مرحله داده های طرح وظیفه را به مراحل اجرایی تبدیل می کند. این شامل پالایش وظایف و برنامه‌هایی است که در یک محیط خاص دقیق‌تر و مستقر شوند. دنباله‌های اکشن تولید می‌شوند، دستورالعمل‌های قابل اجرا را نشان می‌دهند که مستقیماً با محیط تعامل دارند، مانند select_text(text=”hello”) یا click(on=Button(“20”)، how=”left”، double=False). این داده ها جزئیات لازم را برای آموزش یک LAM برای انجام اجرای وظایف قابل اعتماد و دقیق در سناریوهای دنیای واقعی فراهم می کند.

آموزش مدل

این مرحله شامل آموزش یا تنظیم دقیق LLMها برای انجام اقدامات به جای تولید متن است. یک استراتژی آموزشی مرحله‌ای، متشکل از چهار مرحله، استفاده می‌شود:

فاز 1: پیش آموزش طرح وظیفه: این مرحله بر آموزش مدل برای ایجاد برنامه های منسجم و منطقی برای وظایف مختلف با استفاده از مجموعه داده از 76672 جفت طرح وظیفه. این پیش‌آموزش یک درک اساسی از ساختارهای وظیفه ایجاد می‌کند و مدل را قادر می‌سازد تا وظایف را به مراحل منطقی تجزیه کند.
مرحله 2: یادگیری از کارشناسان: مدل یاد می گیرد که اقدامات را با تقلید از مسیرهای کار-عمل برچسب گذاری شده توسط متخصص انجام دهد. این مرحله تولید طرح را با مراحل عملی هماهنگ می‌کند و به مدل آموزش می‌دهد که چگونه اقدامات را بر اساس وضعیت‌های مشاهده‌شده UI و اقدامات مربوطه انجام دهد.
فاز 3: اکتشاف خودافزاینده: این مرحله مدل را تشویق می‌کند تا وظایفی را که حتی تظاهرات‌های متخصص نیز نتوانسته‌اند حل کنند، بررسی و رسیدگی کند. با تعامل با محیط و امتحان استراتژی‌های جایگزین، مدل به طور مستقل موارد موفقیت جدیدی را ایجاد می‌کند و تنوع و سازگاری را ارتقا می‌دهد.
فاز 4: یادگیری از مدل پاداش: این مرحله شامل اصول یادگیری تقویتی (RL) برای بهینه سازی تصمیم گیری است. یک مدل پاداش بر روی داده های موفقیت و شکست آموزش داده می شود تا کیفیت اقدامات را پیش بینی کند. سپس از این مدل برای تنظیم دقیق LAM در تنظیمات RL آفلاین استفاده می‌شود و به مدل اجازه می‌دهد از شکست‌ها درس گرفته و انتخاب کنش را بدون تعاملات محیطی اضافی بهبود بخشد.

یکپارچه سازی و زمینه سازی

LAM آموزش دیده در یک چارچوب عامل ادغام شده است و امکان تعامل با ابزارهای خارجی، حفظ حافظه و ارتباط با محیط را فراهم می کند. این ادغام مدل را به یک عامل کاربردی تبدیل می کند که قادر به ایجاد تأثیرات معنی دار در دنیای فیزیکی است. UFO مایکروسافت، یک عامل رابط کاربری گرافیکی برای تعامل با سیستم عامل ویندوز، نمونه ای از این ادغام است. این AppAgent درون بشقاب پرنده به عنوان پلت فرم عملیاتی برای LAM عمل می کند.

ارزیابی

فرآیندهای ارزیابی دقیق برای ارزیابی قابلیت اطمینان، استحکام و ایمنی LAM قبل از استقرار در دنیای واقعی ضروری است. این ارزیابی شامل آزمایش مدل در سناریوهای مختلف برای اطمینان از تعمیم در محیط‌ها و وظایف مختلف و همچنین مدیریت مؤثر موقعیت‌های غیرمنتظره است. هر دو ارزیابی آفلاین و آنلاین انجام می شود:

ارزیابی آفلاین: عملکرد LAM با استفاده از یک آفلاین ارزیابی می شود مجموعه داده در یک محیط کنترل شده و ایستا این امکان تجزیه و تحلیل سیستماتیک نرخ موفقیت کار، دقت و معیارهای فراخوان را فراهم می کند.
ارزیابی آنلاین: عملکرد LAM در یک محیط واقعی ارزیابی می شود. این شامل اندازه گیری جنبه هایی مانند دقت تکمیل کار، کارایی و اثربخشی است.

بلوک های ساختمانی کلیدی: ویژگی های اساسی LAM ها

چندین بلوک ساختمانی کلیدی به LAM ها برای انجام وظایف پیچیده دنیای واقعی قدرت می دهد:

نسل عمل: توانایی ترجمه مقاصد کاربر به مراحل عملی مبتنی بر محیط، یکی از ویژگی های تعیین کننده LAM ها است. این اقدامات می توانند به صورت عملیات روی رابط های گرافیکی کاربر (GUI)، فراخوانی API برای برنامه های کاربردی نرم افزاری، دستکاری های فیزیکی توسط روبات ها یا حتی تولید کد ظاهر شوند.
برنامه ریزی و انطباق پویا: LAMها قادر به تجزیه وظایف پیچیده به وظایف فرعی و تنظیم پویا برنامه های خود در پاسخ به تغییرات محیطی هستند. این برنامه ریزی تطبیقی عملکرد قوی را در سناریوهای پویا و دنیای واقعی که موقعیت های غیرمنتظره رایج هستند تضمین می کند.
تخصص و کارایی: LAM ها را می توان برای دامنه ها یا وظایف خاص طراحی کرد و در محدوده عملیاتی خود به دقت و کارایی بالایی دست یافت. این تخصص باعث کاهش سربار محاسباتی و بهبود زمان پاسخ در مقایسه با LLM های همه منظوره می شود.
سیستم عامل: سیستم عامل چارچوب عملیاتی LAM ها را فراهم می کند و آنها را با ابزارها، حافظه و مکانیسم های بازخورد مجهز می کند. این ادغام به LAM ها اجازه می دهد تا با جهان تعامل داشته باشند و اقدامات را به طور موثر اجرا کنند. به عنوان مثال، AppAgent UFO از اجزایی مانند مجریان عمل، حافظه و جمع آوری داده های محیطی استفاده می کند تا تعامل یکپارچه بین LAM و محیط سیستم عامل ویندوز را تسهیل کند.

عامل UFO: Grounding LAM ها در سیستم عامل ویندوز

عامل بشقاب پرنده مایکروسافت نمونه ای از ادغام و اتصال به زمین LAM ها در یک محیط واقعی است. جنبه های کلیدی یوفو عبارتند از:

معماری: UFO شامل یک HostAgent برای تجزیه درخواست های کاربر به وظایف فرعی و یک AppAgent برای اجرای این وظایف فرعی در برنامه های خاص است. این ساختار سلسله مراتبی رسیدگی به وظایف پیچیده و چند کاربرد را تسهیل می کند.
ساختار AppAgent: AppAgent، جایی که LAM در آن قرار دارد، شامل موارد زیر است:
جمع آوری داده های محیطی: عامل اطلاعاتی را در مورد محیط برنامه، از جمله عناصر UI و ویژگی های آنها، جمع آوری می کند تا زمینه را برای LAM فراهم کند.
موتور استنتاج LAM: LAM که به عنوان مغز AppAgent عمل می کند، اطلاعات جمع آوری شده را پردازش می کند و اقدامات لازم برای انجام درخواست کاربر را استنباط می کند.
مجری اقدام: این مؤلفه اقدامات پیش‌بینی‌شده LAM را پایه‌گذاری می‌کند و آن‌ها را به تعاملات مشخص با رابط کاربری برنامه، مانند کلیک‌های ماوس، ورودی‌های صفحه‌کلید یا تماس‌های API تبدیل می‌کند.
حافظه: عامل حافظه ای از اقدامات و برنامه های قبلی را حفظ می کند و زمینه ای حیاتی برای LAM فراهم می کند تا تصمیمات آگاهانه و سازگارانه بگیرد.

ارزیابی و عملکرد: معیارهای LAMها

مایکروسافت از یک چارچوب ارزیابی جامع برای ارزیابی عملکرد LAM ها در محیط های کنترل شده و دنیای واقعی استفاده می کند. معیارهای کلیدی عبارتند از:

نرخ موفقیت کار (TSR): این درصد از کارهای انجام شده با موفقیت را از کل انجام شده اندازه گیری می کند. توانایی عامل را برای تکمیل دقیق و مطمئن وظایف ارزیابی می کند.
زمان اتمام کار: این کل زمان صرف شده برای تکمیل یک کار، از درخواست اولیه تا اقدام نهایی را اندازه گیری می کند. این نشان دهنده کارایی LAM و سیستم عامل است.
دقت شی: این دقت انتخاب عنصر رابط کاربری صحیح برای هر مرحله کار را اندازه گیری می کند. توانایی عامل در تعامل با اجزای UI مناسب را ارزیابی می کند.
نرخ موفقیت مرحله (SSR): این درصد از مراحل تک تک انجام شده با موفقیت در یک کار را اندازه گیری می کند. این یک ارزیابی دقیق از دقت اجرای عمل ارائه می دهد.

در ارزیابی های آنلاین با استفاده از مایکروسافت ورد به عنوان برنامه هدف، LAM به TSR 71.0% دست یافت که عملکرد رقابتی را در مقایسه با مدل های پایه مانند GPT-4o نشان می دهد. نکته مهم این است که LAM کارایی بالاتری را نشان می‌دهد و به کوتاه‌ترین زمان اتمام کار و کمترین متوسط تأخیر گام دست می‌یابد. این نتایج بر اثربخشی چارچوب مایکروسافت در ساخت LAMهایی تأکید می کند که نه تنها دقیق هستند، بلکه در برنامه های کاربردی دنیای واقعی نیز کارآمد هستند.

محدودیت ها

با وجود پیشرفت های انجام شده، LAM ها هنوز در مراحل اولیه توسعه خود هستند. محدودیت های کلیدی و زمینه های تحقیقاتی آتی عبارتند از:

خطرات ایمنی: توانایی LAM ها در تعامل با دنیای واقعی نگرانی های بالقوه ایمنی را معرفی می کند. مکانیزم های قوی برای اطمینان از عملکرد ایمن و قابل اعتماد LAM ها مورد نیاز است و خطر عواقب ناخواسته را به حداقل می رساند.
ملاحظات اخلاقی: توسعه و استقرار LAMها ملاحظات اخلاقی را به ویژه در مورد تعصب، انصاف و مسئولیت پذیری افزایش می دهد. تحقیقات آینده نیاز به رسیدگی به این نگرانی ها برای اطمینان از توسعه و استقرار LAM مسئولانه دارد.
مقیاس پذیری و سازگاری: به دلیل نیاز به جمع‌آوری و آموزش گسترده داده‌ها، مقیاس دادن LAM به دامنه‌ها و وظایف جدید می‌تواند چالش برانگیز باشد. توسعه روش‌های آموزشی کارآمدتر و کشف تکنیک‌هایی مانند یادگیری انتقالی برای افزایش مقیاس‌پذیری و سازگاری LAM‌ها بسیار مهم است.

نتیجه گیری

چارچوب مایکروسافت برای ساخت LAM نشان دهنده یک پیشرفت قابل توجه در هوش مصنوعی است که امکان تغییر از درک زبان غیرفعال به تعامل فعال در دنیای واقعی را فراهم می کند. رویکرد جامع چارچوب، شامل جمع‌آوری داده‌ها، آموزش مدل، ادغام عامل و ارزیابی دقیق، پایه‌ای قوی برای ساخت LAM‌ها فراهم می‌کند. در حالی که چالش ها باقی مانده است، پتانسیل تحول آفرین LAM ها در متحول کردن تعامل انسان و کامپیوتر و خودکارسازی وظایف پیچیده غیرقابل انکار است. تلاش‌های مستمر تحقیق و توسعه راه را برای برنامه‌های کاربردی LAM پیچیده‌تر، قابل اعتمادتر و اخلاقی‌تر هموار می‌کند و ما را به آینده‌ای نزدیک‌تر می‌کند که در آن هوش مصنوعی به طور یکپارچه با زندگی‌های ما ادغام می‌شود، توانایی‌های انسانی را افزایش می‌دهد و تعامل ما با دنیای اطرافمان را متحول می‌کند.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/artificial-intelligence/building-large-action-models-insights-from-microsoft