نویسنده(های): خسوس رودریگز
در ابتدا منتشر شد به سمت هوش مصنوعی.
من اخیراً یک آموزش مبتنی بر هوش مصنوعی را شروع کردم خبرنامه، که در حال حاضر بیش از 175000 مشترک دارد. TheSequence یک no-BS است (به معنی بدون هیپ، بدون خبری و غیره) ML-محور خبرنامه خواندن آن 5 دقیقه طول می کشد. هدف این است که شما را به روز نگه دارید یادگیری ماشینی پروژه ها، مقالات تحقیقاتی و مفاهیم. لطفا با عضویت در زیر آن را امتحان کنید:
TheSequence | خسوس رودریگز | زیر پشته
بهترین منبع برای بهروز ماندن با پیشرفتهای یادگیری ماشین، هوش مصنوعی و دادهها…
thesequence.ai
اجرای اکشن یکی از بلوکهای کلیدی سازنده جریانهای کاری عامل است. یکی از جالبترین بحثها این است که آیا اقدامات توسط خود مدل اجرا میشوند یا توسط یک لایه هماهنگی خارجی. حامیان فرضیه قبلی پشت نظریه ای به نام مدل های اقدام بزرگ (LAMs) با پروژه هایی مانند گوریل یا خرگوش r1 به عنوان پیشگامان کلیدی صف کشیده اند. با این حال، هنوز تنها چند نمونه عملی از چارچوب های LAM وجود دارد. اخیرا، مایکروسافت ریسرچ یکی از کاملترین مقالات را در این زمینه منتشر کرد که چارچوب کاملی را برای مدلهای LAM ارائه میکرد. ایده اصلی مایکروسافت این است که به سادگی شکاف بین قدرت درک زبان را پر کند LLMs و نیاز به اجرای اکشن در دنیای واقعی.
از LLM به LAM: یک تغییر پارادایم
محدودیت های سنتی LLMs در تعامل با دنیای فیزیکی و دستکاری آن، توسعه LAMها ضروری است. در حالی که LLM ها در تولید پاسخ های متنی پیچیده عالی هستند، ناتوانی آنها در ترجمه درک به اقدامات ملموس، کاربرد آنها را در سناریوهای دنیای واقعی محدود می کند. LAM ها با گسترش تخصص LLM ها از پردازش زبان به تولید کنش، این چالش را برطرف می کنند و آنها را قادر می سازد تا اقدامات را در محیط های فیزیکی و دیجیتالی انجام دهند. این انتقال نشاندهنده تغییر از درک زبان غیرفعال به تکمیل کار فعال است که نقطه عطف مهمی در توسعه هوش مصنوعی است.
مولفه های کلیدی معماری: رویکرد گام به گام
چارچوب مایکروسافت برای توسعه LAM ها، یک فرآیند سیستماتیک را مشخص می کند که شامل مراحل حیاتی از آغاز تا استقرار است. اجزای اصلی معماری عبارتند از:
جمع آوری و آماده سازی داده ها
این گام اساسی شامل جمعآوری و تنظیم دادههای با کیفیت بالا و اقداممحور برای موارد استفاده خاص است. این داده ها شامل پرس و جوهای کاربر، زمینه محیطی، اقدامات بالقوه، و هر گونه اطلاعات مرتبط دیگری است که برای آموزش موثر LAM لازم است. یک رویکرد جمع آوری داده دو مرحله ای اتخاذ شده است:
مجموعه Task-Plan
این مرحله بر جمع آوری داده های متشکل از وظایف و برنامه های مربوط به آنها متمرکز است. وظایف نشان دهنده درخواست های کاربر بیان شده در زبان طبیعی، در حالی که برنامه ها مراحل دقیق گام به گام طراحی شده برای انجام این درخواست ها را ترسیم می کنند. این دادهها برای آموزش مدل برای ایجاد برنامههای مؤثر و افزایش قابلیتهای استدلال و برنامهریزی سطح بالای آن بسیار مهم است. منابع این داده ها شامل مستندات برنامه، راهنماهای آنلاین نحوه کار کردن مانند WikiHow و جست و جوهای تاریخی است.
مجموعه وظیفه-عمل
این مرحله داده های طرح وظیفه را به مراحل اجرایی تبدیل می کند. این شامل پالایش وظایف و برنامههایی است که در یک محیط خاص دقیقتر و مستقر شوند. دنبالههای اکشن تولید میشوند، دستورالعملهای قابل اجرا را نشان میدهند که مستقیماً با محیط تعامل دارند، مانند select_text(text=”hello”) یا click(on=Button(“20”)، how=”left”، double=False). این داده ها جزئیات لازم را برای آموزش یک LAM برای انجام اجرای وظایف قابل اعتماد و دقیق در سناریوهای دنیای واقعی فراهم می کند.
آموزش مدل
این مرحله شامل آموزش یا تنظیم دقیق LLMها برای انجام اقدامات به جای تولید متن است. یک استراتژی آموزشی مرحلهای، متشکل از چهار مرحله، استفاده میشود:
- فاز 1: پیش آموزش طرح وظیفه: این مرحله بر آموزش مدل برای ایجاد برنامه های منسجم و منطقی برای وظایف مختلف با استفاده از مجموعه داده از 76672 جفت طرح وظیفه. این پیشآموزش یک درک اساسی از ساختارهای وظیفه ایجاد میکند و مدل را قادر میسازد تا وظایف را به مراحل منطقی تجزیه کند.
- مرحله 2: یادگیری از کارشناسان: مدل یاد می گیرد که اقدامات را با تقلید از مسیرهای کار-عمل برچسب گذاری شده توسط متخصص انجام دهد. این مرحله تولید طرح را با مراحل عملی هماهنگ میکند و به مدل آموزش میدهد که چگونه اقدامات را بر اساس وضعیتهای مشاهدهشده UI و اقدامات مربوطه انجام دهد.
- فاز 3: اکتشاف خودافزاینده: این مرحله مدل را تشویق میکند تا وظایفی را که حتی تظاهراتهای متخصص نیز نتوانستهاند حل کنند، بررسی و رسیدگی کند. با تعامل با محیط و امتحان استراتژیهای جایگزین، مدل به طور مستقل موارد موفقیت جدیدی را ایجاد میکند و تنوع و سازگاری را ارتقا میدهد.
- فاز 4: یادگیری از مدل پاداش: این مرحله شامل اصول یادگیری تقویتی (RL) برای بهینه سازی تصمیم گیری است. یک مدل پاداش بر روی داده های موفقیت و شکست آموزش داده می شود تا کیفیت اقدامات را پیش بینی کند. سپس از این مدل برای تنظیم دقیق LAM در تنظیمات RL آفلاین استفاده میشود و به مدل اجازه میدهد از شکستها درس گرفته و انتخاب کنش را بدون تعاملات محیطی اضافی بهبود بخشد.
یکپارچه سازی و زمینه سازی
LAM آموزش دیده در یک چارچوب عامل ادغام شده است و امکان تعامل با ابزارهای خارجی، حفظ حافظه و ارتباط با محیط را فراهم می کند. این ادغام مدل را به یک عامل کاربردی تبدیل می کند که قادر به ایجاد تأثیرات معنی دار در دنیای فیزیکی است. UFO مایکروسافت، یک عامل رابط کاربری گرافیکی برای تعامل با سیستم عامل ویندوز، نمونه ای از این ادغام است. این AppAgent درون بشقاب پرنده به عنوان پلت فرم عملیاتی برای LAM عمل می کند.
ارزیابی
فرآیندهای ارزیابی دقیق برای ارزیابی قابلیت اطمینان، استحکام و ایمنی LAM قبل از استقرار در دنیای واقعی ضروری است. این ارزیابی شامل آزمایش مدل در سناریوهای مختلف برای اطمینان از تعمیم در محیطها و وظایف مختلف و همچنین مدیریت مؤثر موقعیتهای غیرمنتظره است. هر دو ارزیابی آفلاین و آنلاین انجام می شود:
- ارزیابی آفلاین: عملکرد LAM با استفاده از یک آفلاین ارزیابی می شود مجموعه داده در یک محیط کنترل شده و ایستا این امکان تجزیه و تحلیل سیستماتیک نرخ موفقیت کار، دقت و معیارهای فراخوان را فراهم می کند.
- ارزیابی آنلاین: عملکرد LAM در یک محیط واقعی ارزیابی می شود. این شامل اندازه گیری جنبه هایی مانند دقت تکمیل کار، کارایی و اثربخشی است.
بلوک های ساختمانی کلیدی: ویژگی های اساسی LAM ها
چندین بلوک ساختمانی کلیدی به LAM ها برای انجام وظایف پیچیده دنیای واقعی قدرت می دهد:
- نسل عمل: توانایی ترجمه مقاصد کاربر به مراحل عملی مبتنی بر محیط، یکی از ویژگی های تعیین کننده LAM ها است. این اقدامات می توانند به صورت عملیات روی رابط های گرافیکی کاربر (GUI)، فراخوانی API برای برنامه های کاربردی نرم افزاری، دستکاری های فیزیکی توسط روبات ها یا حتی تولید کد ظاهر شوند.
- برنامه ریزی و انطباق پویا: LAMها قادر به تجزیه وظایف پیچیده به وظایف فرعی و تنظیم پویا برنامه های خود در پاسخ به تغییرات محیطی هستند. این برنامه ریزی تطبیقی عملکرد قوی را در سناریوهای پویا و دنیای واقعی که موقعیت های غیرمنتظره رایج هستند تضمین می کند.
- تخصص و کارایی: LAM ها را می توان برای دامنه ها یا وظایف خاص طراحی کرد و در محدوده عملیاتی خود به دقت و کارایی بالایی دست یافت. این تخصص باعث کاهش سربار محاسباتی و بهبود زمان پاسخ در مقایسه با LLM های همه منظوره می شود.
- سیستم عامل: سیستم عامل چارچوب عملیاتی LAM ها را فراهم می کند و آنها را با ابزارها، حافظه و مکانیسم های بازخورد مجهز می کند. این ادغام به LAM ها اجازه می دهد تا با جهان تعامل داشته باشند و اقدامات را به طور موثر اجرا کنند. به عنوان مثال، AppAgent UFO از اجزایی مانند مجریان عمل، حافظه و جمع آوری داده های محیطی استفاده می کند تا تعامل یکپارچه بین LAM و محیط سیستم عامل ویندوز را تسهیل کند.
عامل UFO: Grounding LAM ها در سیستم عامل ویندوز
عامل بشقاب پرنده مایکروسافت نمونه ای از ادغام و اتصال به زمین LAM ها در یک محیط واقعی است. جنبه های کلیدی یوفو عبارتند از:
- معماری: UFO شامل یک HostAgent برای تجزیه درخواست های کاربر به وظایف فرعی و یک AppAgent برای اجرای این وظایف فرعی در برنامه های خاص است. این ساختار سلسله مراتبی رسیدگی به وظایف پیچیده و چند کاربرد را تسهیل می کند.
- ساختار AppAgent: AppAgent، جایی که LAM در آن قرار دارد، شامل موارد زیر است:
- جمع آوری داده های محیطی: عامل اطلاعاتی را در مورد محیط برنامه، از جمله عناصر UI و ویژگی های آنها، جمع آوری می کند تا زمینه را برای LAM فراهم کند.
- موتور استنتاج LAM: LAM که به عنوان مغز AppAgent عمل می کند، اطلاعات جمع آوری شده را پردازش می کند و اقدامات لازم برای انجام درخواست کاربر را استنباط می کند.
- مجری اقدام: این مؤلفه اقدامات پیشبینیشده LAM را پایهگذاری میکند و آنها را به تعاملات مشخص با رابط کاربری برنامه، مانند کلیکهای ماوس، ورودیهای صفحهکلید یا تماسهای API تبدیل میکند.
- حافظه: عامل حافظه ای از اقدامات و برنامه های قبلی را حفظ می کند و زمینه ای حیاتی برای LAM فراهم می کند تا تصمیمات آگاهانه و سازگارانه بگیرد.
ارزیابی و عملکرد: معیارهای LAMها
مایکروسافت از یک چارچوب ارزیابی جامع برای ارزیابی عملکرد LAM ها در محیط های کنترل شده و دنیای واقعی استفاده می کند. معیارهای کلیدی عبارتند از:
- نرخ موفقیت کار (TSR): این درصد از کارهای انجام شده با موفقیت را از کل انجام شده اندازه گیری می کند. توانایی عامل را برای تکمیل دقیق و مطمئن وظایف ارزیابی می کند.
- زمان اتمام کار: این کل زمان صرف شده برای تکمیل یک کار، از درخواست اولیه تا اقدام نهایی را اندازه گیری می کند. این نشان دهنده کارایی LAM و سیستم عامل است.
- دقت شی: این دقت انتخاب عنصر رابط کاربری صحیح برای هر مرحله کار را اندازه گیری می کند. توانایی عامل در تعامل با اجزای UI مناسب را ارزیابی می کند.
- نرخ موفقیت مرحله (SSR): این درصد از مراحل تک تک انجام شده با موفقیت در یک کار را اندازه گیری می کند. این یک ارزیابی دقیق از دقت اجرای عمل ارائه می دهد.
در ارزیابی های آنلاین با استفاده از مایکروسافت ورد به عنوان برنامه هدف، LAM به TSR 71.0% دست یافت که عملکرد رقابتی را در مقایسه با مدل های پایه مانند GPT-4o نشان می دهد. نکته مهم این است که LAM کارایی بالاتری را نشان میدهد و به کوتاهترین زمان اتمام کار و کمترین متوسط تأخیر گام دست مییابد. این نتایج بر اثربخشی چارچوب مایکروسافت در ساخت LAMهایی تأکید می کند که نه تنها دقیق هستند، بلکه در برنامه های کاربردی دنیای واقعی نیز کارآمد هستند.
محدودیت ها
با وجود پیشرفت های انجام شده، LAM ها هنوز در مراحل اولیه توسعه خود هستند. محدودیت های کلیدی و زمینه های تحقیقاتی آتی عبارتند از:
- خطرات ایمنی: توانایی LAM ها در تعامل با دنیای واقعی نگرانی های بالقوه ایمنی را معرفی می کند. مکانیزم های قوی برای اطمینان از عملکرد ایمن و قابل اعتماد LAM ها مورد نیاز است و خطر عواقب ناخواسته را به حداقل می رساند.
- ملاحظات اخلاقی: توسعه و استقرار LAMها ملاحظات اخلاقی را به ویژه در مورد تعصب، انصاف و مسئولیت پذیری افزایش می دهد. تحقیقات آینده نیاز به رسیدگی به این نگرانی ها برای اطمینان از توسعه و استقرار LAM مسئولانه دارد.
- مقیاس پذیری و سازگاری: به دلیل نیاز به جمعآوری و آموزش گسترده دادهها، مقیاس دادن LAM به دامنهها و وظایف جدید میتواند چالش برانگیز باشد. توسعه روشهای آموزشی کارآمدتر و کشف تکنیکهایی مانند یادگیری انتقالی برای افزایش مقیاسپذیری و سازگاری LAMها بسیار مهم است.
نتیجه گیری
چارچوب مایکروسافت برای ساخت LAM نشان دهنده یک پیشرفت قابل توجه در هوش مصنوعی است که امکان تغییر از درک زبان غیرفعال به تعامل فعال در دنیای واقعی را فراهم می کند. رویکرد جامع چارچوب، شامل جمعآوری دادهها، آموزش مدل، ادغام عامل و ارزیابی دقیق، پایهای قوی برای ساخت LAMها فراهم میکند. در حالی که چالش ها باقی مانده است، پتانسیل تحول آفرین LAM ها در متحول کردن تعامل انسان و کامپیوتر و خودکارسازی وظایف پیچیده غیرقابل انکار است. تلاشهای مستمر تحقیق و توسعه راه را برای برنامههای کاربردی LAM پیچیدهتر، قابل اعتمادتر و اخلاقیتر هموار میکند و ما را به آیندهای نزدیکتر میکند که در آن هوش مصنوعی به طور یکپارچه با زندگیهای ما ادغام میشود، تواناییهای انسانی را افزایش میدهد و تعامل ما با دنیای اطرافمان را متحول میکند.
منتشر شده از طریق به سمت هوش مصنوعی