گام بعدی OpenAI به سوی آینده “عاملی”.


با تولیدکنندگان لپ‌تاپ و گوشی‌های هوشمند مانند سامسونگ که هوش مصنوعی را در سراسر جهان گسترش می‌دهند تمام جنبه های دستگاه های آنهاOpenAI با ابزاری که در 23 ژانویه معرفی شد، همین کار را انجام می دهد. این ابزار که اپراتور نام دارد، با همان فناوری اولیه ChatGPT اجرا می شود اما در یک مرورگر وب اختصاصی قرار دارد. این به آن امکان می دهد تا به طور مستقل اقداماتی مانند سفارش مواد غذایی یا رزرو تور را انجام دهد.

OpenAI پیشنهاد شده است یک پست وبلاگ اپراتور می تواند “باز کند[n] فرصت‌های تعامل جدید برای کسب‌وکارها را ایجاد کرد، اما توضیح بیشتری نداد.

اپراتور OpenAI چیست؟

اپراتور برنامه ای است که شامل یک مرورگر وب و مدل هوش مصنوعی GPT-4o است. این نتیجه از یک پروژه OpenAI برای آموزش قابلیت‌های بینایی GPT-4o بر روی رابط‌های کاربری گرافیکی موجود در صفحات وب معمولی. OpenAI می بالید که توانایی آن در ایجاد برنامه های چند مرحله ای و اصلاح اشتباهات مستقل در صورت نیاز، آن را از سایر تلاش ها برای ایجاد هوش مصنوعی عامل متمایز می کند. مدل عامل استفاده از رایانه (CUA) به طور خاص بر روی دکمه‌ها، فرم‌ها و منوهایی که احتمالاً در یک صفحه وب یافت می‌شوند آموزش داده شده است.

اپراتور در نسخه بتا است. OpenAI گفت بازخورد کاربران در مراحل اولیه برای بهبود آن استفاده خواهد شد.

مشترکین ChatGPT Pro می توانند از امروز برای Operator ثبت نام کنند.

OpenAI قصد دارد به زودی Operator را به Plus، Team و Enterprise ارائه دهد. این غول فناوری همچنین قصد دارد قابلیت های خود را به طور کلی در ChatGPT ادغام کند. طبق پست وبلاگ، آنها به زودی CUA را در API خود قرار خواهند داد.

اپراتور چگونه کار می کند؟

این شرکت می‌گوید تکنیک استدلال CUA، که آن را “مونولوژی درونی” می‌نامند، به مدل کمک می‌کند تا مراحل میانی را درک کند و با ورودی‌های غیرمنتظره سازگار شود. در زیر هود، CUA از صفحات وب اسکرین شات می گیرد و از ماوس و صفحه کلید مجازی برای پیمایش استفاده می کند.

همانند ChatGPT، کاربران می توانند دستورالعمل های سفارشی را اضافه کنند که اپراتور به خاطر بسپارد، مانند خط هوایی مورد نظر کاربر.

ببینید: بازیگران تهدید می توانند هوش مصنوعی مولد جیلبریک برای ایجاد خودکار ایمیل های فیشینگ و سایر محتوای مخرب.

کاربران می‌توانند از Operator به زبان طبیعی درخواست کنند، همانطور که می‌توانند ChatGPT را درخواست کنند. اپراتور آموزش دیده است که از ورود به سایت‌ها، ارائه جزئیات پرداخت یا ارسال CAPTCHA جلوگیری کند، بنابراین کنترل آن مراحل را به کاربر باز می‌گرداند. اپراتور طوری برنامه‌ریزی شده است که درخواست‌ها را نپذیرد – مانند انجام تراکنش‌های بانکی – یا در موقعیت‌های پرمخاطره، مانند تصمیم‌گیری در مورد استخدام یک کارمند، بسنجید.

اگر اپراتور با رابطی مواجه شود که نمی تواند نحوه تعامل با آن را پیش بینی کند، کار را به کاربر باز می گرداند. OpenAI مستقیماً با شرکت های زیر همکاری کرد تا اطمینان حاصل کند که اپراتور می تواند با سایت های آنها تعامل داشته باشد:

  • DoorDash.
  • اینستاکارت.
  • OpenTable.
  • خط قیمت.
  • StubHub.
  • انگشت شست.
  • اوبر.

OpenAI خاطرنشان می کند که تکرار اولیه Operator با “رابط های پیچیده” از جمله ایجاد نمایش اسلاید یا افزودن آیتم ها به تقویم ها مواجه است.

اپراتور وارد یک چشم انداز شلوغ هوش مصنوعی مولد می شود

برخی از عملکردهای اپراتور با ابزارهای رقیب مانند Google Gemini یا Apple Intelligence همپوشانی دارند.

اپراتور دعوت به مقایسه با مایکروسافت بسیار بدجنس است به یاد بیاورید قابلیتی که از اسکرین شات ها برای پیمایش رایانه شخصی استفاده می کند. اپراتور همچنین برخی از قابلیت‌ها را با Google Lens در کروم به اشتراک می‌گذارد. با این حال، توانایی آن برای پیمایش وب سایت ها به طور مستقل می تواند یک نقطه تمایز باشد. هوش مصنوعی عاملی، که در آن مدل‌های هوش مصنوعی مولد وظایف چند مرحله‌ای را بر روی حساب کاربر انجام می‌دهند، یا چیز جدید داغ در فناوری است یا راهی جدید برای بسته‌بندی محصولات محدود.



منبع: https://www.techrepublic.com/article/openai-operator-ai-agent/