با تولیدکنندگان لپتاپ و گوشیهای هوشمند مانند سامسونگ که هوش مصنوعی را در سراسر جهان گسترش میدهند تمام جنبه های دستگاه های آنهاOpenAI با ابزاری که در 23 ژانویه معرفی شد، همین کار را انجام می دهد. این ابزار که اپراتور نام دارد، با همان فناوری اولیه ChatGPT اجرا می شود اما در یک مرورگر وب اختصاصی قرار دارد. این به آن امکان می دهد تا به طور مستقل اقداماتی مانند سفارش مواد غذایی یا رزرو تور را انجام دهد.
OpenAI پیشنهاد شده است یک پست وبلاگ اپراتور می تواند “باز کند[n] فرصتهای تعامل جدید برای کسبوکارها را ایجاد کرد، اما توضیح بیشتری نداد.
اپراتور OpenAI چیست؟
اپراتور برنامه ای است که شامل یک مرورگر وب و مدل هوش مصنوعی GPT-4o است. این نتیجه از یک پروژه OpenAI برای آموزش قابلیتهای بینایی GPT-4o بر روی رابطهای کاربری گرافیکی موجود در صفحات وب معمولی. OpenAI می بالید که توانایی آن در ایجاد برنامه های چند مرحله ای و اصلاح اشتباهات مستقل در صورت نیاز، آن را از سایر تلاش ها برای ایجاد هوش مصنوعی عامل متمایز می کند. مدل عامل استفاده از رایانه (CUA) به طور خاص بر روی دکمهها، فرمها و منوهایی که احتمالاً در یک صفحه وب یافت میشوند آموزش داده شده است.
اپراتور در نسخه بتا است. OpenAI گفت بازخورد کاربران در مراحل اولیه برای بهبود آن استفاده خواهد شد.
مشترکین ChatGPT Pro می توانند از امروز برای Operator ثبت نام کنند.
OpenAI قصد دارد به زودی Operator را به Plus، Team و Enterprise ارائه دهد. این غول فناوری همچنین قصد دارد قابلیت های خود را به طور کلی در ChatGPT ادغام کند. طبق پست وبلاگ، آنها به زودی CUA را در API خود قرار خواهند داد.
اپراتور چگونه کار می کند؟
این شرکت میگوید تکنیک استدلال CUA، که آن را “مونولوژی درونی” مینامند، به مدل کمک میکند تا مراحل میانی را درک کند و با ورودیهای غیرمنتظره سازگار شود. در زیر هود، CUA از صفحات وب اسکرین شات می گیرد و از ماوس و صفحه کلید مجازی برای پیمایش استفاده می کند.
همانند ChatGPT، کاربران می توانند دستورالعمل های سفارشی را اضافه کنند که اپراتور به خاطر بسپارد، مانند خط هوایی مورد نظر کاربر.
ببینید: بازیگران تهدید می توانند هوش مصنوعی مولد جیلبریک برای ایجاد خودکار ایمیل های فیشینگ و سایر محتوای مخرب.
کاربران میتوانند از Operator به زبان طبیعی درخواست کنند، همانطور که میتوانند ChatGPT را درخواست کنند. اپراتور آموزش دیده است که از ورود به سایتها، ارائه جزئیات پرداخت یا ارسال CAPTCHA جلوگیری کند، بنابراین کنترل آن مراحل را به کاربر باز میگرداند. اپراتور طوری برنامهریزی شده است که درخواستها را نپذیرد – مانند انجام تراکنشهای بانکی – یا در موقعیتهای پرمخاطره، مانند تصمیمگیری در مورد استخدام یک کارمند، بسنجید.
اگر اپراتور با رابطی مواجه شود که نمی تواند نحوه تعامل با آن را پیش بینی کند، کار را به کاربر باز می گرداند. OpenAI مستقیماً با شرکت های زیر همکاری کرد تا اطمینان حاصل کند که اپراتور می تواند با سایت های آنها تعامل داشته باشد:
- DoorDash.
- اینستاکارت.
- OpenTable.
- خط قیمت.
- StubHub.
- انگشت شست.
- اوبر.
OpenAI خاطرنشان می کند که تکرار اولیه Operator با “رابط های پیچیده” از جمله ایجاد نمایش اسلاید یا افزودن آیتم ها به تقویم ها مواجه است.
اپراتور وارد یک چشم انداز شلوغ هوش مصنوعی مولد می شود
برخی از عملکردهای اپراتور با ابزارهای رقیب مانند Google Gemini یا Apple Intelligence همپوشانی دارند.
اپراتور دعوت به مقایسه با مایکروسافت بسیار بدجنس است به یاد بیاورید قابلیتی که از اسکرین شات ها برای پیمایش رایانه شخصی استفاده می کند. اپراتور همچنین برخی از قابلیتها را با Google Lens در کروم به اشتراک میگذارد. با این حال، توانایی آن برای پیمایش وب سایت ها به طور مستقل می تواند یک نقطه تمایز باشد. هوش مصنوعی عاملی، که در آن مدلهای هوش مصنوعی مولد وظایف چند مرحلهای را بر روی حساب کاربر انجام میدهند، یا چیز جدید داغ در فناوری است یا راهی جدید برای بستهبندی محصولات محدود.
منبع: https://www.techrepublic.com/article/openai-operator-ai-agent/