چگونه GPT ها می توانند با رایانه ها تعامل داشته باشند؟ OmniParser توضیح داد

نویسنده(های): برهومی مصبه

در ابتدا منتشر شد به سمت هوش مصنوعی.

مایکروسافت در سکوت منتشر کرده است OmniParser، یک ابزار منبع باز طراحی شده برای تبدیل اسکرین شات ها به عناصر ساختاریافته و قابل تفسیر برای Vision Agents. هدف این ابزار پیشبرد زمینه نوظهور توانمندسازی مدل‌های زبان بزرگ (LLM) برای تعامل با رابط‌های گرافیکی کاربر (GUI) است. اخیرا، Anthropic یک ابزار مشابه اما منبع بسته را برای تعامل با رابط های کامپیوتری اعلام کرد. با این حال، ایجاد یک سیستم مشابه آنقدرها که به نظر می رسد چالش برانگیز نیست، مفهوم آن ساده است. مایکروسافت OmniParser به طور کامل در یک همراه مستند شده است کاغذ، که هر جزء را به صورت واضح و قابل دسترس توضیح می دهد. این مقاله به بررسی چگونگی ساخت ابزاری قابل مقایسه با آنتروپیک می پردازد.

مقدمه

برای ارائه ایده ای از آنچه ما در تلاش هستیم انجام دهیم، تصور کنید برای انجام یک کار رابط کاربری در وب به کمک ChatGPT نیاز دارید. برای مثال، اگر می‌خواهید یک وب هوک راه‌اندازی کنید، ChatGPT نیازی به «دیدن» رابط کاربری ندارد. این به سادگی دستورالعمل هایی مانند «اینجا کلیک کنید» یا «به آن گزینه بروید» بر اساس اطلاعات منابعی مانند Stack Overflow ارائه می دهد.

اکنون، ما می خواهیم این را یک قدم جلوتر ببریم. عامل vision-enabled در واقع قادر خواهد بود آنچه را که روی صفحه نمایش شما قرار دارد ببیند، رابط کاربری را درک کند و در مورد مراحل بعدی تصمیم گیری کند، مانند دکمه کلیک کردن. برای انجام موثر این کار، باید مختصات دقیق عناصر UI را شناسایی کند.

OmniParser چگونه کار می کند

وظایف پیچیده تعامل رابط کاربری را می توان به دو الزام اساسی برای مدل های زبان ویژن (VLM) تقسیم کرد:

درک وضعیت صفحه نمایش رابط کاربری فعلی
پیش بینی اقدام مناسب بعدی به منظور انجام کار

OmniParser به جای رسیدگی به هر دو الزامات در یک مرحله واحد، فرآیند را به چند مرحله تقسیم می‌کند. ابتدا، مدل باید وضعیت فعلی اسکرین شات را درک کند، به این معنی که باید اشیاء موجود در اسکرین شات را تشخیص دهد و پیش بینی کند که در صورت کلیک روی هر شی چه اتفاقی خواهد افتاد. محققان مایکروسافت از OCR برای شناسایی عناصر قابل کلیک با متن برای ارائه زمینه بیشتر استفاده کرده اند و مدل توصیف آیکون را به خوبی تنظیم کرده اند.

با این رویکرد، مدل از مختصات اجزای مختلف روی صفحه اطلاعات کسب می کند و درک می کند که هر جزء چه کاری انجام می دهد.

تشخیص عنصر تعاملی

برای دستیابی به اولین مرحله در سیستم، محققان مایکروسافت یک مدل YOLOv8 را بر روی 66990 نمونه برای 20 دوره آموزش دادند و تقریباً 75٪ mAP@50 را به دست آوردند. علاوه بر تشخیص منطقه قابل تعامل، آنها همچنین یک ماژول OCR را برای استخراج جعبه های محدود متن ایجاد کردند. سپس، جعبه‌های محدودکننده را از ماژول تشخیص OCR و ماژول تشخیص نماد ادغام می‌کنند و کادرهایی با همپوشانی زیاد (با استفاده از آستانه بیش از 90٪) حذف می‌کنند. برای هر جعبه مرزی، با استفاده از یک الگوریتم ساده که همپوشانی بین برچسب‌های عددی و سایر جعبه‌های مرزی را به حداقل می‌رساند، آن را با یک شناسه منحصر به فرد برچسب‌گذاری می‌کنند.

درک معنایی

برای مدیریت درک معنایی عناصر رابط کاربری، محققان مایکروسافت یک مدل BLIP-v2 را به صورت سفارشی تنظیم کردند. مجموعه داده از 7000 جفت توصیف نماد. این مجموعه داده به طور خاص با استفاده از GPT-4 برای اطمینان از کیفیت بالا و توضیحات مرتبط اجزای UI انتخاب شد. مدل با تنظیم دقیق دو نوع عنصر را متفاوت پردازش می‌کند: برای نمادهای تعاملی شناسایی‌شده، توصیف‌های کاربردی را ایجاد می‌کند که هدف و رفتار آنها را توضیح می‌دهد، در حالی که برای عناصر متنی شناسایی‌شده توسط ماژول OCR، هم از محتوای متن استخراج‌شده و هم از برچسب مربوطه آن استفاده می‌کند. این لایه معنایی با فراهم کردن VLM با زمینه عملکردی صریح برای هر عنصر UI، به سیستم بزرگ‌تر تغذیه می‌کند و نیاز مدل را برای استنتاج اهداف عنصر صرفاً از ظاهر بصری کاهش می‌دهد.

این سیستم می تواند به چندین روش جالب شکست بخورد که زمینه هایی را برای بهبود بالقوه در تعامل GUI مبتنی بر دید برجسته می کند. بیایید این محدودیت ها را بررسی کنیم و راه حل های بالقوه ای را که می توانند قابلیت اطمینان سیستم را افزایش دهند، مورد بحث قرار دهیم.

چالش با عناصر تکراری

هنگام مواجهه با عناصر UI مکرر در همان صفحه، سیستم ممکن است از کار بیفتد. به عنوان مثال، هنگامی که چندین دکمه یکسان «ارسال» در بخش‌های مختلف ظاهر می‌شوند، پیاده‌سازی فعلی برای تمایز مؤثر بین این عناصر یکسان تلاش می‌کند. هنگامی که وظیفه کاربر نیاز به کلیک بر روی یک نمونه خاص از این عناصر تکراری دارد، این می تواند منجر به پیش بینی عملکرد نادرست شود.

# Current approach
description = "Submit button"# Improved approach could look like:
enhanced_description = {
"element_type": "Submit button",
"context": "Form section: User Details",
"position": "Primary submit in main form",
"relative_location": "Bottom right of user information section"
}

راه حل احتمالاً در پیاده سازی «اثرانگشت متنی» نهفته است – افزودن شناسه های خاص لایه و موقعیت خاص به عناصر به ظاهر یکسان. این به سیستم اجازه می دهد تا توضیحات منحصر به فردی را برای هر نمونه از عناصر تکراری ایجاد کند.

مسائل مربوط به دانه بندی در تشخیص جعبه مرزی

یکی دیگر از محدودیت های قابل توجه شامل دقت تشخیص جعبه مرزی، به ویژه با عناصر متنی است. ماژول OCR گاهی اوقات باکس های مرزی بسیار وسیعی تولید می کند که می تواند منجر به پیش بینی کلیک نادرست شود. این امر به ویژه با لینک ها و عناصر متن تعاملی مشکل ساز می شود.

این سناریوی رایج را در نظر بگیرید:

[Read More About Our Services]
^
Current click point (center)

منابع:

https://microsoft.github.io/OmniParser/

https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/

معرفی استفاده از رایانه، غزل جدید کلود 3.5 و هایکو کلود 3.5

یک غزل جدید و قدرتمندتر Claude 3.5، Claude 3.5 Haiku، و یک قابلیت آزمایشی هوش مصنوعی جدید: استفاده از رایانه.

www.anthropic.com

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/how-can-gpts-interact-with-computers-omniparser-explained