نویسنده(های): برهومی مصبه
در ابتدا منتشر شد به سمت هوش مصنوعی.
مایکروسافت در سکوت منتشر کرده است OmniParser، یک ابزار منبع باز طراحی شده برای تبدیل اسکرین شات ها به عناصر ساختاریافته و قابل تفسیر برای Vision Agents. هدف این ابزار پیشبرد زمینه نوظهور توانمندسازی مدلهای زبان بزرگ (LLM) برای تعامل با رابطهای گرافیکی کاربر (GUI) است. اخیرا، Anthropic یک ابزار مشابه اما منبع بسته را برای تعامل با رابط های کامپیوتری اعلام کرد. با این حال، ایجاد یک سیستم مشابه آنقدرها که به نظر می رسد چالش برانگیز نیست، مفهوم آن ساده است. مایکروسافت OmniParser به طور کامل در یک همراه مستند شده است کاغذ، که هر جزء را به صورت واضح و قابل دسترس توضیح می دهد. این مقاله به بررسی چگونگی ساخت ابزاری قابل مقایسه با آنتروپیک می پردازد.
مقدمه
برای ارائه ایده ای از آنچه ما در تلاش هستیم انجام دهیم، تصور کنید برای انجام یک کار رابط کاربری در وب به کمک ChatGPT نیاز دارید. برای مثال، اگر میخواهید یک وب هوک راهاندازی کنید، ChatGPT نیازی به «دیدن» رابط کاربری ندارد. این به سادگی دستورالعمل هایی مانند «اینجا کلیک کنید» یا «به آن گزینه بروید» بر اساس اطلاعات منابعی مانند Stack Overflow ارائه می دهد.
اکنون، ما می خواهیم این را یک قدم جلوتر ببریم. عامل vision-enabled در واقع قادر خواهد بود آنچه را که روی صفحه نمایش شما قرار دارد ببیند، رابط کاربری را درک کند و در مورد مراحل بعدی تصمیم گیری کند، مانند دکمه کلیک کردن. برای انجام موثر این کار، باید مختصات دقیق عناصر UI را شناسایی کند.
OmniParser چگونه کار می کند
وظایف پیچیده تعامل رابط کاربری را می توان به دو الزام اساسی برای مدل های زبان ویژن (VLM) تقسیم کرد:
- درک وضعیت صفحه نمایش رابط کاربری فعلی
- پیش بینی اقدام مناسب بعدی به منظور انجام کار
OmniParser به جای رسیدگی به هر دو الزامات در یک مرحله واحد، فرآیند را به چند مرحله تقسیم میکند. ابتدا، مدل باید وضعیت فعلی اسکرین شات را درک کند، به این معنی که باید اشیاء موجود در اسکرین شات را تشخیص دهد و پیش بینی کند که در صورت کلیک روی هر شی چه اتفاقی خواهد افتاد. محققان مایکروسافت از OCR برای شناسایی عناصر قابل کلیک با متن برای ارائه زمینه بیشتر استفاده کرده اند و مدل توصیف آیکون را به خوبی تنظیم کرده اند.
با این رویکرد، مدل از مختصات اجزای مختلف روی صفحه اطلاعات کسب می کند و درک می کند که هر جزء چه کاری انجام می دهد.
تشخیص عنصر تعاملی
برای دستیابی به اولین مرحله در سیستم، محققان مایکروسافت یک مدل YOLOv8 را بر روی 66990 نمونه برای 20 دوره آموزش دادند و تقریباً 75٪ mAP@50 را به دست آوردند. علاوه بر تشخیص منطقه قابل تعامل، آنها همچنین یک ماژول OCR را برای استخراج جعبه های محدود متن ایجاد کردند. سپس، جعبههای محدودکننده را از ماژول تشخیص OCR و ماژول تشخیص نماد ادغام میکنند و کادرهایی با همپوشانی زیاد (با استفاده از آستانه بیش از 90٪) حذف میکنند. برای هر جعبه مرزی، با استفاده از یک الگوریتم ساده که همپوشانی بین برچسبهای عددی و سایر جعبههای مرزی را به حداقل میرساند، آن را با یک شناسه منحصر به فرد برچسبگذاری میکنند.
درک معنایی
برای مدیریت درک معنایی عناصر رابط کاربری، محققان مایکروسافت یک مدل BLIP-v2 را به صورت سفارشی تنظیم کردند. مجموعه داده از 7000 جفت توصیف نماد. این مجموعه داده به طور خاص با استفاده از GPT-4 برای اطمینان از کیفیت بالا و توضیحات مرتبط اجزای UI انتخاب شد. مدل با تنظیم دقیق دو نوع عنصر را متفاوت پردازش میکند: برای نمادهای تعاملی شناساییشده، توصیفهای کاربردی را ایجاد میکند که هدف و رفتار آنها را توضیح میدهد، در حالی که برای عناصر متنی شناساییشده توسط ماژول OCR، هم از محتوای متن استخراجشده و هم از برچسب مربوطه آن استفاده میکند. این لایه معنایی با فراهم کردن VLM با زمینه عملکردی صریح برای هر عنصر UI، به سیستم بزرگتر تغذیه میکند و نیاز مدل را برای استنتاج اهداف عنصر صرفاً از ظاهر بصری کاهش میدهد.
این سیستم می تواند به چندین روش جالب شکست بخورد که زمینه هایی را برای بهبود بالقوه در تعامل GUI مبتنی بر دید برجسته می کند. بیایید این محدودیت ها را بررسی کنیم و راه حل های بالقوه ای را که می توانند قابلیت اطمینان سیستم را افزایش دهند، مورد بحث قرار دهیم.
چالش با عناصر تکراری
هنگام مواجهه با عناصر UI مکرر در همان صفحه، سیستم ممکن است از کار بیفتد. به عنوان مثال، هنگامی که چندین دکمه یکسان «ارسال» در بخشهای مختلف ظاهر میشوند، پیادهسازی فعلی برای تمایز مؤثر بین این عناصر یکسان تلاش میکند. هنگامی که وظیفه کاربر نیاز به کلیک بر روی یک نمونه خاص از این عناصر تکراری دارد، این می تواند منجر به پیش بینی عملکرد نادرست شود.
# Current approach
description = "Submit button"# Improved approach could look like:
enhanced_description = {
"element_type": "Submit button",
"context": "Form section: User Details",
"position": "Primary submit in main form",
"relative_location": "Bottom right of user information section"
}
راه حل احتمالاً در پیاده سازی «اثرانگشت متنی» نهفته است – افزودن شناسه های خاص لایه و موقعیت خاص به عناصر به ظاهر یکسان. این به سیستم اجازه می دهد تا توضیحات منحصر به فردی را برای هر نمونه از عناصر تکراری ایجاد کند.
مسائل مربوط به دانه بندی در تشخیص جعبه مرزی
یکی دیگر از محدودیت های قابل توجه شامل دقت تشخیص جعبه مرزی، به ویژه با عناصر متنی است. ماژول OCR گاهی اوقات باکس های مرزی بسیار وسیعی تولید می کند که می تواند منجر به پیش بینی کلیک نادرست شود. این امر به ویژه با لینک ها و عناصر متن تعاملی مشکل ساز می شود.
این سناریوی رایج را در نظر بگیرید:
[Read More About Our Services]
^
Current click point (center)
منابع:
https://microsoft.github.io/OmniParser/
https://www.microsoft.com/en-us/research/articles/omniparser-for-pure-vision-based-gui-agent/
معرفی استفاده از رایانه، غزل جدید کلود 3.5 و هایکو کلود 3.5
یک غزل جدید و قدرتمندتر Claude 3.5، Claude 3.5 Haiku، و یک قابلیت آزمایشی هوش مصنوعی جدید: استفاده از رایانه.
www.anthropic.com
منتشر شده از طریق به سمت هوش مصنوعی