عوامل AI خودمختار چندمودالی: تقویت تعامل وب از طریق جستجوی درخت


نویسنده (ها): کاپاردی کانکانتی

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

من اخیراً در مورد عوامل هوش مصنوعی بسیار فکر کرده ام ، آن سیستم هایی که می توانند به جای پاسخ دادن به سؤالات ، کارهایی را برای ما انجام دهند. هفته گذشته ، پروفسور روسلان سالاخوتدینوف از CMU سخنرانی کرد که واقعاً من را از جایی که این زمینه در آن حرکت می کند ، هیجان زده کرد. کار او در مورد عوامل AI چند حالته نشان می دهد که چگونه این سیستم ها می توانند به وب سایت ها حرکت کنند و وظایفی را که هر روز انجام می دهیم ، انجام دهند.

چرا عوامل AI مهم هستند

روسلان با یک نکته ساده اما قدرتمند شروع کرد: ما وقت زیادی را صرف انجام کارهای خسته کننده در رایانه ها و تلفن های خود می کنیم. در مورد همه کلیک ، جستجو و پر کردن فرم که هر روز انجام می دهیم فکر کنید. چه می شود اگر AI بتواند این کارها را برای ما انجام دهد؟

مدل های زبان امروز بسیار هوشمندانه هستند. آنها می توانند از مثالها بیاموزند ، دستورالعمل ها را دنبال کنند و حتی کارهایی را انجام دهند که به طور خاص برای آنها آموزش دیده نبودند. اما برای تبدیل آنها به نمایندگانی که در واقع می توانند کارها را برای ما انجام دهند ، به توانایی های اضافی نیاز دارند – به خصوص قدرت دیدن و درک وب سایت ها به روشی که ما انجام می دهیم.

در واقع عوامل وب چگونه کار می کنند

بخشی که باعث شد من به صندلی خود تکیه دهم وقتی سالوخوتدینوف توضیح داد که چگونه این عوامل وب ساخته شده است. این فقط یک هوش مصنوعی بزرگ نیست – این چندین قطعه با هم کار می کنند:

  1. درک بصری: نماینده باید آنچه را که روی صفحه است “ببیند
  2. پردازش HTML: باید کد پشت صفحه وب را بخوانید
  3. زمینه سازی وب: باید آنچه را که می بیند با آنچه می تواند انجام دهد متصل کند
  4. مدل زبان: این “مغز” است که تصمیم می گیرد

وقتی این عوامل سعی در انجام یک کار دارند ، آنها در لایه ها کار می کنند:

  • اول ، آنها برنامه ای تهیه می کنند (مانند “من باید ارزانترین چاپگر را پیدا کنم و آن را بخرم”)
  • سپس ، آنها می دانند که آنها به چه چیزی نگاه می کنند (“این یک صفحه لیست محصول است”)
  • سرانجام ، آنها اقدامات خاصی را انجام می دهند (با کلیک بر روی یک دکمه یا تایپ کردن متن)

این دقیقاً مانند خرید آنلاین است – ما فقط به طور تصادفی کلیک نمی کنیم. ما یک برنامه خواهیم داشت ، به اطراف صفحه نگاه خواهیم کرد و سپس روی آنچه مفید به نظر می رسد کلیک کنید.

مشکل بزرگ: اشتباهات به سرعت اضافه می شوند

در اینجا چالش اصلی این عوامل با مشکل “خطای نمایی” روبرو است.

تصور کنید که با 30 مرحله دستور العمل را دنبال می کنید. اگر 90 ٪ شانس به درستی هر مرحله را دارید ، ممکن است فکر کنید که خیلی خوب عمل می کنید. اما ریاضیات در غیر این صورت می گوید – شانس شما برای گرفتن کل دستور درستی فقط به 4.24 ٪ کاهش می یابد!

همین اتفاق در مورد عوامل هوش مصنوعی رخ می دهد. حتی اگر آنها در هر مرحله کوچک بسیار خوب باشند (با کلیک بر روی دکمه سمت راست ، تایپ کردن چیز درست) ، وقتی مجبور هستند بسیاری از مراحل را پشت سر هم انجام دهند ، اغلب شکست می خورند. یک اشتباه کوچک در اوایل می تواند کل روند را از بین ببرد.

جستجوی درخت: راه حل هوشمندانه ای که از آن هیجان زده ام

اینجاست که سخنرانی مرا گرفت – وقتی سالاخوتدینوف توضیح داد که چگونه “جستجوی درخت” می تواند این مشکل را برطرف کند. این مانند این است که به هوش مصنوعی این امکان را بدهید که مسیرهای مختلف را امتحان کنید و وقتی اشتباه می کند – درست مثل ما انجام می دهیم!

در اینجا نحوه عملکرد آن آورده شده است:

  1. نماینده چند اقدام ممکن را امتحان می کند
  2. این پیگیری می کند که چگونه امیدوار کننده هر مسیر به نظر می رسد
  3. اگر به بن بست رسید ، برمی گردد و چیز دیگری را امتحان می کند
  4. این جستجو را ادامه می دهد تا زمانی که راه حلی پیدا کند که کار کند

چیزی که باعث خنک شدن این مسئله می شود این است که از نحوه حرکت انسان در وب سایت ها تقلید می کند. وقتی به دنبال چیزی هستیم و روی دکمه اشتباه کلیک می کنیم ، تسلیم نمی شویم – ما فقط دکمه عقب را زدیم و چیز دیگری را امتحان می کنیم.

نتایج بسیار شگفت انگیز بود. هنگامی که آنها جستجوی درخت را به GPT-4O اضافه کردند ، میزان موفقیت آن در کارهای وب تقریباً دو برابر شد-از 17 ٪ به 26 ٪ در یک معیار. مدل های Llama پیشرفت های مشابهی را مشاهده کردند.

در اینجا چقدر بهتر است که این عوامل با جستجوی درخت بدست آورند:

یک مثال عالی که یک عامل در تلاش بود محصولات میوه کنسرو شده را پیدا و مقایسه کند. هنگامی که نوبت اشتباهی ایجاد کرد ، به جای اینکه گیر بیفتد ، عقب نشینی کرد و راه دیگری برای انجام کار پیدا کرد. درست مثل یک شخص واقعی!

چرا نمایندگان هنوز هم اشتباه می کنند (و چگونه آن را برطرف خواهیم کرد)

چگونه و چرا این عوامل هنوز شکست می خورند:

  • بعضی اوقات آنها در حلقه ها گیر می کنند و بین همان دو صفحه تند می زنند
  • آنها ممکن است خیلی زود قبل از یافتن راه حل تسلیم شوند
  • آنها غالباً روی چیزهای اشتباه کلیک می کنند زیرا آنچه را که می بینند اشتباه می کنند
  • آنها با کارهای مکانی مانند “پیدا کردن محصول در ردیف اول” مبارزه می کنند

اما او نسبت به راه حل ها خوش بین بود:

  • راه های بهتر برای ارزیابی مسیرها امیدوار کننده است
  • مأمورین آموزش برای بهبود استراتژی های خود از طریق تجربه
  • فهمیدن چه زمانی باید عامل پایه را باهوش تر کنید در مقابل چه موقع اجازه دهید گزینه های بیشتری را کشف کند
  • کار کردن این سیستم ها در وب سایت های واقعی ، نه فقط در محیط های آزمایشی

من خودم را در حال تکان دادن در کنار هم کردم ، در مورد تمام زمانهایی که تماشا کردم کسی در تلاش برای حرکت در یک وب سایت است ، فکر می کنم ، مرتباً همان اشتباهات را انجام می دهد. این راه حل های هوش مصنوعی آینه ای را نشان می دهد که چگونه به یکدیگر یاد می دهیم که از فناوری استفاده کنند.

آموزش این عوامل در مقیاس اینترنت

قسمت آخر پروژه ای به نام “به آموزش در مقیاس اینترنتی برای نمایندگان” (Insta) را معرفی کرد. این بخش واقعاً باعث شد که من در مورد برنامه های عملی فکر کنم.

آنها به جای پرداخت به انسان برای نشان دادن هزاران کار وب (فوق العاده گران!) ، آنها از مدل های زبانی برای تولید وظایف واقع گرایانه در هزاران وب سایت استفاده می کنند. به عنوان مثال:

  • “یک موضوع وردپرس رایگان برای یک وبلاگ شخصی پیدا کنید”
  • “به معنای نماد OM در فرهنگ های باستانی نگاه کنید”
  • “مقایسه قیمت دوربین های Nikon D850 و D500”

روند آنها ساده اما هوشمندانه است:

  1. برای وب سایت های مختلف کارهای واقع بینانه ایجاد کنید
  2. به نمایندگان اجازه دهید سعی کنند آنها را تکمیل کنند
  3. از AI دیگری استفاده کنید تا بررسی کنید که آیا آنها موفق شده اند
  4. تمام این داده ها را برای آموزش عوامل بهتر جمع آوری کنید

مأمورین آموزش دیده از این طریق بسیار سریعتر آموختند و می توانند وب سایت های جدیدی را که قبلاً ندیده بودند اداره کنند. این رویکرد برای ایجاد عوامل که می توانند در کل اینترنت کار کنند ، نه فقط چند وب سایت آزمایشی ، بسیار کاربردی تر به نظر می رسد.

این به معنای آینده ما چیست

بعد از نشستن در سخنرانی Salakhutdinov ، من نمی توانم کمک کنم اما به این فکر می کنم که چگونه این فناوری ها ممکن است زندگی روزمره من را تغییر دهند. تصور کنید که یک دستیار داشته باشید که در واقع می تواند پروازهای شما را رزرو کند ، بهترین معاملات ، موضوعات تحقیق را برای شما پیدا کند ، یا آن اشکال آزار دهنده را پر کند – همه با درک وب سایت ها به روشی که انجام می دهید.

تکنیک جستجوی درخت واقعاً با من گیر کرده است. این یک رویکرد انسانی برای حل مسئله است-چیزی را امتحان کنید ، ببینید که آیا این کار می کند و اگر نه ، پشتیبان تهیه کنید و چیز دیگری را امتحان کنید. با ارائه هوش مصنوعی به این توانایی در کشف و بهبودی از اشتباهات ، ما آنها را برای کارهای دنیای واقعی بسیار مطمئن تر می کنیم.

ما هنوز در روزهای ابتدایی هستیم (میزان موفقیت 26 ٪ بهتر از 8 ٪ است ، اما به دور از کامل است) ، اما پیشرفت سریع اتفاق می افتد. من فکر می کنم طی چند سال ، ما به این نکته نگاه خواهیم کرد که از گذشته خودمان به عنوان یک کار عجیب و غریب از وب سایت ها حرکت کنیم – مانند نحوه مشاهده شماره تلفن های یادآوری.

در این مقاله به بررسی تحقیقات توسط پروفسور روسلان سالاخوتدینوف از دانشگاه کارنگی ملون به عنوان بخشی از UCB ارائه شده است عوامل پیشرفته مدل بزرگ زبان MOOC برای بهار 2025.

پرشور در مورد هوش مصنوعی ، مولکول، و فناوری؟ بیایید به هم وصل و همکاری کنیم!
توییتربشر وابسته به لینکدینبشر گیتوببشر [email protected]بشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/multimodal-autonomous-ai-agents-enhancing-web-interactions-through-tree-search