آنتروپیک از یک بهروزرسانی بزرگ برای مدلهای هوش مصنوعی کلود خود، از جمله ویژگی جدید «استفاده از رایانه» رونمایی کرده است. توسعه دهندگان می توانند Claude 3.5 Sonnet ارتقا یافته را به سمت برنامه های دسکتاپ هدایت کنند، مکان نماها را حرکت دهند، دکمه ها را کلیک کنند، و متن را تایپ کنند – اساساً شبیه شخصی که در رایانه شخصی خود کار می کند.
این شرکت در نامه ای نوشت: «به جای ساخت ابزارهای خاص برای کمک به کلود در انجام وظایف فردی، ما به او مهارت های کلی کامپیوتر را آموزش می دهیم – به او اجازه می دهیم از طیف گسترده ای از ابزارهای استاندارد و برنامه های نرم افزاری طراحی شده برای افراد استفاده کند. پست وبلاگ.
Computer Use API را می توان برای ترجمه اعلان های متنی به دستورات رایانه ای با Anthropic مثال هایی مانند “استفاده از داده های رایانه من و آنلاین برای پر کردن این فرم” و “حرکت مکان نما برای باز کردن یک مرورگر وب” ادغام کرد. این اولین مدل هوش مصنوعی از رهبر AI است که قادر به مرور وب است.
این بهروزرسانی با تجزیه و تحلیل اسکرینشاتهایی از آنچه کاربر میبیند، محاسبه میکند و سپس محاسبه میکند که چند پیکسل برای حرکت مکاننما به صورت عمودی یا افقی برای کلیک کردن روی مکان صحیح یا انجام کار دیگری با استفاده از نرمافزار موجود، نیاز دارد. این می تواند تا صدها مرحله متوالی را برای تکمیل یک فرمان انجام دهد و در صورت برخورد با مانع، یک مرحله را تصحیح کرده و دوباره امتحان می کند.
Computer Use API که اکنون در نسخه بتای عمومی موجود است، در نهایت قصد دارد به توسعه دهندگان اجازه دهد تا فرآیندهای تکراری را خودکار کنند، نرم افزار را آزمایش کنند و وظایف پایان باز را انجام دهند. پلتفرم توسعه نرمافزار Replit هماکنون در حال بررسی استفاده از آن برای پیمایش رابطهای کاربری برای ارزیابی عملکرد است، زیرا برنامهها برای محصول Replit Agent آن ساخته شدهاند.
آنتروپیک در نامهای نوشت: «فعال کردن هوش مصنوعی برای تعامل مستقیم با نرمافزارهای رایانهای به همان روشی که مردم انجام میدهند، طیف وسیعی از برنامهها را باز میکند که برای نسل فعلی دستیاران هوش مصنوعی امکانپذیر نیست». پست وبلاگ.
استفاده از رایانه کلود هنوز نسبتاً مستعد خطا است
آنتروپیک اعتراف می کند که این ویژگی کامل نیست. هنوز هم نمی تواند به طور موثر اسکرول، کشیدن، یا بزرگنمایی را مدیریت کند. در ارزیابی طراحی شده برای آزمایش توانایی آن در رزرو پرواز، تنها در 46 درصد مواقع موفق بود. اما این یک پیشرفت نسبت به تکرار قبلی است که امتیاز 36٪ را کسب کرد.
از آنجایی که کلود به جای پخش مداوم ویدیو، به اسکرین شات ها متکی است، می تواند اقدامات یا اعلان های کوتاه مدت را از دست بدهد. محققان اعتراف کردند که در طی یک نمایش کدگذاری، کاری که انجام میداد را متوقف کرد و شروع به انجام آن کرد عکس های پارک ملی یلوستون را مرور کنید.
در OSWorld، یک پلتفرم برای ارزیابی توانایی یک مدل برای انجام کارهای مبتنی بر اسکرین شات، امتیاز 14.9٪ را به دست آورد. این بسیار دور از مهارت در سطح انسانی است که تصور می شود بین 70 تا 75 درصد باشد، اما تقریباً دو برابر بهترین سیستم هوش مصنوعی بعدی است. Anthropic همچنین امیدوار است با بازخورد توسعه دهندگان این قابلیت را بهبود بخشد.
استفاده از رایانه دارای برخی ویژگی های ایمنی همراه است
محققان Anthropic می گویند که تعدادی از اقدامات عمدی انجام شده است که بر به حداقل رساندن خطر بالقوه مرتبط با استفاده از رایانه متمرکز شده است. برای حفظ حریم خصوصی و ایمنی، دادههای ارسالی توسط کاربر، از جمله اسکرینشاتهایی که پردازش میکند، آموزش نمیدهد، و همچنین نمیتواند در طول آموزش به اینترنت دسترسی داشته باشد.
یکی از آسیبپذیریهای اصلی شناساییشده، حملات تزریق سریع است، نوعی «جیل بریک» که در آن دستورالعملهای مخرب میتوانند باعث رفتار غیرمنتظره هوش مصنوعی شوند.
تحقیق از موسسه ایمنی هوش مصنوعی بریتانیا متوجه شد که حملات فرار از زندان می تواند “فعال کردن رفتار عامل چند مرحله ای منسجم و مخرب” در مدلهای بدون چنین قابلیتهای استفاده از رایانه، مانند GPT-4o. یک مطالعه جداگانه نشان داد که حملات جیلبریک هوش مصنوعی Generative در 20 درصد مواقع موفق شوید.
برای کاهش خطر تزریق سریع در Claude Sonnet 3.5، تیمهای Trust و Safety سیستمهایی را برای شناسایی و جلوگیری از چنین حملاتی پیادهسازی کردند، بهویژه از آنجایی که کلود میتواند اسکرینشاتهایی را که ممکن است حاوی محتوای مضر باشد، تفسیر کند.
علاوه بر این، توسعه دهندگان احتمال سوء استفاده از مهارت های کامپیوتری کلود را برای کاربران پیش بینی کردند. در نتیجه، آنها «طبقهبندیکنندهها» و سیستمهای نظارتی را ایجاد کردند که تشخیص میدهند فعالیتهای مضر، مانند هرزنامه، اطلاعات نادرست، یا رفتارهای متقلبانه ممکن است رخ دهد. همچنین قادر به ارسال در رسانه های اجتماعی یا تعامل با وب سایت های دولتی برای جلوگیری از تهدیدات سیاسی نیست.
آزمایش مشترک قبل از استقرار توسط مؤسسه ایمنی ایالات متحده و بریتانیا انجام شد و کلود 3.5 Sonnet در سطح ایمنی هوش مصنوعی 2 باقی مانده است، به این معنی که خطرات قابل توجهی را که به اقدامات ایمنی سختگیرانه تری نسبت به موجود نیاز دارد، ایجاد نمی کند.
ببینید: قراردادهای OpenAI و Anthropic با موسسه ایمنی هوش مصنوعی ایالات متحده، ارائه مدل های مرزی برای آزمایش
Claude 3.5 Sonnet در کدنویسی بهتر از نسخه قبلی خود است
علاوه بر بتا استفاده از رایانه، کلود 3.5 Sonnet دستاوردهای قابل توجهی در کدنویسی و استفاده از ابزار دارد، اما با همان هزینه و سرعت نسخه قبلی خود. مدل جدید عملکرد خود را در SWE-bench Verified، یک معیار کدنویسی، از 33.4٪ به 49٪ بهبود می بخشد، حتی از مدل های استدلالی مانند OpenAI o1-preview پیشی گرفته است.
تعداد فزاینده ای از شرکت ها هستند استفاده از هوش مصنوعی Generative برای کدنویسی. با این حال، فناوری در این زمینه کامل نیست. کد تولید شده توسط هوش مصنوعی شناخته شده است باعث خاموشی شودو رهبران امنیتی هستند با در نظر گرفتن ممنوعیت استفاده از این فناوری در توسعه نرم افزار.
ببینید: وقتی هوش مصنوعی علامت خود را از دست می دهد: چرا خریداران فناوری با شکست پروژه مواجه می شوند
به گزارش آنتروپیک، کاربران Claude 3.5 Sonnet این پیشرفت ها را در عمل مشاهده کرده اند. GitLab آن را برای وظایف DevSecOps آزمایش کرد و دریافت که تا 10٪ استدلال قویتر و بدون تاخیر اضافه ارائه میکند. آزمایشگاه هوش مصنوعی Cognition همچنین بهبودهایی را در کدنویسی، برنامه ریزی و حل مسئله نسبت به نسخه قبلی گزارش کرده است.
کلود 3.5 Sonnet امروز از طریق Anthropic API، Amazon Bedrock و Google Cloud’s Vertex AI در دسترس است. نسخه ای بدون استفاده از رایانه در حال ارائه به برنامه های کلود است.
هایکو Claude 3.5 ارزان تر است اما به همان اندازه موثر است
آنتروپیک همچنین کلود 3.5 هایکو را عرضه کرد، نسخه ارتقا یافته ای از ارزان ترین مدل کلود. هایکو پاسخهای سریعتر و همچنین دقت دستورالعملها و استفاده از ابزار بهبود یافته را ارائه میدهد، که آن را برای برنامههای رو به رو کاربر و ایجاد تجربیات شخصیشده از دادهها مفید میکند.
هایکو با همان هزینه و سرعت مشابه نسل قبلی، با عملکرد مدل بزرگتر کلود 3 اوپوس مطابقت دارد. همچنین در SWE-bench Verified از Claude 3.5 Sonnet و GPT-4o اصلی با امتیاز 40.6 عملکرد بهتری دارد.
هایکو Claude 3.5 ماه آینده به عنوان یک مدل فقط متنی عرضه خواهد شد. ورودی تصویر در آینده امکان پذیر خواهد بود.
تغییر جهانی به سمت عوامل هوش مصنوعی
قابلیت استفاده از رایانه Claude 3.5 Sonnet مدل را در قلمرو عوامل هوش مصنوعی قرار می دهد – ابزارهایی که می توانند وظایف پیچیده را به طور مستقل انجام دهند.
یانیس آنتونیو، رئیس بخش داده، تجزیه و تحلیل و هوش مصنوعی در شرکت مشاوره فناوری Lab49، در ایمیلی به TechRepublic گفت: «انتخاب آنتروپیک از عبارت «استفاده از رایانه» به جای «عاملها» این فناوری را برای کاربران عادی قابل دسترستر میکند.
نمایندگان در حال جایگزینی خلبانهای هوش مصنوعی هستند – ابزارهایی که برای کمک و ارائه پیشنهادات به کاربر به جای عمل مستقل طراحی شدهاند – بهعنوان ابزار ضروری در کسبوکارها. با توجه به فایننشال تایمزمایکروسافت، Workday و Salesforce اخیراً نمایندگان را در هسته برنامه های هوش مصنوعی خود قرار داده اند.
در ماه سپتامبر، Salesforce از Agentforce رونمایی کرد، پلتفرمی برای استقرار هوش مصنوعی مولد در زمینه هایی مانند پشتیبانی مشتری، خدمات، فروش یا بازاریابی.
آرماند رویز، معاون مدیریت محصول آیبیام برای پلتفرم هوش مصنوعی، به نمایندگان جشنواره SXSW در استرالیا این هفته گفت که جهش بزرگ بعدی در هوش مصنوعی یک “عصر عاملی” را آغاز خواهد کرد. که در آن عوامل تخصصی هوش مصنوعی با انسان ها همکاری می کنند تا کارایی سازمانی را افزایش دهند.
ما راه درازی در پیش داریم تا هوش مصنوعی به ما اجازه دهد تا همه این وظایف روتین را انجام دهیم و آن را به گونه ای انجام دهیم که قابل اعتماد باشد، و سپس آن را به گونه ای انجام دهیم که بتوانید آن را مقیاس بندی کنید، و سپس بتوانید آن را توضیح دهید. و شما می توانید آن را زیر نظر داشته باشید.» او به جمعیت گفت. اما ما به آنجا خواهیم رسید و سریعتر از آنچه فکر می کنیم به آنجا خواهیم رسید.
عوامل هوش مصنوعی حتی می توانند تا آنجا پیش بروند که نیاز به کمک انسان در خلقت خود را از بین ببرند. هفته گذشته، متا گفت که در حال انتشار a مدل هوش مصنوعی “ارزش دهنده خودآموخته”. طراحی شده است تا به طور مستقل عملکرد خود و سایر سیستم های هوش مصنوعی را ارزیابی کند و پتانسیل مدل ها را برای یادگیری از اشتباهات خود نشان دهد.
منبع: https://www.techrepublic.com/article/claude-sonnet-computer-control/