غزل کلود 3.5 می تواند کامپیوتر شما را کنترل کند

آنتروپیک از یک به‌روزرسانی بزرگ برای مدل‌های هوش مصنوعی کلود خود، از جمله ویژگی جدید «استفاده از رایانه» رونمایی کرده است. توسعه دهندگان می توانند Claude 3.5 Sonnet ارتقا یافته را به سمت برنامه های دسکتاپ هدایت کنند، مکان نماها را حرکت دهند، دکمه ها را کلیک کنند، و متن را تایپ کنند – اساساً شبیه شخصی که در رایانه شخصی خود کار می کند.

این شرکت در نامه ای نوشت: «به جای ساخت ابزارهای خاص برای کمک به کلود در انجام وظایف فردی، ما به او مهارت های کلی کامپیوتر را آموزش می دهیم – به او اجازه می دهیم از طیف گسترده ای از ابزارهای استاندارد و برنامه های نرم افزاری طراحی شده برای افراد استفاده کند. پست وبلاگ.

Computer Use API را می توان برای ترجمه اعلان های متنی به دستورات رایانه ای با Anthropic مثال هایی مانند “استفاده از داده های رایانه من و آنلاین برای پر کردن این فرم” و “حرکت مکان نما برای باز کردن یک مرورگر وب” ادغام کرد. این اولین مدل هوش مصنوعی از رهبر AI است که قادر به مرور وب است.

این به‌روزرسانی با تجزیه و تحلیل اسکرین‌شات‌هایی از آنچه کاربر می‌بیند، محاسبه می‌کند و سپس محاسبه می‌کند که چند پیکسل برای حرکت مکان‌نما به صورت عمودی یا افقی برای کلیک کردن روی مکان صحیح یا انجام کار دیگری با استفاده از نرم‌افزار موجود، نیاز دارد. این می تواند تا صدها مرحله متوالی را برای تکمیل یک فرمان انجام دهد و در صورت برخورد با مانع، یک مرحله را تصحیح کرده و دوباره امتحان می کند.

Computer Use API که اکنون در نسخه بتای عمومی موجود است، در نهایت قصد دارد به توسعه دهندگان اجازه دهد تا فرآیندهای تکراری را خودکار کنند، نرم افزار را آزمایش کنند و وظایف پایان باز را انجام دهند. پلتفرم توسعه نرم‌افزار Replit هم‌اکنون در حال بررسی استفاده از آن برای پیمایش رابط‌های کاربری برای ارزیابی عملکرد است، زیرا برنامه‌ها برای محصول Replit Agent آن ساخته شده‌اند.

آنتروپیک در نامه‌ای نوشت: «فعال کردن هوش مصنوعی برای تعامل مستقیم با نرم‌افزارهای رایانه‌ای به همان روشی که مردم انجام می‌دهند، طیف وسیعی از برنامه‌ها را باز می‌کند که برای نسل فعلی دستیاران هوش مصنوعی امکان‌پذیر نیست». پست وبلاگ.

استفاده از رایانه کلود هنوز نسبتاً مستعد خطا است

آنتروپیک اعتراف می کند که این ویژگی کامل نیست. هنوز هم نمی تواند به طور موثر اسکرول، کشیدن، یا بزرگنمایی را مدیریت کند. در ارزیابی طراحی شده برای آزمایش توانایی آن در رزرو پرواز، تنها در 46 درصد مواقع موفق بود. اما این یک پیشرفت نسبت به تکرار قبلی است که امتیاز 36٪ را کسب کرد.

از آنجایی که کلود به جای پخش مداوم ویدیو، به اسکرین شات ها متکی است، می تواند اقدامات یا اعلان های کوتاه مدت را از دست بدهد. محققان اعتراف کردند که در طی یک نمایش کدگذاری، کاری که انجام می‌داد را متوقف کرد و شروع به انجام آن کرد عکس های پارک ملی یلوستون را مرور کنید.

در OSWorld، یک پلتفرم برای ارزیابی توانایی یک مدل برای انجام کارهای مبتنی بر اسکرین شات، امتیاز 14.9٪ را به دست آورد. این بسیار دور از مهارت در سطح انسانی است که تصور می شود بین 70 تا 75 درصد باشد، اما تقریباً دو برابر بهترین سیستم هوش مصنوعی بعدی است. Anthropic همچنین امیدوار است با بازخورد توسعه دهندگان این قابلیت را بهبود بخشد.

استفاده از رایانه دارای برخی ویژگی های ایمنی همراه است

محققان Anthropic می گویند که تعدادی از اقدامات عمدی انجام شده است که بر به حداقل رساندن خطر بالقوه مرتبط با استفاده از رایانه متمرکز شده است. برای حفظ حریم خصوصی و ایمنی، داده‌های ارسالی توسط کاربر، از جمله اسکرین‌شات‌هایی که پردازش می‌کند، آموزش نمی‌دهد، و همچنین نمی‌تواند در طول آموزش به اینترنت دسترسی داشته باشد.

یکی از آسیب‌پذیری‌های اصلی شناسایی‌شده، حملات تزریق سریع است، نوعی «جیل بریک» که در آن دستورالعمل‌های مخرب می‌توانند باعث رفتار غیرمنتظره هوش مصنوعی شوند.

تحقیق از موسسه ایمنی هوش مصنوعی بریتانیا متوجه شد که حملات فرار از زندان می تواند “فعال کردن رفتار عامل چند مرحله ای منسجم و مخرب” در مدل‌های بدون چنین قابلیت‌های استفاده از رایانه، مانند GPT-4o. یک مطالعه جداگانه نشان داد که حملات جیلبریک هوش مصنوعی Generative در 20 درصد مواقع موفق شوید.

برای کاهش خطر تزریق سریع در Claude Sonnet 3.5، تیم‌های Trust و Safety سیستم‌هایی را برای شناسایی و جلوگیری از چنین حملاتی پیاده‌سازی کردند، به‌ویژه از آنجایی که کلود می‌تواند اسکرین‌شات‌هایی را که ممکن است حاوی محتوای مضر باشد، تفسیر کند.

علاوه بر این، توسعه دهندگان احتمال سوء استفاده از مهارت های کامپیوتری کلود را برای کاربران پیش بینی کردند. در نتیجه، آنها «طبقه‌بندی‌کننده‌ها» و سیستم‌های نظارتی را ایجاد کردند که تشخیص می‌دهند فعالیت‌های مضر، مانند هرزنامه، اطلاعات نادرست، یا رفتارهای متقلبانه ممکن است رخ دهد. همچنین قادر به ارسال در رسانه های اجتماعی یا تعامل با وب سایت های دولتی برای جلوگیری از تهدیدات سیاسی نیست.

آزمایش مشترک قبل از استقرار توسط مؤسسه ایمنی ایالات متحده و بریتانیا انجام شد و کلود 3.5 Sonnet در سطح ایمنی هوش مصنوعی 2 باقی مانده است، به این معنی که خطرات قابل توجهی را که به اقدامات ایمنی سختگیرانه تری نسبت به موجود نیاز دارد، ایجاد نمی کند.

ببینید: قراردادهای OpenAI و Anthropic با موسسه ایمنی هوش مصنوعی ایالات متحده، ارائه مدل های مرزی برای آزمایش

Claude 3.5 Sonnet در کدنویسی بهتر از نسخه قبلی خود است

علاوه بر بتا استفاده از رایانه، کلود 3.5 Sonnet دستاوردهای قابل توجهی در کدنویسی و استفاده از ابزار دارد، اما با همان هزینه و سرعت نسخه قبلی خود. مدل جدید عملکرد خود را در SWE-bench Verified، یک معیار کدنویسی، از 33.4٪ به 49٪ بهبود می بخشد، حتی از مدل های استدلالی مانند OpenAI o1-preview پیشی گرفته است.

تعداد فزاینده ای از شرکت ها هستند استفاده از هوش مصنوعی Generative برای کدنویسی. با این حال، فناوری در این زمینه کامل نیست. کد تولید شده توسط هوش مصنوعی شناخته شده است باعث خاموشی شودو رهبران امنیتی هستند با در نظر گرفتن ممنوعیت استفاده از این فناوری در توسعه نرم افزار.

ببینید: وقتی هوش مصنوعی علامت خود را از دست می دهد: چرا خریداران فناوری با شکست پروژه مواجه می شوند

به گزارش آنتروپیک، کاربران Claude 3.5 Sonnet این پیشرفت ها را در عمل مشاهده کرده اند. GitLab آن را برای وظایف DevSecOps آزمایش کرد و دریافت که تا 10٪ استدلال قوی‌تر و بدون تاخیر اضافه ارائه می‌کند. آزمایشگاه هوش مصنوعی Cognition همچنین بهبودهایی را در کدنویسی، برنامه ریزی و حل مسئله نسبت به نسخه قبلی گزارش کرده است.

کلود 3.5 Sonnet امروز از طریق Anthropic API، Amazon Bedrock و Google Cloud’s Vertex AI در دسترس است. نسخه ای بدون استفاده از رایانه در حال ارائه به برنامه های کلود است.

هایکو Claude 3.5 ارزان تر است اما به همان اندازه موثر است

آنتروپیک همچنین کلود 3.5 هایکو را عرضه کرد، نسخه ارتقا یافته ای از ارزان ترین مدل کلود. هایکو پاسخ‌های سریع‌تر و همچنین دقت دستورالعمل‌ها و استفاده از ابزار بهبود یافته را ارائه می‌دهد، که آن را برای برنامه‌های رو به رو کاربر و ایجاد تجربیات شخصی‌شده از داده‌ها مفید می‌کند.

هایکو با همان هزینه و سرعت مشابه نسل قبلی، با عملکرد مدل بزرگتر کلود 3 اوپوس مطابقت دارد. همچنین در SWE-bench Verified از Claude 3.5 Sonnet و GPT-4o اصلی با امتیاز 40.6 عملکرد بهتری دارد.

هایکو Claude 3.5 ماه آینده به عنوان یک مدل فقط متنی عرضه خواهد شد. ورودی تصویر در آینده امکان پذیر خواهد بود.

تغییر جهانی به سمت عوامل هوش مصنوعی

قابلیت استفاده از رایانه Claude 3.5 Sonnet مدل را در قلمرو عوامل هوش مصنوعی قرار می دهد – ابزارهایی که می توانند وظایف پیچیده را به طور مستقل انجام دهند.

یانیس آنتونیو، رئیس بخش داده، تجزیه و تحلیل و هوش مصنوعی در شرکت مشاوره فناوری Lab49، در ایمیلی به TechRepublic گفت: «انتخاب آنتروپیک از عبارت «استفاده از رایانه» به جای «عامل‌ها» این فناوری را برای کاربران عادی قابل دسترس‌تر می‌کند.

نمایندگان در حال جایگزینی خلبان‌های هوش مصنوعی هستند – ابزارهایی که برای کمک و ارائه پیشنهادات به کاربر به جای عمل مستقل طراحی شده‌اند – به‌عنوان ابزار ضروری در کسب‌وکارها. با توجه به فایننشال تایمزمایکروسافت، Workday و Salesforce اخیراً نمایندگان را در هسته برنامه های هوش مصنوعی خود قرار داده اند.

در ماه سپتامبر، Salesforce از Agentforce رونمایی کرد، پلتفرمی برای استقرار هوش مصنوعی مولد در زمینه هایی مانند پشتیبانی مشتری، خدمات، فروش یا بازاریابی.

آرماند رویز، معاون مدیریت محصول آی‌بی‌ام برای پلتفرم هوش مصنوعی، به نمایندگان جشنواره SXSW در استرالیا این هفته گفت که جهش بزرگ بعدی در هوش مصنوعی یک “عصر عاملی” را آغاز خواهد کرد. که در آن عوامل تخصصی هوش مصنوعی با انسان ها همکاری می کنند تا کارایی سازمانی را افزایش دهند.

ما راه درازی در پیش داریم تا هوش مصنوعی به ما اجازه دهد تا همه این وظایف روتین را انجام دهیم و آن را به گونه ای انجام دهیم که قابل اعتماد باشد، و سپس آن را به گونه ای انجام دهیم که بتوانید آن را مقیاس بندی کنید، و سپس بتوانید آن را توضیح دهید. و شما می توانید آن را زیر نظر داشته باشید.» او به جمعیت گفت. اما ما به آنجا خواهیم رسید و سریعتر از آنچه فکر می کنیم به آنجا خواهیم رسید.

عوامل هوش مصنوعی حتی می توانند تا آنجا پیش بروند که نیاز به کمک انسان در خلقت خود را از بین ببرند. هفته گذشته، متا گفت که در حال انتشار a مدل هوش مصنوعی “ارزش دهنده خودآموخته”. طراحی شده است تا به طور مستقل عملکرد خود و سایر سیستم های هوش مصنوعی را ارزیابی کند و پتانسیل مدل ها را برای یادگیری از اشتباهات خود نشان دهد.

منبع: https://www.techrepublic.com/article/claude-sonnet-computer-control/