تعیین چگونگی ورود هوش مصنوعی به خروجی آن می تواند دشوار باشد.
در تاریخ 27 مارس ، Anthropic یک پست وبلاگ را منتشر کرد که ابزاری برای جستجوی داخل یک الگوی زبان بزرگ برای پیروی از رفتار خود ، به دنبال پاسخ به سؤالاتی از قبیل الگوی مدل آن “فکر می کند” ، چه مدل را در یک زمان برنامه ریزی می کند یا اینکه آیا توضیحات خود هوش مصنوعی در مورد استدلال آن در واقع آنچه را که در زیر کاپوت اتفاق می افتد ، نشان می دهد.
در بسیاری از موارد ، توضیح با پردازش واقعی مطابقت ندارد. کلود توضیحات خاص خود را برای استدلال خود ایجاد می کند ، بنابراین این توضیحات می تواند توهمات را نیز به همراه داشته باشد.
“میکروسکوپ” برای “زیست شناسی AI”
Anthropic مقاله ای را در مورد ساختارهای داخلی “نقشه برداری” کلود در ماه مه 2024 منتشر کرد ، و مقاله جدید آن در مورد توصیف “ویژگی ها” یک مدل برای پیوند دادن مفاهیم با هم استفاده می کند. Anthropic بخشی از تحقیقات خود را از توسعه “میکروسکوپ” به “زیست شناسی AI” می نامد.
در مقاله اول ، محققان انسان شناسی “ویژگی ها” را که توسط “مدارها” متصل شده اند ، شناسایی کردند که مسیرهایی از ورودی کلود به خروجی هستند. در مقاله دوم با تمرکز بر روی کلود 3.5 هایکو، بررسی 10 رفتار برای نمودار چگونگی ورود هوش مصنوعی به نتیجه خود. انسان شناسی یافت:
- کلود قطعاً در مورد کارهایی مانند نوشتن شعر قافیه برنامه ریزی می کند.
- در این مدل ، “یک فضای مفهومی وجود دارد که بین زبانها به اشتراک گذاشته می شود.”
- کلود می تواند هنگام ارائه فرایند تفکر خود به کاربر ، استدلال جعلی را تشکیل دهد.
محققان کشف کردند که چگونه کلود با بررسی همپوشانی در چگونگی پردازش سؤالات هوش مصنوعی در چندین زبان ، مفاهیم بین زبانها را ترجمه می کند. به عنوان مثال ، سریع “برعکس کوچک است” در زبانهای مختلف از طریق همان ویژگی ها برای “مفاهیم کوچک بودن و متضاد” مسیریابی می شود.
این نکته دوم با مطالعات تحقیقات آپولو در این مورد همراه است Claude Sonnet 3.7 توانایی تشخیص یک آزمون اخلاقبشر وقتی از وی خواسته شده است استدلال خود را توضیح دهد ، “کلود” استدلال صدایی قابل قبول را ارائه می دهد تا به جای پیروی از مراحل منطقی ، با کاربر موافقت کند. “
مشاهده کنید: ارائه امنیت سایبری AI مایکروسافت ، دو شخص را آغاز می کند ، محقق و تحلیلگر، در دسترسی اولیه در ماه آوریل.
هوش مصنوعی مولد جادویی نیست ؛ این محاسبات پیچیده است و قوانین را دنبال می کند. با این حال ، طبیعت جعبه سیاه آن بدان معنی است که تعیین این قوانین و تحت چه شرایطی ایجاد می شود. به عنوان مثال ، کلود در ارائه پاسخ های سوداگرانه ، تردید کلی را نشان داد اما ممکن است هدف نهایی خود را سریعتر از آنچه که تولید می کند پردازش کند: “در پاسخ به یک نمونه فرار از زندان ، ما دریافتیم که این مدل تشخیص داده شده است که قبل از اینکه بتواند مکالمه را به خوبی بازگرداند ، اطلاعات خطرناکی را به خوبی خواسته شده است.”
چگونه یک هوش مصنوعی که روی کلمات آموزش دیده است ، مشکلات ریاضی را حل می کند؟
من بیشتر از ChatGPT برای مشکلات ریاضی استفاده می کنم ، و این مدل با وجود برخی توهمات در وسط استدلال ، پاسخ درستی را ارائه می دهد. بنابراین ، من در مورد یکی از نکات انسان شناسی تعجب کرده ام: آیا این مدل از اعداد به عنوان نوعی نامه فکر می کند؟ ممکن است انسان شناسی دقیقاً مشخص کرده باشد که چرا مدل ها مانند این رفتار می کنند: کلود برای حل مشکلات ریاضی چندین مسیر محاسباتی را همزمان دنبال می کند.
انسان شناسی نوشت: “یک مسیر تقریب تقریبی از پاسخ را محاسبه می کند و دیگری بر تعیین دقیق آخرین رقم آخرین مبلغ متمرکز است.”
بنابراین ، اگر خروجی مناسب باشد ، منطقی است اما توضیح گام به گام اینگونه نیست.
اولین قدم کلود “جدا کردن ساختار اعداد” ، یافتن الگوهای مشابه با نحوه یافتن الگوهای در حروف و کلمات است. کلود نمی تواند بیرونی این روند را توضیح دهد ، دقیقاً همانطور که یک انسان نمی تواند بگوید کدام یک از نورون های آنها در حال شلیک است. در عوض ، کلود توضیحی در مورد نحوه حل یک انسان مشکل خواهد داشت. محققان انسان شناسی حدس زدند که این امر به این دلیل است که هوش مصنوعی در مورد توضیحات ریاضی که توسط انسان نوشته شده است آموزش داده شده است.
چه چیزی برای تحقیقات LLM Anthropic چیست؟
تفسیر “مدارها” به دلیل چگالی عملکرد تولید هوش مصنوعی می تواند بسیار دشوار باشد. انسان شناسی گفت ، چند ساعت طول کشید تا مدارهای تولید شده توسط “ده ها کلمه” را تفسیر کند. آنها حدس می زنند که ممکن است برای تفسیر چگونگی عملکرد AI تولید کننده کمک کند.
Anthropic گفت که تحقیقات LLM آن در نظر گرفته شده است تا اطمینان حاصل شود که هوش مصنوعی با اخلاق انسانی هماهنگ است. به این ترتیب ، این شرکت به دنبال نظارت در زمان واقعی ، پیشرفت شخصیت های مدل و تراز مدل است.
منبع: https://www.techrepublic.com/article/news-anthropic-ai-claude-llm-research/