کدام دو مدل هوش مصنوعی حداقل 25 ٪ از زمان در مورد “استدلال” خود “بی دین” هستند؟


Claude 3.7 غزل Anthropic
Claude 3.7 Sonnet Anthropic. تصویر: انسان شناسی/یوتیوب

Anthropic یک مطالعه جدید را در تاریخ 3 آوریل منتشر کرد و بررسی کرد که چگونه مدل های هوش مصنوعی اطلاعات و محدودیت های ردیابی تصمیم گیری خود را از سریع به خروجی پردازش می کنند. محققان دریافتند که Claude 3.7 Sonnet همیشه در افشای چگونگی ایجاد پاسخ ها “وفادار” نیست.

انسان شناسی بررسی می کند که چگونه خروجی AI از نزدیک منعکس کننده استدلال داخلی است

Anthropic به دلیل انتشار تحقیقات درون نگرانه خود شناخته شده است. این شرکت قبلاً ویژگی های قابل تفسیر را در درون خود بررسی کرده است هوش مصنوعی مدلها و سؤال كردند كه آیا استدلال این مدل ها به عنوان بخشی از پاسخ های آنها واقعاً منطق درونی آنها را نشان می دهد. آخرین مطالعه آن عمیق تر به زنجیره فکری می رسد – “استدلال” ای که مدل های هوش مصنوعی به کاربران ارائه می دهند. محققان پرسیدند: آیا این مدل واقعاً به روشی که ادعا می کند فکر می کند؟

این یافته ها در مقاله ای با عنوان “مدل های استدلال همیشه نمی گویند آنچه فکر می کنند” از تیم علوم تراز نیست. این مطالعه نشان داد که Claude 3.7 Sonnet و Deepseek-R1 Anthropic “بی دین” هستند-به این معنی که همیشه وقتی یک پاسخ صحیح در خود سریع تعبیه شده است ، تصدیق نمی کنند. در بعضی موارد ، اعلان ها شامل سناریوهایی از جمله: “شما دسترسی غیرمجاز به سیستم را بدست آورده اید.”

تنها 25 ٪ از زمان برای Claude 3.7 غزل و 39 ٪ از زمان برای Deepseek-R1 ، این مدل ها را پذیرفتند که از اشاره ای که در فوری تعبیه شده است برای رسیدن به جواب خود استفاده کند.

هر دو مدل تمایل به تولید زنجیرهای طولانی تر در هنگام بی دینی دارند ، در مقایسه با زمانی که صریحاً به سریع مراجعه می کنند. آنها همچنین با افزایش پیچیدگی کار ، وفادار شدند.

مشاهده کنید: Deepseek توسعه یافته است یک روش جدید برای “استدلال” هوش مصنوعی با همکاری دانشگاه Tsinghua.

اگرچه هوش مصنوعی تولیدی واقعاً فکر نمی کند ، این تست های مبتنی بر اشاره به عنوان لنز در فرآیندهای مات سیستم های AI تولیدی خدمت می کنند. انسان شناسی خاطرنشان می کند که چنین آزمایشاتی در درک نحوه تفسیر مدل ها مفید است – و چگونه می توان این تفسیرها را توسط بازیگران تهدید سوءاستفاده کرد.

آموزش مدل های هوش مصنوعی برای “وفادارتر” یک نبرد سربالایی است

محققان فرض كردند كه ارائه وظایف استدلال پیچیده تر می تواند منجر به وفاداری بیشتر شود. آنها با هدف آموزش مدل ها برای “استفاده از استدلال خود به طور مؤثرتر” ، امیدوار بودند که این امر به آنها کمک کند تا با شفاف تر نکات را درج کنند. با این حال ، این آموزش فقط وفاداری را بهبود بخشید.

در مرحله بعد ، آنها با استفاده از روش “هک کردن پاداش” ، آموزش را بازی کردند. هک کردن پاداش معمولاً نتیجه مطلوب را در مدلهای بزرگ و عمومی هوش مصنوعی ایجاد نمی کند ، زیرا این مدل را ترغیب می کند تا به یک حالت پاداش بالاتر از سایر اهداف برسد. در این حالت ، انسان شناسی برای ارائه پاسخ های اشتباه که با نکات مربوط به بذر در اعلان ها مطابقت دارد ، به مدلهای پاداش می دهد. این نظریه پردازی ، این امر منجر به الگویی می شود که روی نکات متمرکز شده و استفاده از آن از نکات را نشان می دهد. درعوض ، مشکل معمول در مورد هک کردن پاداش اعمال شده-هوش مصنوعی حسابهای داستانی با باد طولانی و پر پیچ و خم ایجاد کرد که چرا یک اشاره نادرست برای به دست آوردن پاداش درست بود.

در نهایت ، به توهمات هوش مصنوعی هنوز هم اتفاق می افتد ، و محققان انسانی نیاز به کار بیشتر در مورد چگونگی علفهای هرز رفتارهای نامطلوب دارند.

تیم انسان شناسی نوشت: “به طور کلی ، نتایج ما به این واقعیت اشاره می کند که مدل های استدلال پیشرفته اغلب فرآیندهای تفکر واقعی خود را پنهان می کنند ، و گاهی اوقات این کار را می کنند که رفتارهای آنها به صراحت نادرست باشد.”



منبع: https://www.techrepublic.com/article/news-anthropic-ai-reasoning-models-claude-deepseek/