نویسنده (ها): Eivind Kjosbakken
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
کشف 3 LLM Frontier Top از طریق معیار – ARC AGI 3
در چند هفته گذشته ، ما شاهد انتشار قدرتمند هستیم LLMS مانند Qwen 3 Moe ، Kimi K2 و Grok 4. ما همچنان شاهد پیشرفت های سریع در آینده قابل پیش بینی خواهیم بود و مقایسه خواهیم کرد LLMS در برابر یکدیگر ، ما به معیارها احتیاج داریم. در این مقاله ، من در مورد معیار تازه منتشر شده ARC AGI 3 بحث می کنم و چرا Frontier LLMS برای انجام هرگونه کار در معیار تلاش می کند.
در این مقاله به بررسی تحولات اخیر در فناوری LLM و انتشار معیار ARC AGI 3 می پردازیم ، با تأکید بر چالش های LLMS Frontier در دستیابی به عملکرد سطح انسان در کارهای معیار ، در حالی که بسیاری از مدل ها به نمره های پایین 0 ٪ رسیده اند. نویسنده چندین عامل کمک به این نمرات پایین را بررسی می کند ، از جمله عدم وجود اطلاعات در طول آزمایشات ، عدم تطابق بین داده های آموزش و وظایف معیار ، و مفهوم تعقیب معیار – جایی که عملکرد مدل به جای هوش واقعی برای معیارها بهینه شده است. نتیجه گیری امید به پیشرفت های آینده در عملکرد LLM در ARC AGI 3 را نشان می دهد ، که با تأکید بر درک هوش بدون محدودیت معیارها ، جفت شده است.
وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی