ماه در 4 مقاله (ژانویه 2025)


نویسنده (ها): علاء فلاکی ، دکترا

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.

چگونه مدل های زبان یاد می گیرند که فکر کنند ، قاضی و مقیاس: از ارزیابی کد گرفته تا استدلال کارآمد.

این سری از پست ها به گونه ای طراحی شده است که جدیدترین یافته ها و تحولات را در این زمینه به ارمغان می آورد NLP میدان من هر ماه به چهار مقاله تحقیقاتی مهم می پردازم و خلاصه ای جامع را ارائه می دهم. حتماً به طور مرتب از وبلاگ من بازدید کنید یا در من مشترک شوید خبرنامه برای به روزرسانی های ماهانه بیایید شیرجه بزنیم!

📝 CodeJudge-Eval: CAN مدل های بزرگ زبان در درک کد داوران خوبی باشید؟ [paper] [code]

این مقاله یک معیار برنامه نویسی جدید (CJ-EVAL) را با تمرکز بر توانایی مدل در درک کد نوشتاری به جای کار تولید کد معرفی می کند. ایده پشت این معیار از تئوری آموزشی الهام گرفته شده است ، که می گوید اگر کسی بتواند راه حل های نامزدهای دیگر را به درستی ارزیابی کند ، احتمالاً کار داده شده را کاملاً درک خواهد کرد. به معنای این است که تفاوت در امکان تولید کد و درک آن وجود دارد.

آنها از همان مفهوم استفاده کردند LLM-با قضاوت برای استفاده از گروهی از مدل های اختصاصی و منبع باز برای قضاوت اینکه آیا یک کد ارائه شده صحیح است یا خیر. خروجی می تواند (AC = پذیرفته شده) یا خطاهای مختلف مانند WA (پاسخ اشتباه) یا Re (خطای زمان اجرا) باشد تا چند مورد را نامگذاری کند. یافته های آنها نشان می دهد که … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/month-in-4-papers-january-2025