ارزیابی LLM داده محور با آزمایش آماری


نویسنده (ها): رابرت مارتین شرت

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

کمک به پروژه های تکراری در جهت درست حرکت می کند.تفسیر چتپپ از “یک ربات عجیب و غریب ، یک آزمایش آماری را ارزیابی می کند”. این اولین نمونه ای نیست که من از تصاویر ربات 3 مسلح ساخته شده توسط AI … تصویر تولید شده توسط نویسنده دیده ام.

در این مقاله از یک مثال ساده استفاده خواهیم کرد تا نشان دهیم که چگونه می توان از تکنیک های آماری تجربی – یعنی ترمیم و تست بوت استرپ استفاده کرد – برای ارزیابی نتایج یک LLM-برنامه قدرتمند و اعتماد به نفس در هر بیانیه بهبودی را که انجام شده است. در اینجا یک سازش جالب بین سخت گیری و هزینه وجود دارد و نیازهای هر پروژه به احتمال زیاد متفاوت خواهد بود. لطفاً برای کد مرتبط با این مقاله به اینجا مراجعه کنید.

به عنوان برنامه های کاربردی توسط مدل های بزرگ زبان (LLMS) پیچیده تر ، چند مرحله ای و قدرتمند شدن برای تصمیم گیری های مهم ، ارزیابی خروجی های آنها به طور فزاینده ای اهمیت پیدا می کند. ارزیابی به دلیل ماهیت غیر قطعی از خروجی ها از مدلهای تولیدی چالش برانگیز است و این واقعیت که حتی تعیین کمیت کیفیت یک خروجی با نمره عددی اغلب دشوار است. برخلاف سنتی تر مولکول، پیش نیازهای مربوط به داده ها برای شروع کار با یک پروژه LLM وجود دارد ، به این معنی که می توان حتی بدون فکر کردن در مورد تعریف و محاسبه معیارها ، بسیار دور شد. با این وجود ، یک رویکرد مبتنی بر معیارها برای بهبود تکراری معنی دار و … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/data-driven-llm-evaluation-with-statistical-testing