هر آنچه که باید در مورد معیارهای ارزیابی LLM بدانید

در این مقاله، نحوه ارزیابی مدل‌های زبان بزرگ را با استفاده از معیارهای عملی، معیارهای قابل اعتماد و گردش‌های کاری تکرارپذیر که کیفیت، ایمنی و هزینه را متعادل می‌کند، یاد خواهید گرفت.

موضوعاتی که به آنها خواهیم پرداخت عبارتند از:

معیارهای کیفیت و تشابه متن را می‌توانید برای بررسی سریع خودکار کنید.
زمان استفاده از معیارها، بررسی انسانی، LLM-as-a-a-judge، و تایید کننده ها.
تست ایمنی/سوگیری و ارزیابی‌های سطح فرآیند (استدلال).

بیایید درست به آن برسیم.

هر آنچه که باید در مورد معیارهای ارزیابی LLM بدانید
تصویر توسط نویسنده

مقدمه

زمانی که مدل های زبان بزرگ برای اولین بار به بازار آمد، بیشتر ما فقط به این فکر می کردیم که چه کاری می توانند انجام دهند، چه مشکلاتی را می توانند حل کنند و تا کجا ممکن است پیش بروند. اما اخیراً فضا مملو از مدل‌های منبع باز و منبع بسته شده است و اکنون سؤال واقعی این است: چگونه بفهمیم کدام یک واقعا خوب هستند؟ ارزیابی مدل های زبان بزرگ بی سر و صدا به یکی از پیچیده ترین (و به طرز شگفت انگیزی پیچیده) مشکلات در هوش مصنوعی تبدیل شده است. ما واقعاً باید عملکرد آنها را اندازه گیری کنیم تا مطمئن شویم که آنها واقعاً آنچه ما می خواهیم را انجام می دهند و ببینیم یک مدل واقعاً چقدر دقیق، واقعی، کارآمد و ایمن است. این معیارها همچنین برای توسعه دهندگان بسیار مفید است تا عملکرد مدل خود را تجزیه و تحلیل کنند، با دیگران مقایسه کنند و هرگونه سوگیری، خطا یا مشکلات دیگر را تشخیص دهند. بعلاوه، آنها درک بهتری از اینکه کدام تکنیک ها کار می کنند و کدامیک نه. در این مقاله، من راه‌های اصلی ارزیابی مدل‌های زبان بزرگ، معیارهایی که در واقع مهم هستند و ابزارهایی که به محققان و توسعه‌دهندگان کمک می‌کنند تا ارزیابی‌هایی را انجام دهند که معنی‌دار هستند، مرور می‌کنم.

معیارهای کیفیت و تشابه متن

ارزیابی مدل‌های زبان بزرگ اغلب به معنای اندازه‌گیری میزان مطابقت متن تولید شده با انتظارات انسان است. برای کارهایی مانند ترجمه، خلاصه‌سازی یا ترجمه، معیارهای کیفیت و تشابه متن بسیار مورد استفاده قرار می‌گیرند، زیرا روشی کمی برای بررسی خروجی ارائه می‌دهند بدون اینکه همیشه نیازی به قضاوت توسط انسان باشد. به عنوان مثال:

BLEU n-گرم های همپوشانی را بین خروجی مدل و متن مرجع مقایسه می کند. به طور گسترده ای برای کارهای ترجمه استفاده می شود.
ROUGE-L روی طولانی‌ترین دنباله متداول تمرکز می‌کند، که همپوشانی کلی محتوا را به تصویر می‌کشد – به‌ویژه برای خلاصه‌سازی مفید است.
شهاب سنگ با در نظر گرفتن مترادف ها و ریشه ها، تطابق سطح کلمه را بهبود می بخشد و از نظر معنایی آگاه تر می شود.
BERTScore از تعبیه‌های متنی برای محاسبه شباهت کسینوس بین جملات تولید شده و مرجع استفاده می‌کند، که به تشخیص جملات و تشابه معنایی کمک می‌کند.

برای طبقه بندی یا وظایف پاسخگویی واقعی به سؤال، معیارهای سطح نشانه مانند Precision، Recall و F1 برای نشان دادن درستی و پوشش استفاده می شود. گیجی (PPL) میزان شگفت‌انگیز بودن یک مدل را با دنباله‌ای از توکن‌ها اندازه‌گیری می‌کند، که به عنوان یک پروکسی برای روانی و انسجام عمل می کند. گیجی کمتر معمولاً به این معنی است که متن طبیعی تر است. بسیاری از این معیارها را می توان به طور خودکار با استفاده از کتابخانه های پایتون مانند nltk، ارزیابی کنید، یا sacrebleu.

معیارهای خودکار

یکی از ساده‌ترین راه‌ها برای بررسی مدل‌های زبان بزرگ، استفاده از معیارهای خودکار است. اینها معمولاً مجموعه داده های بزرگ و با دقت طراحی شده با سؤالات و پاسخ های مورد انتظار هستند که به ما امکان می دهند عملکرد را به صورت کمی اندازه گیری کنیم. برخی از آنها محبوب هستند MMLU (درک گسترده زبان چند وظیفه ای)که شامل 57 موضوع از علوم تا علوم انسانی است، GSM8K، که بر روی مسائل ریاضی سنگین استدلالی و سایر مجموعه داده هایی مانند تمرکز دارد ARC، TruthfulQA، و هلاسواگ، که استدلال خاص حوزه، واقعیت و دانش عام را آزمایش می کند. مدل‌ها اغلب با استفاده از دقت ارزیابی می‌شوند، که اساساً تعداد پاسخ‌های صحیح تقسیم بر کل سؤالات است:

</p> <p>دقت = پاسخ های صحیح / کل سوالات

دقت = درست است پاسخ ها / مجموع سوالات

برای نگاه دقیق تر، امتیازدهی احتمال وقوع نیز قابل استفاده است. این اندازه گیری می کند که یک مدل چقدر به پاسخ های صحیح اعتماد دارد. معیارهای خودکار عالی هستند زیرا عینی، قابل تکرار و برای مقایسه چندین مدل هستند، به ویژه در کارهای چند گزینه ای یا ساختار یافته. اما آنها نقاط ضعف خود را نیز دارند. مدل‌ها می‌توانند سؤالات معیار را به خاطر بسپارند، که می‌تواند نمرات را بهتر از آنچه هست نشان دهد. آنها همچنین اغلب تعمیم یا استدلال عمیق را دریافت نمی کنند، و برای خروجی های باز بسیار مفید نیستند. همچنین می توانید از برخی ابزارها و پلتفرم های خودکار برای این کار استفاده کنید.

ارزیابی انسان در حلقه

برای کارهای باز مانند خلاصه‌نویسی، نوشتن داستان یا چت‌بات‌ها، معیارهای خودکار اغلب جزئیات دقیق معنا، لحن و ارتباط را از دست می‌دهند. اینجاست که ارزیابی انسان در حلقه وارد می‌شود. این شامل این است که حاشیه‌نویس‌ها یا کاربران واقعی خروجی‌های مدل را بخوانند و بر اساس معیارهای خاصی مانند آن‌ها را رتبه‌بندی کنند. مفید بودن، وضوح، دقت و کامل بودن. برخی از سیستم ها فراتر می روند: به عنوان مثال، Chatbot Arena (LMSYS) به کاربران امکان می دهد با دو مدل ناشناس تعامل داشته باشند و کدام یک را ترجیح می دهند. سپس از این انتخاب‌ها برای محاسبه امتیاز سبک Elo استفاده می‌شود، شبیه به نحوه رتبه‌بندی شطرنج‌بازان، و این حس را به شما می‌دهد که کدام مدل‌ها در کل ترجیح داده می‌شوند.

مزیت اصلی ارزیابی انسان در حلقه این است که نشان می دهد کاربران واقعی چه چیزی را ترجیح می دهند و برای کارهای خلاقانه یا ذهنی به خوبی کار می کند. نکات منفی این است که گران‌تر، کندتر است و می‌تواند ذهنی باشد، بنابراین نتایج ممکن است متفاوت باشد و نیاز به موضوعات واضح و آموزش مناسب برای حاشیه‌نویس‌ها داشته باشد. این برای ارزیابی هر مدل زبان بزرگی که برای تعامل با کاربر طراحی شده است مفید است زیرا مستقیماً آنچه را که مردم مفید یا مؤثر می‌دانند اندازه‌گیری می‌کند.

LLM-به عنوان یک قاضی ارزیابی

یک راه جدیدتر برای ارزیابی مدل های زبان این است که یک مدل زبان بزرگ، دیگری را قضاوت کند. به جای وابستگی به بازبین های انسانی، یک مدل با کیفیت بالا مانند GPT-4، کلود 3.5، یا کوئن می توان از آنها خواسته شد که به طور خودکار به خروجی ها امتیاز دهند. به عنوان مثال، می توانید به آن یک سوال، خروجی یک مدل زبان بزرگ دیگر و پاسخ مرجع بدهید و از آن بخواهید که خروجی را در مقیاسی از 1 تا 10 برای صحت، وضوح و دقت واقعی رتبه بندی کند.

این روش امکان اجرای سریع و با هزینه کم ارزیابی‌های مقیاس بزرگ را فراهم می‌کند، در حالی که همچنان امتیازات ثابتی را بر اساس یک روبریک دریافت می‌کنید. برای تابلوهای امتیازات، تست A/B یا مقایسه چند مدل به خوبی کار می کند. اما کامل نیست. مدل زبان بزرگ داوری می‌تواند سوگیری‌هایی داشته باشد، که گاهی اوقات خروجی‌هایی مشابه سبک خودش را ترجیح می‌دهد. همچنین ممکن است فاقد شفافیت باشد، و تشخیص اینکه چرا نمره خاصی داده است دشوار است، و ممکن است با وظایف بسیار فنی یا خاص دامنه مشکل داشته باشد. ابزارهای محبوب برای انجام این کار عبارتند از OpenAI Evals، اوالشیمی، و اولاما برای مقایسه های محلی اینها به تیم‌ها اجازه می‌دهند تا بسیاری از ارزیابی‌ها را بدون نیاز به انسان برای هر آزمایش، خودکار کنند.

تایید کننده ها و چک های نمادین

برای کارهایی که پاسخ درست یا غلط واضحی وجود دارد – مانند مسائل ریاضی، کدنویسی یا استدلال منطقی – تأییدکننده‌ها یکی از مطمئن‌ترین راه‌ها برای بررسی خروجی‌های مدل هستند. به جای اینکه به خود متن نگاه کنند، تأیید کننده ها فقط صحت نتیجه را بررسی می کنند. برای مثال، کد تولید شده را می توان اجرا کرد تا ببیند خروجی مورد انتظار را می دهد یا خیر، اعداد را می توان با مقادیر صحیح مقایسه کرد، یا از حل کننده های نمادین می توان برای اطمینان از سازگاری معادلات استفاده کرد.

مزایای این روش این است که عینی، قابل تکرار و غیر مغرضانه بودن با سبک یا زبان نوشتن است که آن را برای کارهای کد، ریاضی و منطق عالی می کند. از جنبه منفی، تأییدکننده‌ها فقط برای کارهای ساختاریافته کار می‌کنند، تجزیه خروجی‌های مدل گاهی اوقات می‌تواند مشکل باشد، و آنها واقعاً نمی‌توانند کیفیت توضیحات یا استدلال را قضاوت کنند. برخی از ابزارهای رایج برای این کار عبارتند از evalplus و راگاس (برای بررسی های نسل افزوده بازیابی)، که به شما امکان می دهد بررسی های قابل اعتماد برای خروجی های ساخت یافته را خودکار کنید.

ایمنی، تعصب و ارزیابی اخلاقی

بررسی یک مدل زبان فقط به دقت یا روان بودن آن نیست – ایمنی، انصاف و رفتار اخلاقی نیز به همان اندازه مهم هستند. چندین معیار و روش برای آزمایش این موارد وجود دارد. به عنوان مثال، باربیکیو انصاف جمعیت شناختی و سوگیری های احتمالی را در خروجی های مدل اندازه گیری می کند، در حالی که RealToxicity Prompts بررسی می کند که آیا یک مدل محتوای توهین آمیز یا ناامن تولید می کند. سایر چارچوب ها و رویکردها به تکمیل های مضر، اطلاعات نادرست یا تلاش برای دور زدن قوانین (مانند جیلبریک) نگاه می کنند. این ارزیابی‌ها معمولاً طبقه‌بندی‌کننده‌های خودکار، داوران بزرگ مبتنی بر مدل زبان و برخی ممیزی دستی را برای دریافت تصویر کامل‌تری از رفتار مدل ترکیب می‌کنند.

ابزارها و تکنیک های رایج برای این نوع آزمایش عبارتند از ابزار ارزیابی صورت در آغوش کشیدن و هوش مصنوعی آنتروپیک چارچوبی که به تیم ها کمک می کند به طور سیستماتیک تعصب، خروجی های مضر و انطباق اخلاقی را بررسی کنند. انجام ارزیابی ایمنی و اخلاقی کمک می کند تا اطمینان حاصل شود که مدل های زبان بزرگ نه تنها توانا هستند، بلکه در دنیای واقعی نیز مسئولیت پذیر و قابل اعتماد هستند.

ارزیابی های مبتنی بر استدلال و فرآیند

برخی از راه‌های ارزیابی مدل‌های زبان بزرگ فقط به پاسخ نهایی نگاه نمی‌کنند، بلکه به چگونگی رسیدن مدل به آنجا می‌پردازند. این به ویژه برای کارهایی مفید است که به برنامه ریزی، حل مسئله یا استدلال چند مرحله ای نیاز دارند – مانند سیستم های RAG، حل کننده های ریاضی، یا مدل های زبان بزرگ عاملی. یک مثال این است مدل‌های پاداش فرآیند (PRM)، که کیفیت زنجیره فکری یک مدل را بررسی می کند. روش دیگر صحت گام به گام است، که در آن هر مرحله استدلال بررسی می شود تا ببینیم آیا معتبر است یا خیر. معیارهای وفاداری با بررسی اینکه آیا استدلال واقعاً با پاسخ نهایی مطابقت دارد یا خیر، از این هم فراتر می رود و از صحیح بودن منطق مدل اطمینان می یابد.

این روش‌ها درک عمیق‌تری از مهارت‌های استدلال مدل به دست می‌دهند و می‌توانند به تشخیص خطاها در فرآیند فکر کمک کنند تا فقط در خروجی. برخی از ابزارهای رایج مورد استفاده برای استدلال و ارزیابی فرآیند عبارتند از ارزیابی های مبتنی بر PRM، راگاس برای بررسی های خاص RAG، و ChainEval، که همگی به اندازه گیری کیفیت استدلال و ثبات در مقیاس کمک می کنند.

خلاصه

این ما را به پایان بحثمان می رساند. بیایید همه چیزهایی را که تاکنون پوشش داده ایم در یک جدول خلاصه کنیم. به این ترتیب، شما یک مرجع سریع خواهید داشت که می توانید هر زمان که با ارزیابی مدل زبان بزرگ کار می کنید، ذخیره کنید یا به آن مراجعه کنید.

دسته بندی	معیارهای نمونه	جوانب مثبت	منفی	بهترین استفاده
معیارها	دقت، LogProb	هدف، استاندارد	می تواند قدیمی باشد	قابلیت عمومی
HITL	الو، رتبه بندی	بینش انسانی	پرهزینه، کند	کارهای مکالمه یا خلاقانه
LLM-به عنوان قاضی	امتیاز روبریک	مقیاس پذیر	خطر سوگیری	ارزیابی سریع و تست A/B
تایید کننده ها	بررسی کد/ریاضی	هدف	دامنه باریک	وظایف استدلال فنی
مبتنی بر استدلال	PRM، ChainEval	بینش فرآیند	راه اندازی پیچیده	مدل های عاملی، استدلال چند مرحله ای
کیفیت متن	BLEU، ROUGE	آسان برای خودکار	معناشناسی را نادیده می گیرد	وظایف NLG
ایمنی / تعصب	BBQ، SafeBench	برای اخلاق ضروری است	تعیین کمیت سخت است	انطباق و هوش مصنوعی مسئول

منبع: machinelearningmastery.com