در این مقاله، نحوه ارزیابی مدلهای زبان بزرگ را با استفاده از معیارهای عملی، معیارهای قابل اعتماد و گردشهای کاری تکرارپذیر که کیفیت، ایمنی و هزینه را متعادل میکند، یاد خواهید گرفت.
موضوعاتی که به آنها خواهیم پرداخت عبارتند از:
- معیارهای کیفیت و تشابه متن را میتوانید برای بررسی سریع خودکار کنید.
- زمان استفاده از معیارها، بررسی انسانی، LLM-as-a-a-judge، و تایید کننده ها.
- تست ایمنی/سوگیری و ارزیابیهای سطح فرآیند (استدلال).
بیایید درست به آن برسیم.
هر آنچه که باید در مورد معیارهای ارزیابی LLM بدانید
تصویر توسط نویسنده
مقدمه
زمانی که مدل های زبان بزرگ برای اولین بار به بازار آمد، بیشتر ما فقط به این فکر می کردیم که چه کاری می توانند انجام دهند، چه مشکلاتی را می توانند حل کنند و تا کجا ممکن است پیش بروند. اما اخیراً فضا مملو از مدلهای منبع باز و منبع بسته شده است و اکنون سؤال واقعی این است: چگونه بفهمیم کدام یک واقعا خوب هستند؟ ارزیابی مدل های زبان بزرگ بی سر و صدا به یکی از پیچیده ترین (و به طرز شگفت انگیزی پیچیده) مشکلات در هوش مصنوعی تبدیل شده است. ما واقعاً باید عملکرد آنها را اندازه گیری کنیم تا مطمئن شویم که آنها واقعاً آنچه ما می خواهیم را انجام می دهند و ببینیم یک مدل واقعاً چقدر دقیق، واقعی، کارآمد و ایمن است. این معیارها همچنین برای توسعه دهندگان بسیار مفید است تا عملکرد مدل خود را تجزیه و تحلیل کنند، با دیگران مقایسه کنند و هرگونه سوگیری، خطا یا مشکلات دیگر را تشخیص دهند. بعلاوه، آنها درک بهتری از اینکه کدام تکنیک ها کار می کنند و کدامیک نه. در این مقاله، من راههای اصلی ارزیابی مدلهای زبان بزرگ، معیارهایی که در واقع مهم هستند و ابزارهایی که به محققان و توسعهدهندگان کمک میکنند تا ارزیابیهایی را انجام دهند که معنیدار هستند، مرور میکنم.
معیارهای کیفیت و تشابه متن
ارزیابی مدلهای زبان بزرگ اغلب به معنای اندازهگیری میزان مطابقت متن تولید شده با انتظارات انسان است. برای کارهایی مانند ترجمه، خلاصهسازی یا ترجمه، معیارهای کیفیت و تشابه متن بسیار مورد استفاده قرار میگیرند، زیرا روشی کمی برای بررسی خروجی ارائه میدهند بدون اینکه همیشه نیازی به قضاوت توسط انسان باشد. به عنوان مثال:
- BLEU n-گرم های همپوشانی را بین خروجی مدل و متن مرجع مقایسه می کند. به طور گسترده ای برای کارهای ترجمه استفاده می شود.
- ROUGE-L روی طولانیترین دنباله متداول تمرکز میکند، که همپوشانی کلی محتوا را به تصویر میکشد – بهویژه برای خلاصهسازی مفید است.
- شهاب سنگ با در نظر گرفتن مترادف ها و ریشه ها، تطابق سطح کلمه را بهبود می بخشد و از نظر معنایی آگاه تر می شود.
- BERTScore از تعبیههای متنی برای محاسبه شباهت کسینوس بین جملات تولید شده و مرجع استفاده میکند، که به تشخیص جملات و تشابه معنایی کمک میکند.
برای طبقه بندی یا وظایف پاسخگویی واقعی به سؤال، معیارهای سطح نشانه مانند Precision، Recall و F1 برای نشان دادن درستی و پوشش استفاده می شود. گیجی (PPL) میزان شگفتانگیز بودن یک مدل را با دنبالهای از توکنها اندازهگیری میکند، که به عنوان یک پروکسی برای روانی و انسجام عمل می کند. گیجی کمتر معمولاً به این معنی است که متن طبیعی تر است. بسیاری از این معیارها را می توان به طور خودکار با استفاده از کتابخانه های پایتون مانند nltk، ارزیابی کنید، یا sacrebleu.
معیارهای خودکار
یکی از سادهترین راهها برای بررسی مدلهای زبان بزرگ، استفاده از معیارهای خودکار است. اینها معمولاً مجموعه داده های بزرگ و با دقت طراحی شده با سؤالات و پاسخ های مورد انتظار هستند که به ما امکان می دهند عملکرد را به صورت کمی اندازه گیری کنیم. برخی از آنها محبوب هستند MMLU (درک گسترده زبان چند وظیفه ای)که شامل 57 موضوع از علوم تا علوم انسانی است، GSM8K، که بر روی مسائل ریاضی سنگین استدلالی و سایر مجموعه داده هایی مانند تمرکز دارد ARC، TruthfulQA، و هلاسواگ، که استدلال خاص حوزه، واقعیت و دانش عام را آزمایش می کند. مدلها اغلب با استفاده از دقت ارزیابی میشوند، که اساساً تعداد پاسخهای صحیح تقسیم بر کل سؤالات است:
دقت = پاسخ های صحیح / کل سوالات
|
دقت = درست است پاسخ ها / مجموع سوالات |
برای نگاه دقیق تر، امتیازدهی احتمال وقوع نیز قابل استفاده است. این اندازه گیری می کند که یک مدل چقدر به پاسخ های صحیح اعتماد دارد. معیارهای خودکار عالی هستند زیرا عینی، قابل تکرار و برای مقایسه چندین مدل هستند، به ویژه در کارهای چند گزینه ای یا ساختار یافته. اما آنها نقاط ضعف خود را نیز دارند. مدلها میتوانند سؤالات معیار را به خاطر بسپارند، که میتواند نمرات را بهتر از آنچه هست نشان دهد. آنها همچنین اغلب تعمیم یا استدلال عمیق را دریافت نمی کنند، و برای خروجی های باز بسیار مفید نیستند. همچنین می توانید از برخی ابزارها و پلتفرم های خودکار برای این کار استفاده کنید.
ارزیابی انسان در حلقه
برای کارهای باز مانند خلاصهنویسی، نوشتن داستان یا چتباتها، معیارهای خودکار اغلب جزئیات دقیق معنا، لحن و ارتباط را از دست میدهند. اینجاست که ارزیابی انسان در حلقه وارد میشود. این شامل این است که حاشیهنویسها یا کاربران واقعی خروجیهای مدل را بخوانند و بر اساس معیارهای خاصی مانند آنها را رتبهبندی کنند. مفید بودن، وضوح، دقت و کامل بودن. برخی از سیستم ها فراتر می روند: به عنوان مثال، Chatbot Arena (LMSYS) به کاربران امکان می دهد با دو مدل ناشناس تعامل داشته باشند و کدام یک را ترجیح می دهند. سپس از این انتخابها برای محاسبه امتیاز سبک Elo استفاده میشود، شبیه به نحوه رتبهبندی شطرنجبازان، و این حس را به شما میدهد که کدام مدلها در کل ترجیح داده میشوند.
مزیت اصلی ارزیابی انسان در حلقه این است که نشان می دهد کاربران واقعی چه چیزی را ترجیح می دهند و برای کارهای خلاقانه یا ذهنی به خوبی کار می کند. نکات منفی این است که گرانتر، کندتر است و میتواند ذهنی باشد، بنابراین نتایج ممکن است متفاوت باشد و نیاز به موضوعات واضح و آموزش مناسب برای حاشیهنویسها داشته باشد. این برای ارزیابی هر مدل زبان بزرگی که برای تعامل با کاربر طراحی شده است مفید است زیرا مستقیماً آنچه را که مردم مفید یا مؤثر میدانند اندازهگیری میکند.
LLM-به عنوان یک قاضی ارزیابی
یک راه جدیدتر برای ارزیابی مدل های زبان این است که یک مدل زبان بزرگ، دیگری را قضاوت کند. به جای وابستگی به بازبین های انسانی، یک مدل با کیفیت بالا مانند GPT-4، کلود 3.5، یا کوئن می توان از آنها خواسته شد که به طور خودکار به خروجی ها امتیاز دهند. به عنوان مثال، می توانید به آن یک سوال، خروجی یک مدل زبان بزرگ دیگر و پاسخ مرجع بدهید و از آن بخواهید که خروجی را در مقیاسی از 1 تا 10 برای صحت، وضوح و دقت واقعی رتبه بندی کند.
این روش امکان اجرای سریع و با هزینه کم ارزیابیهای مقیاس بزرگ را فراهم میکند، در حالی که همچنان امتیازات ثابتی را بر اساس یک روبریک دریافت میکنید. برای تابلوهای امتیازات، تست A/B یا مقایسه چند مدل به خوبی کار می کند. اما کامل نیست. مدل زبان بزرگ داوری میتواند سوگیریهایی داشته باشد، که گاهی اوقات خروجیهایی مشابه سبک خودش را ترجیح میدهد. همچنین ممکن است فاقد شفافیت باشد، و تشخیص اینکه چرا نمره خاصی داده است دشوار است، و ممکن است با وظایف بسیار فنی یا خاص دامنه مشکل داشته باشد. ابزارهای محبوب برای انجام این کار عبارتند از OpenAI Evals، اوالشیمی، و اولاما برای مقایسه های محلی اینها به تیمها اجازه میدهند تا بسیاری از ارزیابیها را بدون نیاز به انسان برای هر آزمایش، خودکار کنند.
تایید کننده ها و چک های نمادین
برای کارهایی که پاسخ درست یا غلط واضحی وجود دارد – مانند مسائل ریاضی، کدنویسی یا استدلال منطقی – تأییدکنندهها یکی از مطمئنترین راهها برای بررسی خروجیهای مدل هستند. به جای اینکه به خود متن نگاه کنند، تأیید کننده ها فقط صحت نتیجه را بررسی می کنند. برای مثال، کد تولید شده را می توان اجرا کرد تا ببیند خروجی مورد انتظار را می دهد یا خیر، اعداد را می توان با مقادیر صحیح مقایسه کرد، یا از حل کننده های نمادین می توان برای اطمینان از سازگاری معادلات استفاده کرد.
مزایای این روش این است که عینی، قابل تکرار و غیر مغرضانه بودن با سبک یا زبان نوشتن است که آن را برای کارهای کد، ریاضی و منطق عالی می کند. از جنبه منفی، تأییدکنندهها فقط برای کارهای ساختاریافته کار میکنند، تجزیه خروجیهای مدل گاهی اوقات میتواند مشکل باشد، و آنها واقعاً نمیتوانند کیفیت توضیحات یا استدلال را قضاوت کنند. برخی از ابزارهای رایج برای این کار عبارتند از evalplus و راگاس (برای بررسی های نسل افزوده بازیابی)، که به شما امکان می دهد بررسی های قابل اعتماد برای خروجی های ساخت یافته را خودکار کنید.
ایمنی، تعصب و ارزیابی اخلاقی
بررسی یک مدل زبان فقط به دقت یا روان بودن آن نیست – ایمنی، انصاف و رفتار اخلاقی نیز به همان اندازه مهم هستند. چندین معیار و روش برای آزمایش این موارد وجود دارد. به عنوان مثال، باربیکیو انصاف جمعیت شناختی و سوگیری های احتمالی را در خروجی های مدل اندازه گیری می کند، در حالی که RealToxicity Prompts بررسی می کند که آیا یک مدل محتوای توهین آمیز یا ناامن تولید می کند. سایر چارچوب ها و رویکردها به تکمیل های مضر، اطلاعات نادرست یا تلاش برای دور زدن قوانین (مانند جیلبریک) نگاه می کنند. این ارزیابیها معمولاً طبقهبندیکنندههای خودکار، داوران بزرگ مبتنی بر مدل زبان و برخی ممیزی دستی را برای دریافت تصویر کاملتری از رفتار مدل ترکیب میکنند.
ابزارها و تکنیک های رایج برای این نوع آزمایش عبارتند از ابزار ارزیابی صورت در آغوش کشیدن و هوش مصنوعی آنتروپیک چارچوبی که به تیم ها کمک می کند به طور سیستماتیک تعصب، خروجی های مضر و انطباق اخلاقی را بررسی کنند. انجام ارزیابی ایمنی و اخلاقی کمک می کند تا اطمینان حاصل شود که مدل های زبان بزرگ نه تنها توانا هستند، بلکه در دنیای واقعی نیز مسئولیت پذیر و قابل اعتماد هستند.
ارزیابی های مبتنی بر استدلال و فرآیند
برخی از راههای ارزیابی مدلهای زبان بزرگ فقط به پاسخ نهایی نگاه نمیکنند، بلکه به چگونگی رسیدن مدل به آنجا میپردازند. این به ویژه برای کارهایی مفید است که به برنامه ریزی، حل مسئله یا استدلال چند مرحله ای نیاز دارند – مانند سیستم های RAG، حل کننده های ریاضی، یا مدل های زبان بزرگ عاملی. یک مثال این است مدلهای پاداش فرآیند (PRM)، که کیفیت زنجیره فکری یک مدل را بررسی می کند. روش دیگر صحت گام به گام است، که در آن هر مرحله استدلال بررسی می شود تا ببینیم آیا معتبر است یا خیر. معیارهای وفاداری با بررسی اینکه آیا استدلال واقعاً با پاسخ نهایی مطابقت دارد یا خیر، از این هم فراتر می رود و از صحیح بودن منطق مدل اطمینان می یابد.
این روشها درک عمیقتری از مهارتهای استدلال مدل به دست میدهند و میتوانند به تشخیص خطاها در فرآیند فکر کمک کنند تا فقط در خروجی. برخی از ابزارهای رایج مورد استفاده برای استدلال و ارزیابی فرآیند عبارتند از ارزیابی های مبتنی بر PRM، راگاس برای بررسی های خاص RAG، و ChainEval، که همگی به اندازه گیری کیفیت استدلال و ثبات در مقیاس کمک می کنند.
خلاصه
این ما را به پایان بحثمان می رساند. بیایید همه چیزهایی را که تاکنون پوشش داده ایم در یک جدول خلاصه کنیم. به این ترتیب، شما یک مرجع سریع خواهید داشت که می توانید هر زمان که با ارزیابی مدل زبان بزرگ کار می کنید، ذخیره کنید یا به آن مراجعه کنید.
| دسته بندی | معیارهای نمونه | جوانب مثبت | منفی | بهترین استفاده |
|---|---|---|---|---|
| معیارها | دقت، LogProb | هدف، استاندارد | می تواند قدیمی باشد | قابلیت عمومی |
| HITL | الو، رتبه بندی | بینش انسانی | پرهزینه، کند | کارهای مکالمه یا خلاقانه |
| LLM-به عنوان قاضی | امتیاز روبریک | مقیاس پذیر | خطر سوگیری | ارزیابی سریع و تست A/B |
| تایید کننده ها | بررسی کد/ریاضی | هدف | دامنه باریک | وظایف استدلال فنی |
| مبتنی بر استدلال | PRM، ChainEval | بینش فرآیند | راه اندازی پیچیده | مدل های عاملی، استدلال چند مرحله ای |
| کیفیت متن | BLEU، ROUGE | آسان برای خودکار | معناشناسی را نادیده می گیرد | وظایف NLG |
| ایمنی / تعصب | BBQ، SafeBench | برای اخلاق ضروری است | تعیین کمیت سخت است | انطباق و هوش مصنوعی مسئول |