نویسنده (ها): نادااو باراک
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
مدل های بزرگ زبان (LLMS) در حال تحول هستند یادگیری ماشین، برنامه های کاربردی مانند Chatbots ، RAG و عوامل خودمختار. اما ساختمان با LLMS با یک مانع اساسی همراه است: خروجی آنها به صورت دستی ارزیابی می شود ، که پرهزینه و کند است ، یا از طریق اتوماسیون خام که متناقض باشد ، فاقد جزئیات و نادرست است. هر ترفند خط لوله نیاز به تغییر مجدد ، خوردن زمان و منابع دارد. این پست یک کتاب بازی گام به گام را به یک خط لوله ارزیابی خودکار بهتر تقسیم می کند که سازگار ، قابل توضیح و قابل اعتماد است.
برای یک آموزش دستی ، به کارگاه همراه، که شامل یک نوت بوک الگوی و داده هایی است که می توانید به عنوان نقطه شروع از آن استفاده کنید.
معیارهای ارزیابی را تعریف کنید
به منظور ارزیابی یادگیری ماشین مدلهایی که ما به یک مجموعه ارزیابی نماینده (یا اعتبار سنجی یا آزمون) متکی هستیم. در یادگیری ماشین کلاسیک ، ما هر نمونه را در مجموعه ارزیابی به مدل خود تغذیه می کنیم و برای هر خروجی ممکن ، می توانیم به طور خودکار صحت آن را ارزیابی کنیم و در نتیجه عملکرد کلی مدل را ارزیابی کنیم. این امر هنگام برخورد با متن تولید شده صدق نمی کند.
ارزیابی خروجی یک برنامه مبتنی بر LLM شامل بسیاری از جنبه ها است و با استفاده از یک متریک درستی قابل دستیابی نیست. به عنوان مثال ، خلاصه ای از تولید را در نظر بگیرید که ، در حالی که حاوی تمام نکات کلیدی است ، فاقد تسلط است و خواندن آن بسیار دشوار است. از طرف دیگر ، یک جفت پاسخ به سؤال را در نظر بگیرید که در آن خروجی ، اگرچه مربوط به سؤال ارائه شده است ، اما در واقع صحیح نیست.
اولین قدم برای ارزیابی متن تولید شده ، تعیین معیارهای ارزیابی کلیدی مربوطه برای مورد استفاده ما است. توصیه می شود معیارهایی را که با کیفیت متن و معیارهایی که به انجام وظیفه می پردازند ، بپردازید. به عنوان مثال ، در کاغذ زیر در مورد ارزیابی خلاصه متن ، نویسندگان از انسجام ، قوام ، تسلط و ارتباط به عنوان معیارهای ارزیابی خود استفاده کردند.
مرحله دوم تعیین شرایط ثانویه است که می خواهیم متن تولید شده از آن حمایت کند. به عنوان مثال ، یک جفت پاسخ به سؤال را در نظر بگیرید که در آن جواب صحیح است اما از زبان سمی استفاده می کند ، اطلاعات خصوصی را فاش می کند یا رقابت خود را بسیار توصیه می کند.
هنگامی که معیارهای ارزیابی خود را در دست گرفتیم ، می خواهیم یک خط لوله خودکار بسازیم که بتواند معیارهای یک نمونه معین را ارزیابی کند و آنها توانایی نتیجه گیری عملی را از آن دارند.
تقسیم و تسخیر
برای درک اینکه چرا یک راه حل پیچیده تر لازم است ، بیایید با نزولی از رویکرد ساده لوحانه شروع کنیم – با استفاده از یک LLM واحد برای ارزیابی همه معیارها. مشکل اصلی بسیار ساده است. هنگامی که یک قاضی وظیفه ارزیابی ابعاد متعدد را بر عهده دارد ، برخی معیارها توجه مورد نظر خود را به خود جلب نمی کنند و این عملکرد کلی را تضعیف می کند. مسئله مهم دیگر قوام است: در اجرای مختلف ، LLM ممکن است تمرکز خود را در معیارها تغییر دهد و منجر به نتایج ناهموار و غیرقابل اعتماد شود.
این جایی است که تقسیم و فاتح وارد می شود. همچنین این تجزیه و تحلیل معنی دار تر را امکان پذیر می کند – نمرات جداگانه برای هر معیار باعث می شود تجزیه و تحلیل علت ریشه آسانتر شود و مقایسه بین نسخه ها بصیرت تر باشد.
ارزیابی معیار
با انتخاب مجموعه ای از نمونه های کوچک و متمرکز برای آزمایش ارزیاب خود شروع کنید. اطمینان حاصل کنید که موارد منفی برای معیارهای خاص مورد نظر شما به وضوح منفی است – مانند نمونه ای که شامل توهم برای دقت واقعی است.
با یک سریع اصلی به عنوان پایه خود شروع کنید و یک KPI روشن را تعریف کنید که به اندازه کافی برای مورد استفاده شما باشد. این یک نکته مرجع برای چگونگی پیچیده کار به شما می دهد – نیازی به صرف تلاش زیادی برای ساختن ماشین برای پیاده روی 5 کیلومتری نیست. از آنجا ، با اصلاحات مانند آزمایش کنید زنجیربا یادگیری چند عکس، یک مدل بهتر یا یک فرآیند چند مرحله ای. به طور مداوم تغییرات در عملکرد را دنبال کنید تا ببینید چه چیزی در واقع سوزن را حرکت می دهد.
| Approach | Advantages | Disadvantages | Ideal Use Cases |
|---------------------|-------------------------------------|--------------------------------------------|----------------------------------------|
| Model Evaluator | Fast, cost-effective, consistent | Require a trained models, limited semantic understanding | Toxicity, Fluency, Input Safety |
| LLM Evaluator | Flexible, strong text understanding | Higher cost, inconsistent | Nuanced Classification, Completeness |
| Multi-Step Process | High accuracy on complex tasks | More setup, higher cost and latency | Hallucination, Content Coverage |
ارزیابی کننده مدل
ارزیابی معیار اساساً یک کار طبقه بندی است ، که باعث می شود مدل های طبقه بندی مبتنی بر BERT برای معیارهای خاص مناسب باشند. آنها سریعتر ، مقرون به صرفه تر از LLM ها ، سازگار هستند و تخصص آنها می تواند برای انجام کارهای خاص به آنها منجر شود (مثال را ببینید در اینجا).
از آنجا که آموزش این مدلها می توانند یک سربار مهم باشند ، توصیه می کنم فقط برای معیارهای نسبتاً متداول که از قبل دارای مدلهای با عملکرد بالا و از قبل آموزش دیده در بغل کردن صورت هستند ، استفاده کنید. برخی از موارد بسیار مورد استفاده من پیشنهاد می کنم سمیبا تسلطوت ایمنی ورودیبشر
ارزیاب LLM
LLM ها برای تولید آموزش داده می شوند زبان طبیعی، اما درک شدید آنها از متن آنها را نیز می سازد برای کارهای طبقه بندی مؤثر استبشر برای به دست آوردن بهترین نتیجه هنگام استفاده از LLM به عنوان یک ارزیاب تک معیار ، ارائه اطلاعات کافی به آن بسیار مهم است-نه بیشتر ، نه کمتر. به عنوان مثال ، اگر می خواهید در مورد صحت واقعی یک خروجی قضاوت کنید ، باید ادعاهای خروجی و مطالب مرجع مربوطه را ارائه دهید. تکنیک هایی مانند مهندسی سریع ، زنجیر استدلال ، و یادگیری چند عکس می تواند عملکرد را بیشتر بهبود بخشد.
مخلوط کارشناسان (MOE) می تواند عملکرد و قوام ارزیاب های مبتنی بر LLM را تقویت کند ، اما تأخیر و هزینه را افزایش می دهد. در نتیجه ، آنها باید به صورت انتخابی مورد استفاده قرار گیرند-فقط هنگامی که یک قاضی منفرد کوتاه باشد و مزایا از معاملات فراتر رود.
فرآیند چند مرحله ای
برخی از کارها پیچیده است ، و دقیقاً مانند تولید خودرو – جایی که قسمت های مختلف قبل از جمع شدن محصول نهایی به طور جداگانه مونتاژ می شوند – تقسیم کار به مراحل کوچکتر اغلب مؤثرتر است. این رویکرد مشابه برای ارزیابی معیارهای پیچیده اعمال می شود.
وظیفه قضاوت در مورد اینکه آیا یک خلاصه شامل تمام اطلاعات کلیدی از یک مقاله اصلی است ، انجام دهید. برای انجام این کار خوب ، ابتدا باید مقاله را بخوانید – احتمالاً در قطعات اگر طولانی باشد – و ایده های اصلی یا حقایق اساسی را در کل شناسایی کنید. پس از جمع آوری این نقاط ، آنها را در لیست مشخصی از آنچه در متن اصلی مهم است ، جمع می کنید. سپس ، شما به عقب برگردید و خلاصه را در برابر آن لیست مقایسه کنید تا مشخص شود چه مواردی شامل می شود و چه چیزی از دست رفته است. هر یک از این مراحل پیچیدگی خاص خود را به همراه دارد و تلاش برای رسیدگی به همه آنها به یکباره منجر به اشتباهات یا جزئیات نادیده گرفته می شود.
معیارها تجمع
انتخاب روش جمع آوری مناسب بسیار خاص است اما سه دستورالعمل “قانون شست” وجود دارد که توصیه می کنم دنبال کنید:
- از متخصصان یاد بگیرید: از کارشناسان دامنه بخواهید مجموعه ای از نمونه ها را برای هر معیار ارزیابی کلیدی حاشیه نویسی کنند و همچنین حاشیه نویسی کلی را ارائه دهند. از این مجموعه نمونه ها ، می توانید بینش های ارزشمندی کسب کنید تا هنگام طراحی روش جمع آوری خود را راهنمایی کنید.
- بدانید چه زمانی نمی دانید: برخی از نمونه ها ممکن است به طور خودکار و بهترین ارزیابی دستی برای ارزیابی دستی سخت باشد. به همین ترتیب ، ما می خواهیم روش تجمیع ما بتواند به جای یک نمره خاص ، نمره “NA” یا مرزهای اعتماد به نفس را برای برخی از نمونه ها برگرداند.
- استحکام: کیفیت نمرات از معیارهای مختلف ممکن است متفاوت باشد ، بنابراین ساخت روش جمع آوری به گونه ای مهم است که تغییرات کوچک به طور قابل توجهی بر نتیجه تأثیر نمی گذارد.
پایان
ارزیابی خودکار برنامه مبتنی بر LLM شما می تواند ارزش عظیمی را ارائه دهد ، اما ارزان نمی آید. در این پست ، ما نحوه ساخت یک خط لوله ارزیابی چند مرحله ای مؤثر و مشاوره آن را نسبت به روشهای خام توضیح داده ایم.
عناصر بی شماری در فرآیند ارزیابی وجود دارد که می توانند بهینه شوند. با این حال ، قبل از سرمایه گذاری در هر یک از آنها ، توصیه می کنم یک رویکرد تلسکوپی را اتخاذ کنید. با یک اجرای اساسی شروع کنید که شامل آنچه شما فکر می کنید مؤلفه های اساسی هستند ، آن را آزمایش کرده و سپس بر روی بهینه سازی عناصری که می توانند تأثیر قابل توجهی داشته باشند تمرکز کنید.
نادااو باراک یک سر هوش مصنوعی در است چک های عمیق، یک شرکت نوپا که سازمانهای تسلیحاتی با ابزاری برای ارزیابی و نظارت بر سیستم های مبتنی بر یادگیری ماشین خود دارند. ناداو سابقه غنی در علم داده دارد و یک متخصص دامنه در ساخت و بهبود مولد است NLP برنامه ها
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/scaling-llm-evaluation