LAI #78: ارزیابی RAG ، MCP 101 ، تنظیم خوب GRPO و سیستم های چند حالته


نویسنده (ها): به سمت تیم تحریریه AI

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

LAI #78: ارزیابی RAG ، MCP 101 ، تنظیم خوب GRPO و سیستم های چند حالته

صبح بخیر ، علاقه مندان به او ،

مسئله این هفته برای سازندگانی است که به آنچه کار می کند – و چگونه می توان آن را اندازه گیری کرد. ما با یک شیرجه عمیق به خطوط لوله ارزیابی RAG شروع می کنیم: چرا بسیاری از آنها اشتباه می کنند و معیارهایی که در واقع اهمیت دارند. از آنجا ، ما MCP را کشف می کنیم ، پروتکل طراحی شده برای ساخت عوامل AI ساختار یافته ، مقیاس پذیر و آگاه تر.

همچنین می توانید یک پیاده روی عملی در مورد تشخیص توهم در مراقبت های بهداشتی ، یک راهنمای دوستانه مبتدی برای تنظیم دقیق MISTRAL-7B با GRPO ، و یک نگاه کامل به ساخت سیستم های پارچه ای چند حالته که یکپارچه سازی متن ، بینایی و صوتی هستند ، پیدا کنید.

همچنین در ترکیب: یک قدرتمند LLM جمع کننده جامعه ، موضوعات جدید COLLAB ، و یک یادداشت که احتمالاً خیلی نزدیک به خانه است.

بیایید وارد آن شویم.

هفتگی AI چیست

https://www.youtube.com/watch؟v=crz0bwkuWhg

اگر در حال اجرای RAG هستید اما خط لوله ارزیابی ندارید ، احتمالاً از پیشرفت های آسان استفاده نمی کنید. چگونه می دانید که بهینه است یا اینکه سیستم شما با هرگونه تغییر در حال بهبود است؟ این از طریق ارزیابی است که با ارزیابی متفاوت است LLMS خودشان بنابراین این هفته در AI چیست، من در حال غواصی در معیارها و روشهای ارزیابی کلیدی هستیم که در هنگام توسعه سیستم های RAG به سمت AI مفید واقع شده ایم. مقاله کامل را اینجا بخوانید یا فیلم را در YouTube تماشا کنیدبشر

-لوئیز فرانسوا بوچارد ، به سمت بنیانگذار AI و رئیس جامعه

بخش جامعه را با هم بیاموزید!

پست برجسته جامعه از Discord

تنوع Nanthai را ساخته است ، یک برنامه جمع کننده LLM با جستجوی پیشرفته ، اسناد و سفارشی سازی. شما می توانید از طریق ادغام OpenRouter به 50+ مدل حق بیمه دسترسی پیدا کنید ، و این شامل قابلیت های استدلال داخلی برای حل مسئله پیچیده است. کاربران همچنین می توانند از جستجوی پیشرفته اینترنت ، بازیابی اسناد Rag و پیشرفته و زمینه پیشرفته اسناد در ترکیب با جستجوی پیشرفته اینترنت استفاده کرده و هر “شخصیت” هوش مصنوعی را سفارشی کنند. اینجا را بررسی کنید و از یک عضو جامعه دیگر حمایت کنید. اگر سوالی یا بازخورد دارید ، آنها را در موضوع به اشتراک بگذارید!

نظرسنجی AI هفته!

این می گوید که تقریباً یک سوم از پاسخ دهندگان هنوز مطمئن نیستند که آیا مأمورین تا به حال نقش تمام وقت را در تیم خود جایگزین می کنند-در حالی که بقیه به طور مساوی در جدول زمانی به اندازه 6 ماه پخش می شوند. این فقط مربوط به بلوغ فناوری نیست – بلکه مربوط به اعتماد ، طراحی گردش کار و تعریف “جایگزینی” واقعاً است. اگر نمایندگان را نمی بینید که نقش ها را به طور کامل جایگزین می کنند ، از کجا انتظار دارید که آنها به صورت بی سر و صدا جایگزین گردش کار شوند؟ در حال حاضر چه کارهایی در حاشیه وجود دارد: دستی ، تکراری یا فقط التماس برای اتوماسیون؟ در موضوع به ما بگویید!

فرصت های همکاری

جامعه Discord Learn Ai Together با فرصت های همکاری پر شده است. اگر از شیرجه رفتن به هوش مصنوعی کاربردی هیجان زده اید ، یک شریک مطالعه می خواهید ، یا حتی می خواهید برای پروژه Passion خود شریک پیدا کنید ، به کانال همکاری بپیوندید! به این بخش نیز توجه داشته باشید – ما هر هفته فرصت های جالب را به اشتراک می گذاریم!

1 Ashish_82402 یک دانشمند داده ، گردش کار عامل یادگیری ، MCP ، Crewai و غیره است و به دنبال یک شریک مطالعه است که هر روز می تواند چند ساعت از آن استفاده کند. اگر درک اساسی از Langchain و Langgraph دارید ، به او در موضوع پیام دهید!

2 SAFAR4352 به دنبال یک شریک یادگیری اختصاصی برای تحصیل در کنار هم ، تبادل دانش و رشد مشترک در این زمینه است. اگر می خواهید یک شریک پاسخگویی نیز داشته باشید ، با او در موضوع ارتباط برقرار کنید!

3 امگار 1998 به دنبال گسترش مهارت های DL ، RL و Gen AI است. اگر در همان مسیر یادگیری هستید ، در موضوع به آنها دسترسی پیدا کنید!

Meme of Week!

Meme به اشتراک گذاشته شده توسط marlonlp29_16646

بخش سرپرستی تای

مقاله هفته

MCP 101: چرا این پروتکل در سن عوامل هوش مصنوعی اهمیت دارد از طرف Afaque Umer

در این مقاله پروتکل زمینه مدل Anthropic (MCP) ، یک استاندارد باز است که تعامل LLM را با ابزارهای خارجی نشان می دهد. این امر معماری مشتری-سرور MCP و استفاده از آن از JSON-RPC 2.0 برای ارتباطات ، ساده سازی ادغام با API و داده ها را توضیح می دهد. همچنین این چرخه عمر ساختار یافته MCP ، از ابتدایی تا خاتمه را تشریح می کند ، و اهمیت آن را برای ایجاد عوامل مقیاس پذیر و با استفاده از ابزار AI برجسته می کند.

مقالات باید بخوانید

1 تشخیص توهم در مراقبت های بهداشتی از طرف دکتری ماری هامبرت-دروز

در این مقاله به چالش توهم در هوش مصنوعی مراقبت های بهداشتی ، حتی در سیستم های نسل بازیابی (RAG) که از استنادها استفاده می کنند ، می پردازد. این سه روش مکمل را برای تقویت ایمنی معرفی می کند: انتساب منبع ، تأیید اینکه آیا پاسخ ها در شواهد پایه گذاری شده اند. بررسی قوام ، شناسایی پاسخ های ناپایدار. و معنایی آنتروپی، اندازه گیری عدم اطمینان پنهان. علاوه بر این ، این یک بازیابی چند مرحله ای برای نمایش داده های پزشکی پیچیده را توصیف می کند. این لایه ها با هدف ایجاد یک AI قابل اطمینان تر با پرچم گذاری فعالانه نادرست ها.

2 MUSTRAL-7B Super Charge با GRPO FinetUning: یک آموزش دوستانه مبتدی با کد از طرف کریشان ولیا

جزئیات وبلاگ با استفاده از GRPO (بهینه سازی خط مشی تنظیم شده گرادیان) برای بهبود توانایی های استدلال LLMS ، به طور خاص mistral-7b. این فرآیند شامل تنظیم محیط ، بارگیری یک مدل کمیته 4 بیتی از طریق UNLOTH ، تهیه GSM8K است مجموعه داده، و ایجاد توابع مختلف پاداش برای هدایت ساختار و دقت خروجی مدل. همچنین این برنامه پیکربندی و اجرای آموزش GRPO را با استفاده از TRL پوشش می دهد ، با ارزیابی ها نشان دهنده استدلال پیشرفته است. در این مقاله همچنین به کارآیی GRPO ، به ویژه برای محیط های محدود شده از منابع اشاره شده است.

3 افزایش قابلیت های LLM: قدرت LLMS و RAG چند حالته از طرف سونیل رائو

در این مقاله به بررسی مدل های بزرگ زبان چند حالته (MLLMS) و معماری آنها ، از جمله رمزگذارهای تخصصی (به عنوان مثال ، کلیپ ، لاوا ، زمزمه) و لایه های فیوژن می پردازیم. همچنین در مورد Rag Multimodal ، سیستمی که این MLLM ها را با نسل بازیابی-آمریكا برای استفاده از منابع داده متنوع ادغام می كند ، بحث می كند. همچنین مراحل کلیدی برای ساختن چنین سیستمی ، از بارگیری داده ها و تعبیه چندمدی گرفته تا بازیابی و ادغام LLM ارائه می دهد. سرانجام ، اهمیت معیارهای ارزیابی جامع برای بازیابی ، تولید و قوام متقابل را برجسته می کند.

4 با استفاده از Langfuse ، عوامل باز AI SDK را کنترل و ارزیابی کنید از طرف استیو جورج

این وبلاگ با استفاده از یک گردش کار ساده عامل با استفاده از OpenAI SDK ، شامل یک محافظ ورودی ، یک دستیار و یک عامل اعتبار سنجی می رود. این نشان دهنده ضبط و تجسم داده های ردیابی از این گردش کار با استفاده از LANGFUSE ، یکپارچه از طریق OpenTelemetry است. توضیحات شامل پیکربندی اعتبارنامه ها و OpenTelemetry ، اجرای عامل ، ارسال نمایش داده شد و تجزیه و تحلیل برنامه ای داده های ردیابی برای تجسم های اساسی با استفاده از MATPLOTLIB.

اگر علاقه مند به انتشار با AI هستید ، دستورالعمل های ما را بررسی کرده و ثبت نام کنیدبشر اگر این سیاست ها و استانداردهای تحریریه ما را رعایت کند ، کار شما را به شبکه خود منتشر خواهیم کرد.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/lai-78-rag-evaluation-mcp-101-grpo-fine-tuning-and-multimodal-systems