LAI #73: Vision-Language در مقیاس ، محدوده O1 ، Rag 2.0 و سازندگان چند عامل


نویسنده (ها): به سمت تیم تحریریه AI

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

صبح بخیر ، علاقه مندان به او ،

شماره این هفته شامل استقرار مدل های بینایی در خانه برای تجزیه اسناد در مقیاس بزرگ می شود ، و اینکه آیا مدل های O1 Openai در واقع استدلال پیشرفته ای دارند یا جستجوی مقیاس بندی شده است.

ما همچنین متا بوستر را پوشش می دهیم ، یک روش گروه جدید که به طور پویا Deltas را از مدل های پایه چندگانه می آمیزد. یک خط لوله RAG در زمان واقعی با استفاده از Langgraph و Scraping وب. و یک راهنمای دستی برای ساختن سیستم های چند عامل با ذوب ها. سرانجام ، ما به جای بودجه های بزرگتر ، به رویکرد Deepseek R1 برای مقیاس گذاری با آموزش های هوشمندتر نگاه می کنیم.

بیایید شیرجه بزنیم.

-لوئیز فرانسوا بوچارد ، به سمت بنیانگذار AI و رئیس جامعه

بخش جامعه را با هم بیاموزید!

نظرسنجی AI هفته!

جای تعجب آور نیست که بسیاری از آنها در اعلام سقف روی ترانسفورماتور مردد هستند LLMS هنوز از این گذشته ، ما شاهد دستاوردهای معنی دار از مقیاس بندی قوانین ، درمان بهتر داده ها ، آموزش در زمینه های طولانی تر و تکنیک های استنتاج هوشمندانه مانند رمزگشایی سوداگرانه هستیم. چه نوع تحولات سوزن را برای شما جابجا می کند؟ آیا تکنیک هایی مانند MOE ، ویندوز زمینه های طولانی تر یا تقویت مبتنی بر بازیابی مانند پیشرفت واقعی احساس می کنند ، یا آیا آنها فقط تکه های هوشمندانه ای در معماری پیری دارند؟ بیایید در موضوع بحث کنیم!

فرصت های همکاری

جامعه Discord Learn Ai Together با فرصت های همکاری پر شده است. اگر از شیرجه رفتن به هوش مصنوعی کاربردی هیجان زده اید ، یک شریک مطالعه می خواهید ، یا حتی می خواهید برای پروژه Passion خود شریک پیدا کنید ، به کانال همکاری بپیوندید! به این بخش نیز توجه داشته باشید – ما هر هفته فرصت های جالب را به اشتراک می گذاریم!

1 اوواکس می خواهد در AI تحقیقاتی انجام دهد و به دنبال افرادی است که دوست دارند به آن بپیوندند. اگر ایده های موضوعی دارید یا می خواهید تحقیق کنید ، در موضوع به او دسترسی پیدا کنید!

2 .tsekis در حال کار بر روی یک پروژه با Rag است و به دنبال کسی است که برای ساختن چیزی تأثیرگذار از زمین به بالا هیجان زده شود. اگر از آزمایش ، حل مشکلات و ایجاد چیزها لذت می برید ، در موضوع وصل شوید!

3 Adventurous_flamingo_86116 اخیراً راه اندازی شده است API هوشمندانه AI AI ، راه حلی که برای غنی سازی تعامل و تجربیات کاربر طراحی شده است. آنها به دنبال همکار هستند و اگر این برای شما جالب به نظر می رسد ، به آنها در موضوع پیام دهید!

Meme of Week!

Meme به اشتراک گذاشته شده توسط Rucha8062

بخش سرپرستی تای

مقاله هفته

یک الگوی زبان بینایی داخلی را برای تجزیه میلیون ها اسناد مستقر کنید: خداحافظی با جمینی و Openaiبشر از طرف جرمی آرنسیو

این وبلاگ جزئیات استقرار یک مدل زبان بینایی داخلی (VLM) ، به طور خاص QWEN-2.5-VL را برای استخراج داده های ساختاری از اسناد شرح می دهد. این برنامه با استفاده از VLLM برای استنباط کارآمد و دسته AWS با ارکستر EC2 برای مدیریت خط لوله پردازش ، پرداختن به هزینه ، امنیت داده ها و نگرانی های مربوط به قابلیت اطمینان مربوط به شخص ثالث تشریح می شود. LLM APIS این فرآیند شامل کانتینر کردن برنامه با Docker/UV و مدیریت زیرساخت های AWS از طریق Terraform است. تجزیه و تحلیل هزینه نشان می دهد که این روش خود میزبان می تواند اقتصادی تر از خدمات خارجی برای پردازش اسناد در مقیاس بزرگ باشد.

مقالات باید بخوانید

1 آیا مدل های O1 استدلال انسان را حل کرده اند؟ از طرف نهدی

مدل های O1 Openai بحث و گفتگو در مورد استدلال حل شده LLM را برانگیخت. این مقاله حدس می زند که O1 از یادگیری تقویت شده با زنجیره ای از فکر (COT) و مدل های پاداش فرآیند برای آموزش استفاده می کند ، با تمرکز بر اعتبار گام به گام. استنباط به احتمال زیاد از طریق محاسبات قابل توجه ، جستجوی ، تولید و به ثمر رساندن مسیرهای استدلال بیشماری را در مقیاس بزرگ دارد. با این حال ، نویسنده در صورت “حل” استدلال می کند ، با استناد به تحقیقات نشان می دهد که مدل های COT بر روی کارهای پیچیده و خارج از توزیع ناکام هستند و الگوی تطبیق بیش از درک قوی را نشان می دهد. روش استنتاج به عنوان مؤثر اما محاسباتی فشرده و برخلاف شناخت انسان دیده می شود.

2 یک تقویت کننده متا جدید و عملی برای یادگیری نظارت شده از طرف شنگگانگ لی

در این مقاله ، متا بوستر ، یک چارچوب گروهی برای کارهای یادگیری نظارت شده معرفی شده است. این به صورت پویا به روزرسانی های افزایشی (Deltas) را از چندین زبان آموز پایه (مانند XGBoost ، LightGBM و NN) در هر مرحله تقویت کننده ترکیب می کند. وزن این دلتاها با استفاده از حداقل مربعات انباشته در یک مجموعه اعتبار سنجی تعیین می شود و میزان یادگیری بهینه از طریق جستجوی خط یافت می شود. آزمایش در مورد طبقه بندی و رگرسیون مجموعه داده ها معیارهای بهبود یافته (AUC ، Logloss ، Mape ، RMSE) را در مقایسه با مدل های فردی نشان داد. متا بوستر روشی انعطاف پذیر برای اهرم پویا از نقاط قوت مدل متنوع برای پیش بینی های بهتر ارائه می دهد.

3 RAG 2.0: LLM های فوق العاده شارژ با داده های وب در زمان واقعی و لانگگراف از طرف سامواردان سینگ

در این مقاله توضیح داده شده است که چگونه می توان با استفاده از داده های وب در زمان واقعی ، تولید نسل با اوج (RAG) را تقویت کرد تا مدل های بزرگ زبان در جریان باشد. این محدودیت های مجموعه داده های استاتیک سنتی Rag را به تفصیل ارائه داد و یک رویکرد پویا را با استفاده از ابزارهای خراش وب مانند Scropy معرفی کرد. Langgraph به عنوان چارچوبی برای ارکستر این گردش کار پیچیده ، مدیریت مراحل از داده های خراش داده و تعبیه تا ذخیره بردار (استفاده از FAISS برای کارآیی) ، بازیابی و تولید پاسخ نهایی برجسته شد. برای اطمینان از پاسخ های به موقع نیز تکنیک های بهینه سازی تأخیر نیز مورد بحث قرار گرفت.

4 ساختن یک سیستم چند عامل با چندین سرور MCP با استفاده از smolagents از طرف مورات şimşek

این قطعه با استفاده از کتابخانه Smolagents و چندین سرورهای MCP (پروتکل زمینه مدل) ، یک سیستم چند عامل را در حال ساخت است. این نشان داد که چگونه می توان یک سرور MCP سفارشی را برای کارهای حافظه Markdown ایجاد کرد و یک سرور از پیش ساخته PubMed را از Smithery ادغام کرد ، با استفاده از Google’s Gemini 2.5 Flash Preview LLM. فرآیند تنظیم سرور ، پیکربندی Smolagents و تعریف نقش های نماینده متمایز برای حافظه و اجرای کار. مثالها نشان داده شده است که سیستم در حال ایجاد برنامه های تناسب اندام ، به روزرسانی آنها از طریق جستجوهای PubMed و یادآوری اطلاعات ذخیره شده.

5 Deepseek R1: تحقیقات و مهندسی پیشگام به عنوان رقیب رویکردهای مقیاس بندی خالص از طرف نهدی

بر خلاف بسیاری از آزمایشگاه های بسته ، نسخه Deepseek R1 شفافیت قابل توجهی در مورد الگوریتم ها و آموزش های خود ارائه داد. این مدل به عملکرد قوی رسیده است ، بنا بر گزارش ها از معیارهای تعیین شده توسط مدل های بزرگتر ، در حالی که از محاسبات و بودجه به طور قابل توجهی کمتر استفاده می کند ، حدود 6 میلیون دلار در مقایسه با تخمین صدها میلیون نفر برای دیگران. این امر تحقیقات و مهندسی کارآمد را در مورد مقیاس کاری بی رحمانه برجسته کرد. این قطعه آموزش مدلهایی مانند Deepseek-R1-Zero (با استفاده از RL به طور مستقیم بر روی یک مدل پایه) و Deepseek-R1 تصفیه شده (SFT متناوب و RL با GRPO) ، از جمله تکنیک های یادگیری تقویت کننده جدید است.

اگر علاقه مند به انتشار با AI هستید ، دستورالعمل های ما را بررسی کرده و ثبت نام کنیدبشر اگر این سیاست ها و استانداردهای تحریریه ما را رعایت کند ، کار شما را به شبکه خود منتشر خواهیم کرد.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/lai-73-vision-language-at-scale-o1s-limits-rag-2-0-and-multi-agent-builders

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *