#58 آیا می‌توانیم از یک مدل بزرگ برای آموزش مدل‌های کوچکتر استفاده کنیم؟


نویسنده(های): به سمت تیم تحریریه هوش مصنوعی

در ابتدا منتشر شد به سمت هوش مصنوعی.

صبح بخیر، علاقه مندان به هوش مصنوعی! این هفته، ما بررسی می کنیم LLM تکنیک های بهینه سازی که می تواند ساختمان سازی کند LLMs از ابتدا با منابع محدود قابل دسترسی تر است. ما همچنین در مورد عوامل ساختمان، تجزیه و تحلیل تصویر، مدل های مفهومی بزرگ (LCM) و موارد دیگر بحث می کنیم. ما همچنین یک فرصت پولی در Towards داریم، آن را در بخش “فرصت های همکاری” بررسی کنید. از خواندن لذت ببرید!

هفتگی هوش مصنوعی چیست

این هفته در هوش مصنوعی چیست، من در مورد اصول تقطیر دانش و سایر تکنیک ها مانند هرس و کوانتیزاسیون صحبت خواهم کرد که می تواند به شما در ساخت مدل هایی با منابع محدود کمک کند. اگر شرکت‌های بزرگ فقط یک مدل بزرگ بسازند، و سپس ما، مردم عادی، بتوانیم از آن برای آموزش مدل‌های کوچک‌تری استفاده کنیم که هر یک از ما برای وظایف یا داده‌های خاص خود استفاده کنیم، چه؟ خوب، این دقیقاً هدف لاما با عرضه مدل 405B و استفاده از تقطیر برای آموزش مدل های کوچکتر است. به همین ترتیب، انویدیا اخیراً دو مقاله منتشر کرده است که این ایده شگفت انگیز را با رویکرد Minitron خود بررسی می کند. من هم به این موضوع شیرجه خواهم زد. مقاله را اینجا بخوانید یا ویدیو را در یوتیوب تماشا کنید.

– لویی فرانسوا بوچارد، بنیانگذار و رئیس انجمن به سوی هوش مصنوعی

بخش جامعه هوش مصنوعی را یاد بگیرید!

نظرسنجی هفته هوش مصنوعی!

اگر توکن‌های استدلال کلید AGI نیستند، فکر می‌کنید کدام راه‌ها یا رویکردهای جایگزین بیشترین نوید را دارند؟ در Discord به ما بگویید!

فرصت های همکاری

انجمن Learn AI Together Discord مملو از فرصت های همکاری است. اگر مشتاق هستید که در هوش مصنوعی کاربردی شیرجه بزنید، یک شریک تحصیلی می خواهید، یا حتی می خواهید شریکی برای پروژه اشتیاق خود پیدا کنید، به کانال همکاری بپیوندید! مراقب این بخش نیز باشید – ما هر هفته فرصت های جالبی را به اشتراک می گذاریم!

1. برای هر کسی که علاقه مند است، ما یک نوع نقش “روابط توسعه دهنده” در Towards AI داریم. ما به فردی علاقه مند به ایجاد پست های اجتماعی و وبلاگ، کمک به امور مدیریت Discord و شرکت در رویدادهای تحقیقاتی/صنعتی که ما حمایت مالی می کنیم به نمایندگی از TAI نیاز داریم. اگر این چیزی هیجان انگیز به نظر می رسد، پیام لویی فرانسوا بوشار در دیسکورد.

2. مسمویرون برای ساخت اجزای پیشرفته با پلتفرم های Toddle و Xano به کمک نیاز دارد. اگر می توانید در این زمینه کمک کنید، در نخ وصل کنید!

3. غب01 یک دوره آنلاین ایجاد کرده است و برای بازاریابی آن به یک شریک نیاز دارد. اگر به جزئیات بیشتری نیاز دارید، در تاپیک دراز کنید!

4. Iruletheworldnow به دنبال پنج نفر برای مطالعه فریمورک های عامل و ساخت یک فریمورک متن باز است. اگر این هیجان انگیز به نظر می رسد، در تاپیک با او تماس بگیرید!

میم هفته!

میم به اشتراک گذاشته شده توسط bin4ry_d3struct0r

بخش سرپرستی TAI

مقاله هفته

تجسم مجدد GAN ها: پل زدن آمار و تنظیم واریانس توسط شنگانگ لی

این مقاله شبکه‌های متخاصم مولد (GAN) را از طریق دریچه مدل‌سازی آماری بررسی می‌کند. با توضیح GAN ها با استفاده از رگرسیون لجستیک بر روی داده های جدولی شروع می شود و مفهوم را در دسترس تر می کند. سپس GAN های تنظیم شده با واریانس (VR-GANs) را معرفی می کند، که با به حداقل رساندن صریح اختلاف واریانس، تراز آماری داده های تولید شده با داده های واقعی را بهبود می بخشد. در نهایت، GAN‌های Reason Code را پیشنهاد می‌کند، که تشخیص‌دهنده را برای ارائه بازخورد برای توضیح اینکه چرا داده‌های تولید شده جعلی تلقی می‌شوند، تقویت می‌کند. این بازخورد مولد را هدایت می کند، تولید داده را بهبود می بخشد و قابلیت تفسیر را افزایش می دهد. این شامل نمونه‌های کد پایتون است که هم VR-GAN و هم Reason Code را نشان می‌دهد و برنامه‌های کاربردی برای تولید تصویر را بررسی می‌کند و نشان می‌دهد که چگونه Reason Codes می‌تواند تکامل ویژگی را در طول آموزش ردیابی کند. این با بحث در مورد جهت‌های تحقیقاتی آینده برای GAN‌ها، با تأکید بر پتانسیل بهبود پایداری و تفسیرپذیری به پایان می‌رسد.

مقالاتی که باید حتما بخوانید

1. LCM + Mapping Hidden Embedding = مدل معماری جدید توسط گائو دالی (高達烈

این مقاله مدل مفهومی بزرگ جدید متا (LCM) را مورد بحث قرار می دهد، یک معماری مدل زبانی که به طور قابل توجهی با مدل های سنتی زبان بزرگ (LLM) متفاوت است. بر خلاف LLM ها که متن را کلمه به کلمه پردازش می کنند، LCM ها جملات را به عنوان “مفاهیم” پردازش می کنند – بردارهایی با ابعاد بالا که معنای یک جمله را مستقل از زبان یا روش نشان می دهند. این جزئیات معماری LCM را شامل می‌شود که شامل یک رمزگذار مفهومی، مدل مفهومی بزرگ و رمزگشای مفهومی است که با هم کار می‌کنند تا متن را به مفاهیم تبدیل کنند و دوباره برگردند. بخشی به بررسی کد منبع باز ارائه شده می‌پردازد، اجزای PreNet، PostNet، و TransformerDecoder را با جزئیات بیشتر، با تمرکز بر عادی‌سازی و غیرعادی‌سازی جاسازی‌ها. این توانایی LCM برای مدیریت چندین زبان با استفاده از ابزار SONAR و پتانسیل آن برای یادگیری صفر شات را برجسته می کند. با تاکید بر پتانسیل LCM برای ایجاد انقلاب به پایان می رسد پردازش زبان طبیعی با تغییر تمرکز از پردازش کلمه به درک معنایی.

2. با اتوماسیون هوش مصنوعی VisualInsight داده های تصویر را به بینش تبدیل کنید توسط یوتم براون

این مقاله به جزئیات VisualInsight، یک برنامه تحلیل تصویر مبتنی بر هوش مصنوعی که با استفاده از سرویس‌های Streamlit، Google Gemini و AWS ساخته شده است، می‌پردازد. این چالش‌های رایج تجزیه و تحلیل تصویر مانند تلاش دستی و مقیاس‌پذیری را با خودکار کردن فرآیند برطرف می‌کند. VisualInsight به کاربران اجازه می دهد تا تصاویر را از طریق یک رابط کاربر پسند آپلود کنند و از Gemini برای تجزیه و تحلیل و ذخیره ایمن نتایج در AWS S3 استفاده کنند. معماری برنامه شامل Docker برای عملکرد ثابت و Terraform برای مدیریت زیرساخت، با CI/CD پیاده‌سازی شده از طریق GitHub Actions برای استقرار خودکار است. همچنین قطعات کد اصلی را ارائه می دهد و گردش کار را توضیح می دهد و مزایای اتوماسیون و تکرارپذیری را برجسته می کند.

3. ساختن سیستم‌های عامل هوش مصنوعی: فرو رفتن عمیق در معماری و شهود توسط پراشانت کالپو

این مقاله معماری عوامل هوش مصنوعی را مورد بحث قرار می‌دهد و تکامل آنها را از مدل‌های یکپارچه به سیستم‌های ترکیبی سازگارتر نشان می‌دهد. این توضیح می‌دهد که عوامل موثر هوش مصنوعی بر سه ستون متکی هستند: استدلال، عمل و حافظه. یک معماری نمونه ارائه شده است که شامل یک بلوک استدلال، یک بلوک اجرا و یک بلوک حافظه است. حلقه بازخورد امکان بهبود مستمر را فراهم می‌کند، در حالی که پیشرفت‌های آینده می‌تواند شامل بهبود درک زمینه‌ای و قابلیت‌های خودآموزی باشد. این مقاله با تاکید بر پتانسیل عوامل هوش مصنوعی برای حل موثرتر مشکلات پیچیده و واقعی به پایان می رسد.

4. ساخت عامل هوش مصنوعی از ابتدا با روبی توسط الکس چاپلینسکی

این مقاله به جزئیات ایجاد یک چارچوب عامل هوش مصنوعی مبتنی بر روبی می‌پردازد. از معماری ReAct استفاده می کند، استدلال و عمل را از طریق یک LLM در هم می آمیزد. اجزای اصلی این چارچوب شامل یک کلاس Agent مدیریت تعاملات، یک کلاس Session که تعاملات فردی را ردیابی می کند (با Spans نشان دهنده عملیات فردی) و یک Toolchain برای یکپارچه سازی ابزارهای خارجی است. این مقاله ساخت یک عامل ساده را نشان می‌دهد که قیمت‌های ارزهای دیجیتال را با استفاده از CoinGecko API بازیابی می‌کند، انعطاف‌پذیری و توسعه‌پذیری چارچوب را از طریق نمونه‌هایی از پرس‌و‌جوهای پیچیده‌تر نشان می‌دهد، و توانایی عامل را برای رسیدگی به درخواست‌های ساده و پیچیده‌تر، حتی رسیدگی به درخواست‌های خارج از ظرفیت تعریف‌شده‌اش برجسته می‌کند. .

اگر علاقه مند به انتشار با Towards AI هستید، دستورالعمل های ما را بررسی کنید و ثبت نام کنید. اگر کار شما با خط مشی ها و استانداردهای ویرایشی ما مطابقت داشته باشد، ما آن را در شبکه خود منتشر خواهیم کرد.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/58-can-we-use-one-big-model-to-train-smaller-models