نویسنده(های): به سمت تیم تحریریه هوش مصنوعی
در ابتدا منتشر شد به سمت هوش مصنوعی.
صبح بخیر، علاقه مندان به هوش مصنوعی! این هفته، ما بررسی می کنیم LLM تکنیک های بهینه سازی که می تواند ساختمان سازی کند LLMs از ابتدا با منابع محدود قابل دسترسی تر است. ما همچنین در مورد عوامل ساختمان، تجزیه و تحلیل تصویر، مدل های مفهومی بزرگ (LCM) و موارد دیگر بحث می کنیم. ما همچنین یک فرصت پولی در Towards داریم، آن را در بخش “فرصت های همکاری” بررسی کنید. از خواندن لذت ببرید!
هفتگی هوش مصنوعی چیست
این هفته در هوش مصنوعی چیست، من در مورد اصول تقطیر دانش و سایر تکنیک ها مانند هرس و کوانتیزاسیون صحبت خواهم کرد که می تواند به شما در ساخت مدل هایی با منابع محدود کمک کند. اگر شرکتهای بزرگ فقط یک مدل بزرگ بسازند، و سپس ما، مردم عادی، بتوانیم از آن برای آموزش مدلهای کوچکتری استفاده کنیم که هر یک از ما برای وظایف یا دادههای خاص خود استفاده کنیم، چه؟ خوب، این دقیقاً هدف لاما با عرضه مدل 405B و استفاده از تقطیر برای آموزش مدل های کوچکتر است. به همین ترتیب، انویدیا اخیراً دو مقاله منتشر کرده است که این ایده شگفت انگیز را با رویکرد Minitron خود بررسی می کند. من هم به این موضوع شیرجه خواهم زد. مقاله را اینجا بخوانید یا ویدیو را در یوتیوب تماشا کنید.
– لویی فرانسوا بوچارد، بنیانگذار و رئیس انجمن به سوی هوش مصنوعی
بخش جامعه هوش مصنوعی را یاد بگیرید!
نظرسنجی هفته هوش مصنوعی!
اگر توکنهای استدلال کلید AGI نیستند، فکر میکنید کدام راهها یا رویکردهای جایگزین بیشترین نوید را دارند؟ در Discord به ما بگویید!
فرصت های همکاری
انجمن Learn AI Together Discord مملو از فرصت های همکاری است. اگر مشتاق هستید که در هوش مصنوعی کاربردی شیرجه بزنید، یک شریک تحصیلی می خواهید، یا حتی می خواهید شریکی برای پروژه اشتیاق خود پیدا کنید، به کانال همکاری بپیوندید! مراقب این بخش نیز باشید – ما هر هفته فرصت های جالبی را به اشتراک می گذاریم!
1. برای هر کسی که علاقه مند است، ما یک نوع نقش “روابط توسعه دهنده” در Towards AI داریم. ما به فردی علاقه مند به ایجاد پست های اجتماعی و وبلاگ، کمک به امور مدیریت Discord و شرکت در رویدادهای تحقیقاتی/صنعتی که ما حمایت مالی می کنیم به نمایندگی از TAI نیاز داریم. اگر این چیزی هیجان انگیز به نظر می رسد، پیام لویی فرانسوا بوشار در دیسکورد.
2. مسمویرون برای ساخت اجزای پیشرفته با پلتفرم های Toddle و Xano به کمک نیاز دارد. اگر می توانید در این زمینه کمک کنید، در نخ وصل کنید!
3. غب01 یک دوره آنلاین ایجاد کرده است و برای بازاریابی آن به یک شریک نیاز دارد. اگر به جزئیات بیشتری نیاز دارید، در تاپیک دراز کنید!
4. Iruletheworldnow به دنبال پنج نفر برای مطالعه فریمورک های عامل و ساخت یک فریمورک متن باز است. اگر این هیجان انگیز به نظر می رسد، در تاپیک با او تماس بگیرید!
میم هفته!
میم به اشتراک گذاشته شده توسط bin4ry_d3struct0r
بخش سرپرستی TAI
مقاله هفته
تجسم مجدد GAN ها: پل زدن آمار و تنظیم واریانس توسط شنگانگ لی
این مقاله شبکههای متخاصم مولد (GAN) را از طریق دریچه مدلسازی آماری بررسی میکند. با توضیح GAN ها با استفاده از رگرسیون لجستیک بر روی داده های جدولی شروع می شود و مفهوم را در دسترس تر می کند. سپس GAN های تنظیم شده با واریانس (VR-GANs) را معرفی می کند، که با به حداقل رساندن صریح اختلاف واریانس، تراز آماری داده های تولید شده با داده های واقعی را بهبود می بخشد. در نهایت، GANهای Reason Code را پیشنهاد میکند، که تشخیصدهنده را برای ارائه بازخورد برای توضیح اینکه چرا دادههای تولید شده جعلی تلقی میشوند، تقویت میکند. این بازخورد مولد را هدایت می کند، تولید داده را بهبود می بخشد و قابلیت تفسیر را افزایش می دهد. این شامل نمونههای کد پایتون است که هم VR-GAN و هم Reason Code را نشان میدهد و برنامههای کاربردی برای تولید تصویر را بررسی میکند و نشان میدهد که چگونه Reason Codes میتواند تکامل ویژگی را در طول آموزش ردیابی کند. این با بحث در مورد جهتهای تحقیقاتی آینده برای GANها، با تأکید بر پتانسیل بهبود پایداری و تفسیرپذیری به پایان میرسد.
مقالاتی که باید حتما بخوانید
1. LCM + Mapping Hidden Embedding = مدل معماری جدید توسط گائو دالی (高達烈
این مقاله مدل مفهومی بزرگ جدید متا (LCM) را مورد بحث قرار می دهد، یک معماری مدل زبانی که به طور قابل توجهی با مدل های سنتی زبان بزرگ (LLM) متفاوت است. بر خلاف LLM ها که متن را کلمه به کلمه پردازش می کنند، LCM ها جملات را به عنوان “مفاهیم” پردازش می کنند – بردارهایی با ابعاد بالا که معنای یک جمله را مستقل از زبان یا روش نشان می دهند. این جزئیات معماری LCM را شامل میشود که شامل یک رمزگذار مفهومی، مدل مفهومی بزرگ و رمزگشای مفهومی است که با هم کار میکنند تا متن را به مفاهیم تبدیل کنند و دوباره برگردند. بخشی به بررسی کد منبع باز ارائه شده میپردازد، اجزای PreNet، PostNet، و TransformerDecoder را با جزئیات بیشتر، با تمرکز بر عادیسازی و غیرعادیسازی جاسازیها. این توانایی LCM برای مدیریت چندین زبان با استفاده از ابزار SONAR و پتانسیل آن برای یادگیری صفر شات را برجسته می کند. با تاکید بر پتانسیل LCM برای ایجاد انقلاب به پایان می رسد پردازش زبان طبیعی با تغییر تمرکز از پردازش کلمه به درک معنایی.
2. با اتوماسیون هوش مصنوعی VisualInsight داده های تصویر را به بینش تبدیل کنید توسط یوتم براون
این مقاله به جزئیات VisualInsight، یک برنامه تحلیل تصویر مبتنی بر هوش مصنوعی که با استفاده از سرویسهای Streamlit، Google Gemini و AWS ساخته شده است، میپردازد. این چالشهای رایج تجزیه و تحلیل تصویر مانند تلاش دستی و مقیاسپذیری را با خودکار کردن فرآیند برطرف میکند. VisualInsight به کاربران اجازه می دهد تا تصاویر را از طریق یک رابط کاربر پسند آپلود کنند و از Gemini برای تجزیه و تحلیل و ذخیره ایمن نتایج در AWS S3 استفاده کنند. معماری برنامه شامل Docker برای عملکرد ثابت و Terraform برای مدیریت زیرساخت، با CI/CD پیادهسازی شده از طریق GitHub Actions برای استقرار خودکار است. همچنین قطعات کد اصلی را ارائه می دهد و گردش کار را توضیح می دهد و مزایای اتوماسیون و تکرارپذیری را برجسته می کند.
3. ساختن سیستمهای عامل هوش مصنوعی: فرو رفتن عمیق در معماری و شهود توسط پراشانت کالپو
این مقاله معماری عوامل هوش مصنوعی را مورد بحث قرار میدهد و تکامل آنها را از مدلهای یکپارچه به سیستمهای ترکیبی سازگارتر نشان میدهد. این توضیح میدهد که عوامل موثر هوش مصنوعی بر سه ستون متکی هستند: استدلال، عمل و حافظه. یک معماری نمونه ارائه شده است که شامل یک بلوک استدلال، یک بلوک اجرا و یک بلوک حافظه است. حلقه بازخورد امکان بهبود مستمر را فراهم میکند، در حالی که پیشرفتهای آینده میتواند شامل بهبود درک زمینهای و قابلیتهای خودآموزی باشد. این مقاله با تاکید بر پتانسیل عوامل هوش مصنوعی برای حل موثرتر مشکلات پیچیده و واقعی به پایان می رسد.
4. ساخت عامل هوش مصنوعی از ابتدا با روبی توسط الکس چاپلینسکی
این مقاله به جزئیات ایجاد یک چارچوب عامل هوش مصنوعی مبتنی بر روبی میپردازد. از معماری ReAct استفاده می کند، استدلال و عمل را از طریق یک LLM در هم می آمیزد. اجزای اصلی این چارچوب شامل یک کلاس Agent مدیریت تعاملات، یک کلاس Session که تعاملات فردی را ردیابی می کند (با Spans نشان دهنده عملیات فردی) و یک Toolchain برای یکپارچه سازی ابزارهای خارجی است. این مقاله ساخت یک عامل ساده را نشان میدهد که قیمتهای ارزهای دیجیتال را با استفاده از CoinGecko API بازیابی میکند، انعطافپذیری و توسعهپذیری چارچوب را از طریق نمونههایی از پرسوجوهای پیچیدهتر نشان میدهد، و توانایی عامل را برای رسیدگی به درخواستهای ساده و پیچیدهتر، حتی رسیدگی به درخواستهای خارج از ظرفیت تعریفشدهاش برجسته میکند. .
اگر علاقه مند به انتشار با Towards AI هستید، دستورالعمل های ما را بررسی کنید و ثبت نام کنید. اگر کار شما با خط مشی ها و استانداردهای ویرایشی ما مطابقت داشته باشد، ما آن را در شبکه خود منتشر خواهیم کرد.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/l/58-can-we-use-one-big-model-to-train-smaller-models