LAI #72: از Python Groundwork گرفته تا عملکرد فراخوانی ، تئوری ICL و MOE های متعادل کننده بار


نویسنده (ها): به سمت تیم تحریریه AI

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

صبح بخیر ، علاقه مندان به او!

شماره این هفته دو انتهای طیف را به هم می زند: پایه هایی که برای شروع کار لازم دارید و ابزارها و ایده های ظریف شکل می گیرند که امروزه چگونه با هوش مصنوعی می سازیم. ما با یک راهنمای واضح و قابل دسترسی برای مفاهیم علوم کامپیوتر پایتون و هسته شروع می کنیم – ایده آل اگر تازه شروع به کار یا مسواک زدن در اصول اولیه می کنید. اما از آنجا همه چیز عمیق تر می شود.

شما یاد می گیرید که چگونه Nanogpt را آموزش دهید تا عملکردی را که به صورت بومی فراخوانی می کند ، انجام دهید – هیچ ترفندی سریع لازم نیست. ما بررسی می کنیم که چگونه داده های خام را به قوانین آماده تجارت تبدیل کنیم ، پیش بینی با پوسیدگی سازگار را بهبود بخشیم و ارزیابی کنیم LLM عملکرد با دقت آماری. و اگر سری Deepseek ما را دنبال کرده اید ، ویژگی این هفته در تعادل بار بدون از دست دادن کمکی ، حلقه را با یک راه حل شگفت آور زیبا بسته می کند.

هفتگی AI چیست

این هفته در AI چیست، من به اصول پایتون و مفاهیم CS شیرجه می شوم. این به معنای یک راهنمای مبتدی یک مرحله ای برای یک مبتدی برنامه نویسی است. من یک قدم را یک قدم در یک زمان انجام می دهم و از نمونه هایی برای توضیح هر مفهوم استفاده می کنم. نگران نباشید ، اگر فقط تمام مفاهیم را از این مقاله واحد درک نکنید ، همیشه می توانید در مورد آنها اطلاعات بیشتری کسب کنید دوره پایتونبشر یادگیری خود را با این مقاله شروع کنید یا فیلم را در YouTube تماشا کنید، و این مفاهیم را تمرین کنید تا واقعاً آنها را درک کنید!

-لوئیز فرانسوا بوچارد ، به سمت بنیانگذار AI و رئیس جامعه

بخش جامعه را با هم بیاموزید!

پست برجسته جامعه از Discord

Blondu0994 یک سکوی همه در یک برای ترجمه ها ، رونوشت ها ، OCR ، PDF/Word/Excel و امضاهای الکترونیکی ساخته است. این محصول از هوش مصنوعی ، کاملاً خودکار استفاده می شود و بدون API های تجاری اجرا می شود. او به دنبال بازخورد است ، آن را بررسی کنید و از یک عضو جامعه دیگر حمایت کنید. اگر در مورد ابزار سؤالی دارید ، به موضوع دسترسی پیدا کنید!

نظرسنجی AI هفته!

در حالی که نظرسنجی ها نشان می دهد که بیشتر شما از 4O استفاده می کنید ، بحث در موضوع از Openai به Deepseek ، Plexlexity و Gemini منتقل شده است. آیا قیمت این تصمیم را راهنمایی می کند یا عملکرد؟ همچنین کنجکاو است بدانید که چرا کسی هنوز از Grok استفاده نمی کند. در مورد Discord به من بگویید!

فرصت های همکاری

جامعه Discord Learn Ai Together با فرصت های همکاری در حال سیل است. اگر از شیرجه رفتن به هوش مصنوعی کاربردی هیجان زده اید ، یک شریک مطالعه می خواهید ، یا حتی می خواهید برای پروژه Passion خود شریک پیدا کنید ، به کانال همکاری بپیوندید! به این بخش نیز توجه داشته باشید – ما هر هفته فرصت های جالب را به اشتراک می گذاریم!

1 اوواکس می خواهد برخی از تحقیقات را در هوش مصنوعی انجام دهد و به دنبال افرادی است که دوست دارند به آنها بپیوندند. اگر ایده موضوعی دارید یا می خواهید تحقیق را دنبال کنید ، با آنها در موضوع ارتباط برقرار کنید!

2 _MADARA_UCHIHA_ در حال کاوش Numpy و سایر کتابخانه های پایتون است و به دنبال یک شریک پاسخگویی در دسترس است تا به مدت سه ساعت در روز مطالعه کند. اگر وقت دارید و روی همان موضوعات تمرکز می کنید ، در موضوع به او دسترسی پیدا کنید!

Meme of Week!

Meme به اشتراک گذاشته شده توسط bin4ry_d3struct0r

بخش سرپرستی تای

مقاله هفته

از اصول اول: عملکرد ساختمان تماس با تنظیم دقیق Nanogpt از طرف Suyash Harlalka

این وبلاگ یک پیاده روی دقیق برای اجرای عملکرد با تنظیم دقیق یک مدل شبیه به Nanogpt با استفاده از تنها Pytorch و Tiktoken فراهم می کند. بر خلاف روشهایی که نیاز به تعاریف عملکرد در اعلان ها دارند ، این رویکرد مدل را برای تولید مستقیم خروجی های ساختاری ، بهبود کارایی ، آموزش می دهد. توضیح می دهد مجموعه داده مورد نیاز ، تنظیم توکینیزر با نشانه های ویژه ، تکنیک های نقاب از دست دادن سفارشی در طول آموزش و اجرای کلی آموزش. پیشرفت مدل از طریق نمونه هایی در مراحل مختلف آموزشی نشان داده شده است. توسعه دهندگان و محققان علاقه مند به درک سطح پایین از LLM سفارشی سازی و اجرای کارآمد اجرای اجرای بدون انتزاع کتابخانه ای سطح بالا این راهنما آموزنده را پیدا می کند.

مقالات باید بخوانید

1 استخراج قوانین عملی از داده های خام از طرف نهدی

این کار روشهای استخراج قوانین قابل تفسیر کسب و کار از داده ها را با استفاده از داده ها شرح می دهد درخت تصمیم طبقه بندی کننده ها ، هنگامی که سرعت یا وضوح نسبت به مدلهای پیچیده ترجیح داده می شود ، مفید هستند. آن را پوشانده است درخت تصمیم نظریه ، از جمله ناخالصی جینی ، و با استفاده از Sklearn با بازاریابی بانکی یک راهنمای عملی ارائه داد مجموعه دادهبشر مراحل کلیدی شامل ساخت مدل ، تجزیه برنامه نویسی ساختار درخت برای قوانین و پرداختن به رمزگذاری ویژگی های طبقه بندی شده است. استراتژی های مختلف ، مانند رمزگذاری شمارش و هدف (با هموار سازی برای ویژگی های بالا در کاردینال) ، مقایسه شد.

2 Arma با وزن پوسیدگی تطبیقی: یک رویکرد جدید برای پیش بینی سریال های زمانی از طرف شنگگانگ لی

در این مقاله ، ARMA با وزن پوسیدگی سازگار ، یک رویکرد پیش بینی سری زمانی که به محدودیت مدل های سنتی که تمام داده های گذشته را به طور یکسان درمان می کنند ، ارائه می دهد. این امر با استفاده از یک عملکرد پوسیدگی در محاسبه ضرر ، اهمیت بیشتری را به مشاهدات اخیر اختصاص می دهد ، با این که نرخ پوسیدگی قابل انطباق یا آموخته شده از داده ها است. این روش یکپارچه سازی استاندارد AR ، میانگین حرکت و اجزای فصلی را یکپارچه می کند. آزمایش های تجربی در مورد داده های تولید برق ، این تکنیک را نشان داد ، به ویژه با یک فاکتور پوسیدگی آموخته شده ، میانگین خطای درصد مطلق (MAPE) در مقایسه با AR استاندارد ، ARMA (1،1) و مدل های چرخه AR در افق های مختلف پیش بینی شده ، به دست آورد و نشان دهنده دقت پیش بینی شده بهبود یافته است.

3 یادگیری درون متن مانند گذشته توضیح داده شده است از طرف allohvk

در این مقاله به بررسی یادگیری درون متن (ICL) ، قابلیت ظهور که در آن مدل های بزرگ زبان (LLMS) وظایف را از نمونه های سریع بدون تنظیم دقیق می آموزند ، بررسی شده است. این چندین مکانیسم پیشنهادی در پشت این پدیده را مرور کرد. توضیحات شامل تکمیل الگوی ، سرهای القایی کپی کردن مفاهیم ، جستجوی نزدیکترین همسایه و استنباط بیزی است. یک تئوری برجسته ، مکانیسم های توجه را شبیه سازی می کند نزول شیب در حین استنتاج ، یادگیری با تنظیم فعال سازی ها بر اساس مثال های سریع. درک این تئوری های مختلف بینش عمیق تری از قابلیت های LLM فراهم می کند.

4 ارزیابی LLM داده محور با آزمایش آماری از طرف رابرت مارتین شرت

این قطعه با استفاده از روشهای آماری تجربی ، به طور خاص بوت استرپ و آزمایش جابجایی ، برای ارزیابی پیشرفت در برنامه های LLM بررسی شده است. این مسئله با استفاده از این آزمایشات در معیارهای ارزیابی ، از طریق نمونه ای از تقویت خلاصه یادداشت های پزشکی بر اساس نمرات خوانایی ، چالش ارزیابی خروجی های غیر تعیین کننده را برطرف کرد. تجزیه و تحلیل نشان داد که چگونه اهمیت آماری با توجه به تغییرپذیری ذاتی در خروجی های LLM می تواند اعتماد به نفس در تغییرات سریع تکراری را تعیین کند. این رویکرد داده محور به تأیید اینکه آیا سود عملکرد مشاهده شده معنی دار است ، کمک می کند.

5 Deepseek-V3 قسمت 3 را توضیح داد: متعادل کردن بار کمکی از دست دادن از طرف نهدی

به عنوان بخش سوم در یک سری در معماری Deepseek-V3 (که قبلاً توجه نهفته چند سر و Deepseekmoe را پوشانده بود) ، این قطعه تکنیک تعادل بار کمکی از دست دادن آن را برای مدل های مخلوط (MOE) نشان می دهد. این ضرورت تعادل بار را برای جلوگیری از مسائلی مانند سقوط مسیر و بی ثباتی آموزش بیان کرد. روشهای قبلی ، از جمله توابع ضرر کمکی (در معرض خطر تداخل شیب) و انتخاب تخصصی (با نگرانی های علیت) ، مورد بررسی قرار گرفت. رویکرد Deepseek به طور مستقیم نمرات دروازه را با استفاده از یک تعصب متخصص و مبتنی بر تکالیف توکن تنظیم می کند و ضمن حفظ علیت ، ضررهای کمکی را دور می زند. ارزیابی ها نشان داد که این روش به تعادل مطلوب بین عملکرد مدل و توزیع بار دست می یابد.

اگر علاقه مند به انتشار با AI هستید ، دستورالعمل های ما را بررسی کرده و ثبت نام کنیدبشر اگر این سیاست ها و استانداردهای تحریریه ما را رعایت کند ، کار شما را به شبکه خود منتشر خواهیم کرد.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/lai-72-from-python-groundwork-to-function-calling-icl-theory-and-load-balancing-moes