نویسنده (ها): نهدی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.
نهدی
·
مشترک شدن
منتشر شده در
به سمت هوش مصنوعی
· 9 دقیقه خوانده شده · 19 ساعت پیش
گوش دادن
سهم
بیشتر
این اولین مقاله از سری جدید ما “Deepseek-V3 توضیح داده شده” است ، جایی که ما سعی خواهیم کرد Demyistifififififififififififififififififififififike- v3 [1, 2]، آخرین مدل باز شده توسط Deepseek.
در این سری ، هدف ما این است که دو موضوع اصلی را پوشش دهیم:
نوآوری های اصلی معماری در Deepseek-V3 ، از جمله MLA (توجه نهفته چند سر) [3]، Deepseekmoe [4]، متعادل کردن بار کمکی از دست دادن [5]و آموزش پیش بینی چندکره. آموزش Deepseek-V3 ، پوشش مراحل تراز قبل از آموزش ، تنظیم دقیق و تقویت (RL).
این مقاله عمدتاً به توجه نهفته چند سر ، که برای اولین بار در طول توسعه Deepseek-V2 معرفی شده و بعداً در Deepseek-V3 نیز پذیرفته شده است.
پیش زمینه ما با بررسی توجه چند سر استاندارد (MHA) شروع می کنیم و نیاز به حافظه نهان کلیدی (KV) را در هنگام استنتاج توضیح می دهیم. سپس ما بررسی می کنیم که چگونه MQA (توجه چند پرس و جو) و GQA (توجه گروه بندی شده) هدف بهینه سازی حافظه و کارآیی محاسباتی است. سرانجام ، ما در مورد چگونگی ادغام طناب (تعبیه موقعیت دوار) اطلاعات موقعیتی را در مکانیسم توجه قرار می دهیم. توجه نهفته سر یک معرفی عمیق برای MLA ، پوشش انگیزه های اصلی آن ، نیاز به طناب جداشده و چگونگی بهبود عملکرد در مقایسه با مکانیسم توجه سنتی.
برای درک بهتر MLA و ساختن … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی