Deepseek-V3 توضیح داد ، قسمت 1: درک توجه نهفته چند سر


نویسنده (ها): نهدی

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.

نهدی

·

مشترک شدن

منتشر شده در

به سمت هوش مصنوعی

· 9 دقیقه خوانده شده · 19 ساعت پیش

گوش دادن

سهم

بیشتر

Vegapunk No.01 یک شخصیت یک قطعه تولید شده با Chatgpt

این اولین مقاله از سری جدید ما “Deepseek-V3 توضیح داده شده” است ، جایی که ما سعی خواهیم کرد Demyistifififififififififififififififififififififike- v3 [1, 2]، آخرین مدل باز شده توسط Deepseek.

در این سری ، هدف ما این است که دو موضوع اصلی را پوشش دهیم:

نوآوری های اصلی معماری در Deepseek-V3 ، از جمله MLA (توجه نهفته چند سر) [3]، Deepseekmoe [4]، متعادل کردن بار کمکی از دست دادن [5]و آموزش پیش بینی چندکره. آموزش Deepseek-V3 ، پوشش مراحل تراز قبل از آموزش ، تنظیم دقیق و تقویت (RL).

این مقاله عمدتاً به توجه نهفته چند سر ، که برای اولین بار در طول توسعه Deepseek-V2 معرفی شده و بعداً در Deepseek-V3 نیز پذیرفته شده است.

پیش زمینه ما با بررسی توجه چند سر استاندارد (MHA) شروع می کنیم و نیاز به حافظه نهان کلیدی (KV) را در هنگام استنتاج توضیح می دهیم. سپس ما بررسی می کنیم که چگونه MQA (توجه چند پرس و جو) و GQA (توجه گروه بندی شده) هدف بهینه سازی حافظه و کارآیی محاسباتی است. سرانجام ، ما در مورد چگونگی ادغام طناب (تعبیه موقعیت دوار) اطلاعات موقعیتی را در مکانیسم توجه قرار می دهیم. توجه نهفته سر یک معرفی عمیق برای MLA ، پوشش انگیزه های اصلی آن ، نیاز به طناب جداشده و چگونگی بهبود عملکرد در مقایسه با مکانیسم توجه سنتی.

برای درک بهتر MLA و ساختن … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/deepseek-v3-explained-part-1-understanding-multi-head-latent-attention

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *