Deepseek-V3 قسمت 2: Deepseekmoe | به سمت هوش مصنوعی


نویسنده (ها): نهدی

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

این مقاله دومین ورودی در سری Deepseek-V3 ما است ، با تمرکز بر پیشرفت معماری محوری در مدل های Deepseek [1, 2, 3]: Deepseekmoe [4]بشر

vegapunk №02 یک شخصیت یک قطعه تولید شده با chatgpt

در این مقاله ، ما بررسی خواهیم کرد که چگونه عملکردهای مخلوط (MOE) عملکرد می کند ، چرا محبوبیت خود را به دست آورده است LLMS، و چالش هایی که ارائه می دهد. ما همچنین تعادل بین تخصصی تخصصی و به اشتراک گذاری دانش را بررسی خواهیم کرد ، و اینکه چگونه DeepSeekmoe قصد بهینه سازی این تجارت را دارد.

و بهترین بخش: برای اینکه این مفاهیم بصری تر شود ، ما با استفاده از یک قیاس رستوران ، همه آن را تجزیه می کنیم و هر عنصر را در MOE از طریق نقش سرآشپزها در یک آشپزخانه نشان می دهیم.

در صورت علاقه به سایر مقالات سریال Deepseek ، در اینجا پیوندها وجود دارد:

قسمت 1: توجه نهفته چند سر

فهرست مطالب این مقاله:

سابقه و هدف: عملکرد MOE را معرفی کنید ، مزایای آن و چالش های آن را برجسته کنید ، ضمن اینکه به تجارت بین تخصصی و به اشتراک گذاری دانش نیز پرداخته است. معماری DEEPSEEKMOE: مفاهیم تقسیم بندی متخصص ریز و درشت را توصیف کنید.

در زمینه LLMS، MOE معمولاً شامل جایگزینی لایه FFN در معماری ترانسفورماتور با یک لایه MOE است ، همانطور که در شکل زیر نشان داده شده است.

شکل 1. تصویر MOE … وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/deepseek-v3-part-2-deepseekmoe