نویسنده (ها): نهدی
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
این مقاله دومین ورودی در سری Deepseek-V3 ما است ، با تمرکز بر پیشرفت معماری محوری در مدل های Deepseek [1, 2, 3]: Deepseekmoe [4]بشر
در این مقاله ، ما بررسی خواهیم کرد که چگونه عملکردهای مخلوط (MOE) عملکرد می کند ، چرا محبوبیت خود را به دست آورده است LLMS، و چالش هایی که ارائه می دهد. ما همچنین تعادل بین تخصصی تخصصی و به اشتراک گذاری دانش را بررسی خواهیم کرد ، و اینکه چگونه DeepSeekmoe قصد بهینه سازی این تجارت را دارد.
و بهترین بخش: برای اینکه این مفاهیم بصری تر شود ، ما با استفاده از یک قیاس رستوران ، همه آن را تجزیه می کنیم و هر عنصر را در MOE از طریق نقش سرآشپزها در یک آشپزخانه نشان می دهیم.
در صورت علاقه به سایر مقالات سریال Deepseek ، در اینجا پیوندها وجود دارد:
قسمت 1: توجه نهفته چند سر
فهرست مطالب این مقاله:
سابقه و هدف: عملکرد MOE را معرفی کنید ، مزایای آن و چالش های آن را برجسته کنید ، ضمن اینکه به تجارت بین تخصصی و به اشتراک گذاری دانش نیز پرداخته است. معماری DEEPSEEKMOE: مفاهیم تقسیم بندی متخصص ریز و درشت را توصیف کنید.
در زمینه LLMS، MOE معمولاً شامل جایگزینی لایه FFN در معماری ترانسفورماتور با یک لایه MOE است ، همانطور که در شکل زیر نشان داده شده است.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/deepseek-v3-part-2-deepseekmoe