gptfa - GPT فارسی - صفحه 72 از 292

ترکیبی از معماری متخصصان در مدل های ترانسفورماتور

جولای 1, 2025 از gptfa

این پست سه حوزه اصلی را در بر می گیرد: • چرا مخلوط متخصصان در ترانسفورماتورها مورد نیاز است • نحوه کارآیی متخصصان • اجرای MOE در مدل های ترانسفورماتور مفهوم مخلوط متخصصان (MOE) برای اولین بار در سال 1991 توسط

اولین پروژه محلی LLM API شما در مرحله به مرحله پایتون

ژوئن 30, 2025 از gptfa

علاقه مند به استفاده از یک مدل بزرگ زبان (LLM) به صورت محلی در دستگاه خود با استفاده از فریم ورکهای ابزارهای نه چندان زیاد نیست؟ در این مقاله گام به گام ، شما یک API محلی را تنظیم می کنید که در آن قادر خواهید بود به LLM بارگیری شده در دستگاه خود ارسال … ادامه

لایه های خطی و توابع فعال سازی در مدل های ترانسفورماتور

ژوئن 30, 2025 از gptfa

این پست به سه قسمت تقسیم می شود. آنها عبارتند از: • چرا لایه ها و فعال سازی های خطی در ترانسفورماتورها مورد نیاز است • طراحی معمولی شبکه تغذیه رو به جلو • تغییرات توابع فعال سازی لایه توجه عملکرد اصلی یک مدل ترانسفورماتور است. منبع: machinelearningmastery.com

Layernorm و RMS Norm در مدل های ترانسفورماتور

ژوئن 28, 2025 از gptfa

این پست به پنج قسمت تقسیم می شود. آنها عبارتند از: • چرا نیاز به عادی سازی در ترانسفورماتورها • Layernorm و اجرای آن • کرم لایه ای تطبیقی • هنجار RMS و اجرای آن • استفاده از لایه های عادی سازی داخلی Pytorch ، کیفیت مدل را در یادگیری عمیق بهبود می بخشد. منبع: … ادامه

قفل عملکرد: شتاب دادن عملیات پاندا با لهستان

ژوئن 26, 2025 از gptfa

مقدمه ای ملایم برای توجه چند سر و توجه گروهی

ژوئن 26, 2025 از gptfa

این پست به سه قسمت تقسیم می شود. آنها عبارتند از: • چرا توجه مورد نیاز است • عملکرد توجه • توجه چند سر (MHA) • توجه گروهی (GQA) و توجه چند ضلعی (MQA) شبکه های عصبی سنتی با وابستگی های دوربرد در توالی می جنگند. منبع: machinelearningmastery.com

تبدیل DataFrames Pandas به Dataloaders Pytorch برای آموزش مدل یادگیری عمیق سفارشی

ژوئن 26, 2025 از gptfa

Pandas DataFrames ابزارهای دستکاری و تجزیه و تحلیل داده های قدرتمند و همه کاره هستند. منبع: machinelearningmastery.com

مقدمه ای ملایم برای توجه نهفته چند سر (MLA)

ژوئن 26, 2025 از gptfa

این پست به سه قسمت تقسیم می شود. آنها عبارتند از: • تقریب کم از ماتریس • توجه نهفته چند سر (MLA) • اجرای Pytorch توجه چند سر (MHA) و توجه گروهی (GQA) مکانیسم های توجه مورد استفاده تقریباً در تمام مدلهای ترانسفورماتور هستند. منبع: machinelearningmastery.com

10 اصطلاحات اصلی یادگیری ماشین توضیح داده شده

ژوئن 26, 2025 از gptfa

هوش مصنوعی (AI) یک رشته علوم کامپیوتر چتر است که بر روی ساخت سیستم های نرم افزاری متمرکز است که قادر به تقلید از قابلیت های هوش انسانی یا حیوانات برای حل یک کار است. منبع: machinelearningmastery.com

مقدمه ای ملایم برای توجه به توجه در مدل های ترانسفورماتور

ژوئن 26, 2025 از gptfa

این پست به چهار قسمت تقسیم می شود. آنها عبارتند از: • چرا ماسک توجه مورد نیاز است • اجرای ماسک های توجه • ایجاد ماسک • با استفاده از توجه داخلی Pytorch در