نویسنده (ها): یو چنگ تسای
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
انجام تنظیم دقیق (SFT) در مدل های مقطر Deepseek R1 با داده های دامنه شما
این داستان فقط عضو بر ما است. برای دسترسی به همه رسانه ها ارتقا دهید.
R1 Deepseek و مدل های مقطر آن چیست؟
Deepseek یک مدل استدلال بزرگ (671B ، 37B پارامترهای فعال شده ، معماری MOE) ، Deepseek-R1 را منتشر کرده است ، قابل مقایسه با O1 Openai است. با این حال ، Deepseek-R1 با دقت مختلط FP8 آموزش داده و آزاد شد ، همانطور که در بالا نشان داده شده برای GPU های سری قیف Nvidia بهینه شد. اگر به این GPU ها دسترسی ندارید ، تبدیل مدل از FP8 به دقت دیگر برای استفاده در سایر GPU ها (به عنوان مثال A100s) می تواند دست و پا گیر باشد. از طرف دیگر ، می توانید از VLLM برای استنتاج استفاده کنید. این موضوع راهنمایی در مورد استفاده از مدل R1 Deepseek را ارائه می دهد. لطفا توجه داشته باشید ، این سبک نیست! خوشبختانه ، به همراه Deepseek R1 ، چند مدل مقطر در HuggingFace منتشر می شوند. فرایند تقطیر را به عنوان تدریس فکر کنید: یک الگوی بزرگتر و پیچیده تر (معلم) دانش خود را به یک الگوی کوچکتر و کارآمدتر (دانش آموز) منتقل می کند. در این حالت ، Deepseek-R1 معلم است که به دلیل مهارت های استدلال پیشرفته شناخته شده است. مدل های دانشجویی با استفاده از داده های تولید شده توسط Deepseek-R1 ، تنظیم شده با تنظیم دقیق (SFT) انجام می شوند و آنها را قادر می سازد تا از الگوهای استدلال معلم تقلید کنند.
چرا از مدل های مقطر استفاده می کنیم؟
استدلال پیشرفته وبلاگ کامل را به صورت رایگان در رسانه بخوانیدبشر
منتشر شده از طریق به سمت هوش مصنوعی