نویسنده(های): تاتا گانش
در ابتدا منتشر شد به سمت هوش مصنوعی.
در این مقاله مقاله ای با عنوان تقطیر دانش کارآمد محاسباتی از طریق آمیختگی عدم قطعیت-آگاه بررسی خواهیم کرد. [1]، که هدف آن کاهش هزینه محاسباتی مرتبط با تقطیر دانش مدل های بینایی کامپیوتری است.
سلب مسئولیت: پیش نویس arxiv این مقاله در سال 2020 منتشر شد، بنابراین برخی از مدل های معلم ذکر شده در نتایج، مدل های کوچکی با استانداردهای امروزی هستند.
تقطیر دانش
تقطیر دانش (KD) فرآیند انتقال یادگیری از یک مدل بزرگتر (به نام معلم) به یک مدل کوچکتر (به نام دانش آموز) است. برای ایجاد مدلهای فشردهای که میتوانند در محیطهای محدود به منابع اجرا شوند، استفاده میشود. علاوه بر این، KD در مقایسه با مدلی که از ابتدا آموزش داده شده است، مدل دقیق تری ارائه می دهد. در مقاله تقطیر دانش اصلی توسط هینتون و همکاران. [2]مدل دانش آموز با استفاده از لجیت های خروجی از مدل معلم برای هر نمونه آموزشی آموزش داده می شود. برچسبهای حقیقت زمینی نیز در صورت موجود بودن در طول آموزش گنجانده میشوند. این فرآیند در زیر نشان داده شده است.
هزینه محاسباتی تقطیر دانش
ابتدا، اجازه دهید عملیات مختلف ممیز شناور را تعریف کنیم که به هزینه محاسباتی KD کمک می کند. توجه داشته باشید که این عملیات تعریف شده است در هر تصویر.
افₜ = پاس رو به جلو معلم (برای دریافت لاجیت خروجی از مدل معلم)
افₛ = مجوز دانشجویی (برای دریافت لاجیت خروجی از مدل دانشجویی)
بₛ = پاس برگشتی دانشجویی (برای بهروزرسانی وزنهای مدل دانشجویی)
تفکیک فرآیند KD معمولی برای یک مینی دسته از تصاویر N به شرح زیر است:
- یک دسته کوچک از N تصاویر از طریق مدل های معلم و دانش آموز منتقل می شود. هزینه این پاس فوروارد است افₜ + افₛ.
- یک افت تقطیر بین مدل های معلم و دانش آموز برای لایه های مختلف اعمال می شود.
- وزن های مدل دانش آموز در طول پاس به عقب به روز می شوند. هزینه این پاس به عقب است بₛ.
- توجه داشته باشید: از آنجایی که مدل معلم بسیار بزرگتر از مدل دانش آموز است، می توانیم فرض کنیم که Fₜ >> Fₛ، Fₜ >> Bₛ و Fₛ = Bₛ.
این فرآیند را می توان با استفاده از شکل زیر خلاصه کرد:
از این رو، هزینه کل KD برای یک مینی دسته از تصاویر N برابر است با:
کاهش تعداد تصاویر ارسال شده به مدل معلم می تواند منجر به کاهش کلی هزینه محاسباتی KD شود. بنابراین، چگونه میتوانیم تصاویری از هر دسته کوچک نمونهبرداری کنیم تا هزینه مربوط به عملیات پاس رو به جلو مدل معلم را کاهش دهیم؟ کاتاروپولوس و همکاران [4] ادعا می کنند که تمام نمونه ها در a مجموعه داده برای آموزش شبکه های عصبی به یک اندازه مهم نیستند. آنها یک تکنیک نمونه گیری مهم را برای تمرکز محاسبات بر روی مثال های “آموزنده” در طول آموزش پیشنهاد می کنند. به همین ترتیب، اهمیت یا آموزنده بودن مثالها در یک دسته کوچک میتواند برای نمونهبرداری فقط از نمونههای آموزنده و انتقال آنها به مدل معلم استفاده شود. در بخش بعدی به نحوه انجام این نمونه گیری توسط روش پیشنهادی به نام یونیکس می پردازیم.
mIXup آگاه از عدم قطعیت (UNIX)
ترتیب مراحل برای هر مینی بچ در یونیکس به شرح زیر است:
مرحله 1: پاس رو به جلو دانش آموز
هر دسته کوچک از تصاویر به مدل دانش آموز داده می شود تا احتمالات کلاس پیش بینی شده برای هر تصویر را بدست آورد.
مرحله 2: برآورد عدم قطعیت
برای هر تصویر، از احتمالات پیشبینیشده برای ایجاد تخمین عدم قطعیت استفاده میشود. مقدار عدم قطعیت به طور ضعیف، اطمینان پیشبینی مدل دانشجو را برای هر تصویر نشان میدهد. هر چه عدم قطعیت بیشتر باشد، اعتماد به نفس کمتری دارد. بر اساس ادبیات یادگیری فعال [5]، می توان از عدم قطعیت استفاده کرد میزان اطلاع رسانی را برآورد کنید از هر تصویر به عنوان مثال، نویسندگان استفاده می کنند آنتروپی از مدل دانشجویی پیش بینی شده است توزیع احتمال برای تعیین کمیت عدم قطعیت
مرحله 3: مخلوط کردن و مرتب کردن دسته کوچک
سپس دسته کوچک به ترتیب کاهش عدم قطعیت نمونه مرتب می شود. اجازه دهید دسته کوچک مرتب شده را نام ببریم Bsorted. علاوه بر این، مینی دسته اصلی مخلوط می شود. اجازه دهید مینی دستهای مخلوط شده را نام ببریم به هم ریخته.
مرحله 4: اختلاط آگاه از عدم قطعیت
مخلوط کردن [6] یک تکنیک افزایش داده است که ترکیبی محدب از دو تصویر و برچسب های مربوط به آنها را در یک دسته کوچک انجام می دهد. نشان داده شده است که Mixup تعمیم شبکه های عصبی را بهبود می بخشد.
نویسندگان پیشنهاد می کنند که از mixup به عنوان راهی برای فشرده سازی اطلاعات از دو تصویر به یک تصویر استفاده شود، سپس تصویر ترکیبی به مدل های معلم و دانش آموز برای KD داده شود. ترکیبی از نظر عنصر بین تصاویر در Bsorted و Bshuffled انجام می شود. به طور مشخص،
اینجا، ج یک عامل تصحیح است که تابعی از عدم قطعیت هر نمونه است. c تضمین می کند که مخلوط برای نمونه های نامشخص ملایم و برای نمونه های مطمئن قوی است. توجه داشته باشید که برچسب ها مخلوط نمی شوند.
مرحله 5: نمونه گیری و پاس رو به جلو معلم
پس از انجام میکس آپ، k تصویر از N تصویر ترکیبی نمونه برداری می شود. این k تصاویر ترکیبی به عنوان ورودی به مدل های معلم و دانش آموز برای KD داده می شود.
مقایسه هزینه های محاسباتی
موردی را در نظر بگیرید که در آن اندازه دسته N = 64 و k = 40 است. سپس، هزینه محاسباتی یک پاس رو به جلو برای یک دسته کوچک با و بدون UNIX است (توجه داشته باشید که هزینه نهایی با توجه به مدل دانشجویی بیان می شود):
در مثال ما، KD با یونیکس a را به دست میدهد ~ 25٪ کاهش هزینه محاسباتی، بهبود کارایی محاسباتی فرآیند تقطیر.
نتایج
نتایج CIFAR-100
نتایج معماری مدل های مختلف در CIFAR-100 [2] مجموعه داده های طبقه بندی تصویر در زیر نشان داده شده است.
در بیشتر موارد، عملکرد UNIXKD برابر با KD اصلی است. به طور مشخص، UNIXKD با k=36 تعادل خوبی بین دقت و هزینه محاسباتی فراهم می کند. علاوه بر این، نمونه گیری تصادفی با KD (تصادفی + KD) برای تمام معماریهای مدل عملکردی برابر یا بدتر از UNIXKD دارد و اهمیت نمونهگیری مبتنی بر عدم قطعیت را در بهبود کارایی محاسباتی با حداقل کاهش دقت برجسته میکند.
نتایج ImageNet
نتایج در ImageNet [8] مجموعه داده در زیر نشان داده شده است.
ستون های دارای “+label” KD را با برچسب های حقیقت پایه مشخص می کنند. برای آزمایشها با و بدون برچسبهای حقیقت زمینی، UNIXKD همتراز با KD اصلی عمل میکند در حالی که هزینه محاسباتی کل را کاهش میدهد. ~ 23٪.
نتیجه گیری
تقطیر دانش تکنیکی است که برای انتقال دانش یک مدل معلم بزرگ به مدل دانش آموز کوچک استفاده می شود. با این حال، هزینه محاسباتی بالای انجام یک گذر از طریق مدل معلم، فرآیند تقطیر را از نظر محاسباتی گران میکند. برای مقابله با این مشکل، mIXup آگاه از عدم قطعیت (UNIX) از نمونه گیری عدم قطعیت و تکنیک تقویت مخلوط برای ارسال تعداد کمتری از تصاویر به مدل معلم استفاده می کند. آزمایشها بر روی مجموعه دادههای CIFAR 100 و ImageNet نشان میدهد که یونیکس میتواند هزینه محاسباتی تقطیر دانش را با حداقل کاهش در عملکرد طبقهبندی تا 25 درصد کاهش دهد.
مراجع
[1] G. Xu، Z. Liu و C. Change Loy. تقطیر دانش کارآمد محاسباتی از طریق Uncertainty-Aware (2020)، arXiv preprint arXiv:2012.09413.
[2] G. Hinton، O. Vinyals و J. Dean. تقطیر دانش در یک شبکه عصبی (2015)، پیش چاپ arXiv arXiv:1503.02531.
[3] A. Krizhevsky و G. Hinton. یادگیری چندگانه
لایه هایی از ویژگی های تصاویر کوچک (2009).
[4] A. Katharopoulos و F. Fleuret. نه همه یکسان –
افراد مساوی ایجاد می شوند: یادگیری عمیق با اهمیت
پیل کردن (2018)، کنفرانس بین المللی در یادگیری ماشینی. PMLR.
[5] ب. مستقر می شود. بررسی ادبیات یادگیری فعال (2010)، دانشگاه ویسکانسین، مدیسون، 52 (55-66): 11.
[6] H. Zhang، M. Cisse، Y. Dauphin و D. Lopez-Paz. مخلوط کردن: فراتر از
به حداقل رساندن ریسک تجربی (2018)، ششمین کنفرانس بین المللی بازنمایی های یادگیری.
[7] S. Zagoruyko و N. Komodakis. شبکه های باقیمانده گسترده (2017)، پیش چاپ arXiv arXiv:1605.07146.
[8] جی دنگ، دبلیو دانگ، آر. سوچر، ال. لی، کای لی و لی فی فی. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ (2009)، کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو.
منتشر شده از طریق به سمت هوش مصنوعی