تقطیر دانش سریعتر با استفاده از اختلاط آگاهی از عدم قطعیت

نویسنده(های): تاتا گانش

در ابتدا منتشر شد به سمت هوش مصنوعی.

در این مقاله مقاله ای با عنوان تقطیر دانش کارآمد محاسباتی از طریق آمیختگی عدم قطعیت-آگاه بررسی خواهیم کرد. [1]، که هدف آن کاهش هزینه محاسباتی مرتبط با تقطیر دانش مدل های بینایی کامپیوتری است.

سلب مسئولیت: پیش نویس arxiv این مقاله در سال 2020 منتشر شد، بنابراین برخی از مدل های معلم ذکر شده در نتایج، مدل های کوچکی با استانداردهای امروزی هستند.

تقطیر دانش

تقطیر دانش (KD) فرآیند انتقال یادگیری از یک مدل بزرگتر (به نام معلم) به یک مدل کوچکتر (به نام دانش آموز) است. برای ایجاد مدل‌های فشرده‌ای که می‌توانند در محیط‌های محدود به منابع اجرا شوند، استفاده می‌شود. علاوه بر این، KD در مقایسه با مدلی که از ابتدا آموزش داده شده است، مدل دقیق تری ارائه می دهد. در مقاله تقطیر دانش اصلی توسط هینتون و همکاران. [2]مدل دانش آموز با استفاده از لجیت های خروجی از مدل معلم برای هر نمونه آموزشی آموزش داده می شود. برچسب‌های حقیقت زمینی نیز در صورت موجود بودن در طول آموزش گنجانده می‌شوند. این فرآیند در زیر نشان داده شده است.

هزینه محاسباتی تقطیر دانش

ابتدا، اجازه دهید عملیات مختلف ممیز شناور را تعریف کنیم که به هزینه محاسباتی KD کمک می کند. توجه داشته باشید که این عملیات تعریف شده است در هر تصویر.
افₜ = پاس رو به جلو معلم (برای دریافت لاجیت خروجی از مدل معلم)
افₛ = مجوز دانشجویی (برای دریافت لاجیت خروجی از مدل دانشجویی)
بₛ = پاس برگشتی دانشجویی (برای به‌روزرسانی وزن‌های مدل دانشجویی)

تفکیک فرآیند KD معمولی برای یک مینی دسته از تصاویر N به شرح زیر است:

یک دسته کوچک از N تصاویر از طریق مدل های معلم و دانش آموز منتقل می شود. هزینه این پاس فوروارد است افₜ + افₛ.
یک افت تقطیر بین مدل های معلم و دانش آموز برای لایه های مختلف اعمال می شود.
وزن های مدل دانش آموز در طول پاس به عقب به روز می شوند. هزینه این پاس به عقب است بₛ.
توجه داشته باشید: از آنجایی که مدل معلم بسیار بزرگتر از مدل دانش آموز است، می توانیم فرض کنیم که Fₜ >> Fₛ، Fₜ >> Bₛ و Fₛ = Bₛ.

این فرآیند را می توان با استفاده از شکل زیر خلاصه کرد:

از این رو، هزینه کل KD برای یک مینی دسته از تصاویر N برابر است با:

کاهش تعداد تصاویر ارسال شده به مدل معلم می تواند منجر به کاهش کلی هزینه محاسباتی KD شود. بنابراین، چگونه می‌توانیم تصاویری از هر دسته کوچک نمونه‌برداری کنیم تا هزینه مربوط به عملیات پاس رو به جلو مدل معلم را کاهش دهیم؟ کاتاروپولوس و همکاران [4] ادعا می کنند که تمام نمونه ها در a مجموعه داده برای آموزش شبکه های عصبی به یک اندازه مهم نیستند. آنها یک تکنیک نمونه گیری مهم را برای تمرکز محاسبات بر روی مثال های “آموزنده” در طول آموزش پیشنهاد می کنند. به همین ترتیب، اهمیت یا آموزنده بودن مثال‌ها در یک دسته کوچک می‌تواند برای نمونه‌برداری فقط از نمونه‌های آموزنده و انتقال آنها به مدل معلم استفاده شود. در بخش بعدی به نحوه انجام این نمونه گیری توسط روش پیشنهادی به نام یونیکس می پردازیم.

mIXup آگاه از عدم قطعیت (UNIX)

ترتیب مراحل برای هر مینی بچ در یونیکس به شرح زیر است:

مرحله 1: پاس رو به جلو دانش آموز
هر دسته کوچک از تصاویر به مدل دانش آموز داده می شود تا احتمالات کلاس پیش بینی شده برای هر تصویر را بدست آورد.

مرحله 2: برآورد عدم قطعیت
برای هر تصویر، از احتمالات پیش‌بینی‌شده برای ایجاد تخمین عدم قطعیت استفاده می‌شود. مقدار عدم قطعیت به طور ضعیف، اطمینان پیش‌بینی مدل دانشجو را برای هر تصویر نشان می‌دهد. هر چه عدم قطعیت بیشتر باشد، اعتماد به نفس کمتری دارد. بر اساس ادبیات یادگیری فعال [5]، می توان از عدم قطعیت استفاده کرد میزان اطلاع رسانی را برآورد کنید از هر تصویر به عنوان مثال، نویسندگان استفاده می کنند آنتروپی از مدل دانشجویی پیش بینی شده است توزیع احتمال برای تعیین کمیت عدم قطعیت

کمی سازی عدم قطعیت با استفاده از آنتروپی [1]

مرحله 3: مخلوط کردن و مرتب کردن دسته کوچک
سپس دسته کوچک به ترتیب کاهش عدم قطعیت نمونه مرتب می شود. اجازه دهید دسته کوچک مرتب شده را نام ببریم Bsorted. علاوه بر این، مینی دسته اصلی مخلوط می شود. اجازه دهید مینی دسته‌ای مخلوط شده را نام ببریم به هم ریخته.

مرحله 4: اختلاط آگاه از عدم قطعیت
مخلوط کردن [6] یک تکنیک افزایش داده است که ترکیبی محدب از دو تصویر و برچسب های مربوط به آنها را در یک دسته کوچک انجام می دهد. نشان داده شده است که Mixup تعمیم شبکه های عصبی را بهبود می بخشد.

Mixup Data Augmentation [6]. λ برای کنترل بزرگی مخلوط کردن استفاده می شود.

نویسندگان پیشنهاد می کنند که از mixup به عنوان راهی برای فشرده سازی اطلاعات از دو تصویر به یک تصویر استفاده شود، سپس تصویر ترکیبی به مدل های معلم و دانش آموز برای KD داده شود. ترکیبی از نظر عنصر بین تصاویر در Bsorted و Bshuffled انجام می شود. به طور مشخص،

اینجا، ج یک عامل تصحیح است که تابعی از عدم قطعیت هر نمونه است. c تضمین می کند که مخلوط برای نمونه های نامشخص ملایم و برای نمونه های مطمئن قوی است. توجه داشته باشید که برچسب ها مخلوط نمی شوند.

مرحله 5: نمونه گیری و پاس رو به جلو معلم
پس از انجام میکس آپ، k تصویر از N تصویر ترکیبی نمونه برداری می شود. این k تصاویر ترکیبی به عنوان ورودی به مدل های معلم و دانش آموز برای KD داده می شود.

مقایسه هزینه های محاسباتی

موردی را در نظر بگیرید که در آن اندازه دسته N = 64 و k = 40 است. سپس، هزینه محاسباتی یک پاس رو به جلو برای یک دسته کوچک با و بدون UNIX است (توجه داشته باشید که هزینه نهایی با توجه به مدل دانشجویی بیان می شود):

مثالی از هزینه محاسبه KD با و بدون یونیکس. شکل توسط نویسنده.

در مثال ما، KD با یونیکس a را به دست می‌دهد ~ 25٪ کاهش هزینه محاسباتی، بهبود کارایی محاسباتی فرآیند تقطیر.

نتایج

نتایج CIFAR-100
نتایج معماری مدل های مختلف در CIFAR-100 [2] مجموعه داده های طبقه بندی تصویر در زیر نشان داده شده است.

در بیشتر موارد، عملکرد UNIXKD برابر با KD اصلی است. به طور مشخص، UNIXKD با k=36 تعادل خوبی بین دقت و هزینه محاسباتی فراهم می کند. علاوه بر این، نمونه گیری تصادفی با KD (تصادفی + KD) برای تمام معماری‌های مدل عملکردی برابر یا بدتر از UNIXKD دارد و اهمیت نمونه‌گیری مبتنی بر عدم قطعیت را در بهبود کارایی محاسباتی با حداقل کاهش دقت برجسته می‌کند.

نتایج ImageNet
نتایج در ImageNet [8] مجموعه داده در زیر نشان داده شده است.

ستون های دارای “+label” KD را با برچسب های حقیقت پایه مشخص می کنند. برای آزمایش‌ها با و بدون برچسب‌های حقیقت زمینی، UNIXKD همتراز با KD اصلی عمل می‌کند در حالی که هزینه محاسباتی کل را کاهش می‌دهد. ~ 23٪.

نتیجه گیری

تقطیر دانش تکنیکی است که برای انتقال دانش یک مدل معلم بزرگ به مدل دانش آموز کوچک استفاده می شود. با این حال، هزینه محاسباتی بالای انجام یک گذر از طریق مدل معلم، فرآیند تقطیر را از نظر محاسباتی گران می‌کند. برای مقابله با این مشکل، mIXup آگاه از عدم قطعیت (UNIX) از نمونه گیری عدم قطعیت و تکنیک تقویت مخلوط برای ارسال تعداد کمتری از تصاویر به مدل معلم استفاده می کند. آزمایش‌ها بر روی مجموعه داده‌های CIFAR 100 و ImageNet نشان می‌دهد که یونیکس می‌تواند هزینه محاسباتی تقطیر دانش را با حداقل کاهش در عملکرد طبقه‌بندی تا 25 درصد کاهش دهد.

مراجع

[1] G. Xu، Z. Liu و C. Change Loy. تقطیر دانش کارآمد محاسباتی از طریق Uncertainty-Aware (2020)، arXiv preprint arXiv:2012.09413.

[2] G. Hinton، O. Vinyals و J. Dean. تقطیر دانش در یک شبکه عصبی (2015)، پیش چاپ arXiv arXiv:1503.02531.

[3] A. Krizhevsky و G. Hinton. یادگیری چندگانه
لایه هایی از ویژگی های تصاویر کوچک (2009).

[4] A. Katharopoulos و F. Fleuret. نه همه یکسان –
افراد مساوی ایجاد می شوند: یادگیری عمیق با اهمیت
پیل کردن (2018)، کنفرانس بین المللی در یادگیری ماشینی. PMLR.

[5] ب. مستقر می شود. بررسی ادبیات یادگیری فعال (2010)، دانشگاه ویسکانسین، مدیسون، 52 (55-66): 11.

[6] H. Zhang، M. Cisse، Y. Dauphin و D. Lopez-Paz. مخلوط کردن: فراتر از
به حداقل رساندن ریسک تجربی (2018)، ششمین کنفرانس بین المللی بازنمایی های یادگیری.

[7] S. Zagoruyko و N. Komodakis. شبکه های باقیمانده گسترده (2017)، پیش چاپ arXiv arXiv:1605.07146.

[8] جی دنگ، دبلیو دانگ، آر. سوچر، ال. لی، کای لی و لی فی فی. Imagenet: پایگاه داده تصویر سلسله مراتبی در مقیاس بزرگ (2009)، کنفرانس IEEE در بینایی کامپیوتری و تشخیص الگو.

منتشر شده از طریق به سمت هوش مصنوعی

منبع: https://towardsai.net/p/machine-learning/faster-knowledge-distillation-using-uncertainty-aware-mixup