نویسنده (ها): SIGURD ROLL SOLBERG
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
مقدمه
یک شبکه عصبی چه چیزی دارد واقعاً یاد بگیرید؟
هر یادگیری ماشین مدل ، عمیق یا کم عمق ، با جستجو در “فضای فرضیه” یاد می گیرد – مجموعه ای از کارکردهایی که می تواند در اصل نشان دهد. اما این فضا قلمرو خنثی نیست. حک شده و توسط دو نیرو وزن می شود: معماری وت منظم سازیبشر
- در معماری تعریف کردن چه می تواند بیان شود
- منظم سازی تعریف کردن چگونه به احتمال زیاد مناطق مختلف این فضا مورد بررسی یا اعتماد قرار می گیرند.
این یک مشاهده جدید نیست. اما هرچه مدل ها بیانگر و خاص تر از برنامه ها رشد می کنند ، درک چگونه این دو عنصر در تعامل نه تنها دانشگاهی می شوند – بلکه بنیادی برای طراحی مدل هوشمند است.
هدف ما در این پست جدی گرفتن این سؤال است. ما بررسی خواهیم کرد که چگونه معماری های عصبی مختلف هندسه را مجسمه می کنند و رشته شناسی از فضاهای فرضیه ، و اینکه چگونه می توان تنظیم مجدد را نه تنها به عنوان یک محدودیت بلکه به عنوان یک طرح اولویت بندی مشاهده کرد – راهی برای تأکید بر “مناطق” خاص از فضای فرضیه بر دیگران. با تغییر دادن مشکل از نظر هندسی ، هدف ما ایجاد شهود برای چه مدل هایی است ترجیح دادن برای یادگیری ، و چرا.
اکتشاف
1. یک داستان از دو زبان آموز
دو شبکه عصبی را که در همان داده ها آموزش دیده اند تصور کنید. یکی MLP کم عمق است. دیگری شبکه عصبی حلقویبشر هر دو به خطای آموزش کم همگرا می شوند. هنوز آنها رفتار تعمیم تفاوت چشمگیری دارد.
چرا؟
زیرا حتی اگر هر دو معماری اساسی “تقریبی جهانی” باشند ، شکل فضاهای فرضیه آنها متفاوت است MLP هیچ مفهومی در مورد محل یا تغییر ترجمه ترجمه ندارد. این باید چنین تعصبات القایی را از ابتدا بیاموزد. در CNNدر مقابل ، با یک هندسه شروع می شود: مکان مکانی در آن پخته می شود.
این تفاوت نه تنها تغییر در چه توابع قابل نمایش هستند ، اما در چقدر آسان است برای بهینه ساز برای یافتن و ترجیح راه حل های خاص. معماری نه فقط یک مرز در اطراف فضا بلکه الف را تعریف می کند چشم انداز با وزن شیب بیش از آن
2. از توابع گرفته تا منیفولدها
برای درست کردن این موضوع ، از فضای فرضیه به عنوان یک مانیفولد تعبیه شده در یک فضای عملکرد بزرگتر فکر کنید. یک معماری حکاکی می کند زیرزمین توابع آن می تواند بیان کند. اما این یک سطح مسطح و یکنواخت نیست. دارد:
- انحراف: دستیابی به برخی از کارکردها آسانتر است (انحنای پایین) ، برخی دیگر سخت تر (شیب دار شیب، ترکیبات پیچیده).
- حجم: برخی از کلاس های عملکرد “فضای” بیشتری را اشغال می کنند-به عنوان مثال ، شبکه های کم عمق عملکردهای خطی یا با فرکانس پایین را به راحتی مدل می کنند.
- رشته شناسی: برخی از معماری ها تداوم یا تقارن را که برخی دیگر انجام نمی دهند ، اعمال می کنند.
این ما را به هندسی می رساند یادگیری عمیق لنز: مقدمات معماری شکل را شکل می دهد متریک وت رشته شناسی از فضای فرضیه [2]بشر CNN ها از توابع ترجمه ای متفکر استفاده می کنند. GNN به نفع تغییر ناتوانی است. ترانسفورماتور؟ تعامل جهانی با توجه به وزن.
بهینه ساز تمام فضای عملکرد را کشف نمی کند – در امتداد این منیفولد منحنی و ساختار یافته تعریف شده توسط معماری جریان دارد.
3. منظم سازی به عنوان یک اندازه گیری در مورد فضای فرضیه
اکنون وارد منظم شوید. در شکل کلاسیک خود (به عنوان مثال ، L2 Norm) ، اغلب به عنوان پیچیدگی مجازات تعبیر می شود. اما این دیدگاه محدود است. عمیق تر ، منظم سازی تعریف می کند اندازه در طول فضای فرضیه – راهی برای گفتن: “این کارکردها محتمل تر هستند. این موارد مشکوک هستند.”
به عنوان مثال ، ترک تحصیل به واحدهای خاص اعتماد می کند و به نفع بازنمایی های توزیع شده تر است. تنظیم تنظیم هنجار طیفی ، تداوم لیپشیتز را محدود می کند ، و به سمت عملکردهای صاف تر. شبکه های عصبی بیزی این ایده را صریح می کنند: وزن قبلی بیش از حد عملکردهای قبلی را القا می کند.
با این روش ، منظم سازی محدودیتی برای یادگیری نیست – این یک است نیروی شکلبشر این چشم انداز انرژی را مجسمه می کند. این تغییر می کند که بهینه ساز دره به احتمال زیاد در آن مستقر می شود.
این امر به ویژه هنگامی که متوجه می شویم که منظم و معماری های مختلف ممکن است جالب باشد غیرخطیبشر یک تنظیم کننده که تعمیم در یک معماری را بهبود می بخشد ، ممکن است آن را در دیگری آسیب برساند ، فقط به این دلیل که فضای فرضیه اساسی متفاوت منحنی یا تشکیل شده است.
وضوح
یک قاب هندسی از تعصب یادگیری
بیایید ادعای اصلی را تیز کنیم:
یادگیری فرایندی برای حرکت در امتداد یک منیفولد ساختاری است که توسط معماری تعریف شده است ، به دنبال یک میدان جریان که به صورت منظم شکل می گیرد ، در دستیابی به یک حالت کم انرژی تعریف شده توسط عملکرد از دست دادن.
در این قاب بندی:
- معماری تعریف می کند چند برابر از توابع مدل می تواند بیان کند – زمینی که یادگیری در آن اتفاق می افتد.
- منظم سازی تحمیل تراکم یا میدان بالقوه در طول این زمین – برخی از جهات آسان تر می شوند ، برخی سخت تر.
- عملکرد از دست دادن تعریف می کند چشم انداز انرژی – این به ما می گوید دره ها کجا قرار دارند ، جایی که مدل باید حل شود.
الگوریتم بهینه سازی – معمولاً نزول شیب – به عنوان ناوبری عمل می کند. اما تمام فضای عملکرد را طی نمی کند. در امتداد این منیفولد ، مغرضانه با تنظیم ، به سمت مناطقی با از دست دادن کم جریان می یابد.
این چشم انداز تعمیم نه به عنوان همگرایی صرف ، بلکه به عنوان یک نزول تعصب بر روی یک منیفولد خمیده، جایی که هم هندسه و هم ترجیح نتیجه نهایی را شکل می دهند.
پایان
طراحی با هندسه در ذهن
اگر آن معماری و منظم سازی را به طور مشترک بپذیریم ، فضای فرضیه را شکل می دهد ، چندین بینش استراتژیک در زیر آمده است:
- انتخاب های معماری باید نه فقط با عملکرد تجربی بلکه با درک هدایت شود چه نوع چند برابر آنها القا می کنند. هندسه اهمیت دارد.
- استراتژی های منظم باید به معماری تنظیم شود – نه فقط از نظر Hyperparameter ، بلکه از نظر فلسفی: ما از چه نوع عملکردی طرفداری می کنیم؟
- تحقیقات آینده ممکن است از خصوصیات صریح این منیفولدها بهره مند شود: آیا می توانیم تعصب ضمنی مدلهای مختلف را نقشه برداری کنیم یا حتی بین فضاهای فرضیه همبستگی کنیم؟
شاید بیشتر تحریک آمیز: ممکن است بخواهیم معماری ها و منظم را طراحی کنیم در پشت سر هم، به عنوان ابزارهای مکمل در مجسمه سازی چشم انداز عملکردی مدل.
این فراخوانی برای رها کردن روشهای تجربی نیست. اما این فراخوانی برای تزریق آنها با آگاهی هندسی و احتمالی است. نه تنها از نظر عملکرد بلکه از اولویت – آنچه مدل های ما مستعد یادگیری هستند و چرا.
اگر هندسی باشد یادگیری عمیق به ما آموخت که داده ها بر روی یک منیفولد زندگی می کنند ، پس شاید درس بعدی این باشد: بنابراین مدل های ما را نیز انجام دهید.
منابع
- [1] Poggio و همکاران ، “تئوری یادگیری عمیق III: توضیح پازل غیر همپوشانی”
- [2] برونشتاین و همکاران ، “یادگیری عمیق هندسی: شبکه ها ، گروه ها ، نمودارها ، ژئودزیک و سنج”
منتشر شده از طریق به سمت هوش مصنوعی