یادگیری خود سنجی: موتور پشت جنرال هوش مصنوعی


نویسنده (ها): لوهوی هو

در ابتدا منتشر شده در به سمت هوش مصنوعیبشر

معماری معمولی SSL

مقدمه: ظهور یادگیری خود سنج

در سالهای اخیر ، یادگیری خود سنجی (SSL) به عنوان یک الگوی محوری در ظاهر شده است یادگیری ماشین، امکان یادگیری مدل ها از داده های بدون برچسب با تولید سیگنال های نظارتی خود. این رویکرد به طور قابل توجهی وابستگی به برچسب های بزرگ را کاهش داده است مجموعه داده ها، سرعت بخشیدن به پیشرفت در حوزه های مختلف هوش مصنوعی.

درک یادگیری خودبوش

SSL زیر مجموعه ای از یادگیری بدون نظارت جایی که سیستم یاد می گیرد که داده ها را با آموزش خود درک و تفسیر کند. بر خلاف یادگیری نظارت شده ، که به مجموعه داده های دارای برچسب متکی است ، الگوریتم های SSL برچسب های خود را از داده های ورودی تولید می کنند و به مدل ها امکان می دهند از ساختار ذاتی داده ها برای یادگیری بازنمایی های مفید بدون برچسب های ارائه شده انسان استفاده کنند.

تاریخچه مختصری از SSL

مفهوم SSL به روزهای اولیه باز می گردد یادگیری ماشینبشر در سال 2006 ، جفری هینتون ایده شبکه های عصبی قبل از آموزش را با استفاده از یادگیری بدون نظارت و ایجاد زمینه برای SSL معرفی کرد. با این حال ، تا دهه 2010 نگذشت که SSL با توسعه مدل هایی مانند ، کشش قابل توجهی را به دست آورد Word2Vec وت برخاستن در پردازش زبان طبیعیوت سیما وت ماوراء در دید رایانه.

تکنیک های اصلی در SSL

1. یادگیری متضاد

یادگیری متضاد شامل یادگیری بازنمایی با مقایسه جفت های مشابه و متفاوت از داده ها است. این مدل آموزش داده شده است تا نقاط داده مشابه را در فضای بازنمایی نزدیکتر کند ، در حالی که موارد متفاوت را از هم جدا می کند. این تکنیک در کارهای بینایی رایانه ای مؤثر بوده است.

2. مدل سازی نقاب دار

مدل سازی نقاب دار توسط مدلهایی مانند BERT ، شامل نقاب زدن بخش هایی از داده های ورودی و آموزش مدل برای پیش بینی قطعات مفقود شده است. این رویکرد به مدل کمک می کند تا زمینه و روابط موجود در داده ها را درک کند.

3. یادگیری پیش بینی

در یادگیری پیش بینی ، این مدل برای پیش بینی نقاط داده های آینده بر اساس ورودی های گذشته آموزش دیده است. این تکنیک به طور گسترده در تجزیه و تحلیل سری زمانی و یادگیری تقویت شده استفاده می شود.

در داخل فن آوری ها و معماری های SSL

SSL مدرن پیشرفت می کند به چقدر مدل ها می توانند ساختار اهرم در داده های بدون برچسببشر در زیر تأثیرگذارترین تکنیک ها و معماری های اساسی آنها وجود دارد.

معماری اصلی SSL

1. یادگیری متضاد

ایده اصلی: بازنمودها را با نزدیک کردن جفت های مشابه و فشرده کردن موارد متفاوت از هم بیاموزید.

مدل های قابل توجه:

  • SIMCLR (یادگیری ساده متضاد از بازنمودها)
    برای تولید جفت مثبت از همان تصویر ، از افزایش داده ها (به عنوان مثال ، محصول ، پیچ و تاب رنگ) استفاده می کند. با ضرر متضاد (NT-Xent) آموزش دیده است.
  • MOCO (کنتراست حرکت)
    یک بانک حافظه پویا و رمزگذار حرکت را برای ساختن بازنمایی های مداوم در مینی دسته ها معرفی می کند.

معماری:

  • رمزگذار ستون فقرات (به عنوان مثال ، resnet)
  • سر طرح ریزی (MLP)
  • هدف از دست دادن متضاد (Infonce یا NT-Xent)

مورد استفاده در: پیش بینی چشم انداز رایانه (RESNET/VIT) ، ماژول های ادراک روباتیک.

2.

ایده اصلی: قسمتهای ورودی را ماسک کرده و مدل را برای بازسازی آنها آموزش دهید.

مدل های قابل توجه:

  • برت (NLP)
    نشانه های نقاب دار را با استفاده از مدل های زبان مبتنی بر ترانسفورماتور پیش بینی می کند.
  • MAE (AutoEncoder ماسک برای بینایی)
    ماسک 75 ٪ از تکه های تصویر را بازسازی می کند و تصویر اصلی را از نمونه های قابل مشاهده بازسازی می کند.
  • BEIT (بازنمایی رمزگذار دو طرفه از ترانسفورماتورهای تصویر)
    برای انجام کارهای بینایی ، مدل سازی نقاب شده را با نشانه های تصویر ترکیب می کند.

معماری:

  • رمزگذار ترانسفورماتور
  • ماسکول
  • ضبط کننده بازسازی

مورد استفاده در: پیشگویی خانواده GPT ، رمزگذارهای چند حالته (Palm-E ، Flamingo) ، ماژول های برنامه ریزی FSD.

3. Bootstrap خود را نهفته (Byol ، Dino)

ایده اصلی: بازنمودها را بدون نمونه های منفی با تراز کردن خروجی از دو شبکه یاد بگیرید – یکی میانگین متحرک دیگر.

مدل های قابل توجه:

  • BYOL (Facebook AI)
    از یک شبکه آنلاین و یک شبکه هدف به آرامی به روز می کند تا پیش بینی های ویژگی را مطابقت دهد.
  • دکورا
    نقشه های توجه را ایجاد می کند که اطلاعات سطح شی را بدون نظارت ضبط می کند.

معماری:

  • دو رمزگذار (آنلاین و هدف)
  • پیش بینی و پیش بینی MLP
  • بدون از دست دادن متضاد ، فقط تطبیق شباهت

مورد استفاده در: آگاهی مکانی و یادگیری شیء محور در مدل های جهان.

4. برنامه نویسی پیش بینی و پویایی نهفته (مدل های جهانی)

ایده اصلی: بازنمایی جمع و جور از جهان را بیاموزید که می تواند حالت های نهفته آینده را پیش بینی کند.

مدل های قابل توجه:

  • DREAMERV3
    یک رمزگذار مبتنی بر VAE را با یک مدل دینامیک مکرر و یادگیری تقویت کننده ترکیب می کند.
  • مدل جهانی متا
    از یادگیری پیش بینی کننده و بازنمایی مبتنی بر انرژی برای تعامل خودمختار استفاده می کند.

معماری:

  • رمزگذار + پویایی نهفته (رفیق/ترانسفورماتور)
  • پیش بینی پاداش/ارزش
  • خط مشی اختیاری (برای نمایندگان مبتنی بر RL)

مورد استفاده در: نمایندگان عمومی ، روباتیک ، برنامه ریزی مبتنی بر شبیه سازی (به عنوان مثال ، Nvidia Cosmos ، π0.5).

5. پیش بینی چشم انداز (کلیپ ، فلامینگو ، مارپیچ)

ایده اصلی: روشهای بصری و متنی را با استفاده از مدل سازی متضاد یا نقاب دار تراز کنید.

مدل های قابل توجه:

  • گیره (Openai)
    آموزش داده شده برای مطابقت با جفت های متن تصویر با استفاده از ضرر متضاد.
  • فلامینگو (DeepMind) ، مارپیچ (شکل AI)
    تراز با استدلال VLA و تعامل در زمان واقعی.

معماری:

  • رمزگذار بینایی (VIT یا CNN)
  • رمزگذار زبان (ترانسفورماتور)
  • آموزش مشترک با سرهای متضاد یا متقاطع

مورد استفاده در: روباتیک انسان دوستانه ، زمینه سازی متن صحنه FSD ، نمایندگان خانگی.

SSL در مدل های بنیاد و روباتیک

GPT-4O و GPT-4

  • پیش از مدل سازی زبان نقاب دار علیت، که نوعی SSL است که نشانه های آینده را پیش بینی می کند.
  • استفاده کردن اهداف هم ترازی چند حالته در GPT-4O برای ادغام دید ، صدا و متن در یک معماری متحد.
  • تنظیم دستورالعمل اهرم پس از SSL برای تصحیح تعمیم.

مدل های چشم انداز-زبان (RT-2 ، مارپیچ ، OpenVLA)

  • شروع کردن پیشگویی به سبک کلیپ برای زمین بصری.
  • استفاده کردن کلونینگ رفتاری با رمزگذاری مسیر خود سنجبشر
  • غالباً اضافه کنید لایه های توجه متقابل آموزش داده شده با پیش بینی عملکرد بعدی و مدل سازی سنسور نقاب دار.

مدل های جهانی (π0.5 ، Cosmos ، Meta Wm)

  • با پیش بینی وضعیت نهفته خودسور، اغلب با استفاده از:
  • رمزگذارهای بصری (VIT/RESNET)
  • ترانسفورماتور یا رفیقمدل های زمانی مبتنی بر
  • سرهای چند کاره (پاداش ، تصویر بعدی ، بازیابی ماسک)
  • مثال: کیهان دلیل 1 ادراک را با شبیه سازی با استفاده از یک توکین کننده فیزیک-فیزیک خودیاری ترکیب می کند.

Tesla FSD (V13+)

  • از مؤلفه های خودبوشی مانند:
  • مسیرهای سه بعدی خود برچسب از داده های ویدیویی
  • پیش بینی ویدیوی خودکار نقاب دار برای مدل سازی رفتار رانندگی
  • همجوشی سنسور چند حالته (بدون LIDAR) با SSL در خطوط لوله فیلم به عمل

پشته AI تسلا همچنان از بلوک های منطق نظارت شده به سمت یکپارچه تغییر می کند مدل های رانندگی خودسور پایان به پایانبشر

خلاصه ای از فن آوری های SSL و موارد استفاده آنها

برنامه های SSL

پردازش زبان طبیعی (NLP)

SSL با فعال کردن مدل ها برای یادگیری از مقادیر زیادی از متن بدون برچسب ، NLP را متحول کرده است. مدلهایی مانند BERT و GPT در کارهای مختلف NLP به نتایج پیشرفته رسیده اند.

چشم انداز کامپیوتر

در Vision Computer ، از تکنیک های SSL برای پیش رد کردن مدل ها در مجموعه داده های تصویر بزرگ استفاده شده است و منجر به بهبود عملکرد در کارهایی مانند طبقه بندی تصویر می شود ، تشخیص شیء، و تقسیم بندی

روباتیک

SSL به روبات ها اجازه می دهد تا از تعامل خود با محیط بدون نظارت صریح و روشن ، سازگاری و استقلال خود را تقویت کنند.

مراقبت های بهداشتی

در تصویربرداری پزشکی ، SSL در یادگیری بازنمایی از اسکن های بدون برچسب ، کمک به تشخیص بیماری و برنامه ریزی درمانی کمک می کند.

مزایای SSL

  • کاهش وابستگی به داده های دارای برچسب: SSL نیاز به مجموعه داده های بزرگ با برچسب را که اغلب گران و وقت گیر برای ایجاد هستند ، به حداقل می رساند.
  • تعمیم بهبود یافته: مدل هایی که با SSL آموزش داده می شوند ، اغلب به کارهای و دامنه های جدید بهتر تعمیم می دهند.
  • مقیاس پذیری: SSL استفاده از مقادیر زیادی از داده های بدون برچسب را امکان پذیر می کند و آموزش مدل های در مقیاس بزرگ را تسهیل می کند.

چالش در SSL

  • طراحی وظایف بهانه مؤثر: ایجاد کارهایی که منجر به بازنمایی معنادار می شوند ، غیر واقعی و غالباً خاص دامنه است.
  • منابع محاسباتی: آموزش مدلهای بزرگ SSL به قدرت محاسباتی قابل توجهی نیاز دارد.
  • معیارهای ارزیابی: ارزیابی کیفیت بازنمودهای آموخته شده بدون داده های دارای برچسب همچنان یک چالش است.

آینده SSL

از آنجا که SSL همچنان در حال تکامل است ، انتظار می رود که نقش مهمی در توسعه هوش مصنوعی عمومی (GAI) ایفا کند. دستورالعمل های آینده عبارتند از:

  • ادغام با یادگیری تقویت: ترکیب SSL با یادگیری تقویت می تواند منجر به یادگیری کارآمدتر در محیط های پویا شود.
  • یادگیری چند حالته: SSL یادگیری از چندین روش داده مانند متن ، تصاویر و صوتی را تسهیل می کند و منجر به سیستم های جامع AI می شود.
  • یادگیری مداوم: SSL می تواند مدل ها را قادر به یادگیری مداوم از داده های جریان بدون فراموش کردن دانش قبلی کند.

پایان

یادگیری خود تحت نظارت به عنوان یک رویکرد تحول آمیز در یادگیری ماشین ظاهر شده است و مدل ها را قادر می سازد تا از داده های بدون برچسب به طور مؤثر یاد بگیرند. برنامه های کاربردی آن در حوزه های مختلف قرار دارد و پتانسیل آن به عنوان پیشرفت تحقیقات همچنان در حال رشد است. با حرکت به سمت سیستم های هوش مصنوعی عمومی تر ، بدون شک SSL نقش اساسی در شکل دادن به آینده هوش مصنوعی خواهد داشت.

منابع

  1. https://www.linkedin.com/posts/yann-lecun_the-self-supervised-kook-cookbook-activity-70575201725334528-AHHHE
  2. https://venturebeat.com/ai/facebook-details-self-supervised-ai-that-can-segment-semage-and-videos/
  3. مسیری به سمت هوش دستگاههای خودمختار: https://openreview.net/pdf؟id=bz5a1r-kvsf
  4. پیشگویی خودآور از ویژگی های بصری در طبیعت: https://arxiv.org/pdf/2103.01988.pdf
  5. یادگیری خود سنجی: ماده تاریک هوش: https://ai.facebook.com/blog/self-supervised-learning-dark-matter-of-intelligence/
  6. راهنمای عمیق برای یادگیری خود سنجی: مزایا و کاربردها: https://research.aimultiple.com/self-supervised-learning/
  7. یادگیری نمایندگی خود سنجی: https://lilianweng.github.io/posts/2019-11-10-self-supervised/
  8. یادگیری خود سنجی و کاربردهای آن: https://neptune.ai/blog/self-supervised-Learning
  9. یادگیری خود سنج برای سیستم های پیشنهادی: یک نظرسنجی: https://arxiv.org/pdf/2203.15876.pdf
  10. یادگیری خود سنجی برای توصیه های مورد در مقیاس بزرگ: https://arxiv.org/pdf/2007.12865.pdf

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/self-supervised-learning-the-engine-behind-general-ai

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *