نویسنده (ها): لوهوی هو
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
مدل های جهانی چیست؟
بیشتر و بیشتر مردم از من می پرسند که مدل های جهانی از جمله سرمایه گذاران ، علاقه مندان به هوش مصنوعی و دانشمندان هوش مصنوعی چیست. از آنجا که مدل های جهانی (WMS) در حوزه های تحقیقاتی و کاربردی AI به دست می آورند ، مهم است که آنچه را که واقعاً هستند ، از بین بروند ، چرا اهمیت دارند و چگونه آنها با سایر رویکردهای غالب مانند مدل های بینایی-زبان (VLA) تفاوت دارند. در این پست ، من WMS را تجزیه می کنم ، چه چیزی آنها را قدرتمند می کند و چرا ممکن است یک ستون اساسی برای هوش مصنوعی فیزیکی و هوش عمومی مصنوعی (AGI) باشد.
🧠 مدل جهانی چیست؟
یک مدل جهانی یک نمایش داخلی آموخته است که پویایی دنیای واقعی را شبیه سازی می کند. بر خلاف مدل های ادراک استاتیک ، مدل های جهانی تولیدی و پیش بینی کننده هستند – آنها می توانند چگونه جهان را با گذشت زمان تکامل بخشند و به عوامل هوشمند اجازه می دهند قبل از اجرای آنها ، اقدامات و دلیل را برنامه ریزی کنند.
برخی از پیشرفته ترین ابتکارات مدل جهانی از:
- متا منصفانه: دفاع از معماری های پیش بینی مبتنی بر یادگیری خود سنجی.
- آزمایشگاه های جهانی استنفورد (فی-فی لی): متمرکز بر هوش مکانی و درک صحنه سه بعدی.
- Nvidia Cosmos: مدل های تولیدی در مقیاس بزرگ مانند Cosmos Predict ، Transfect و Reason1 را برای شبیه سازی محیط ایجاد می کند.
- مدل جهانی Zhicheng AI: متمرکز بر هوش جسمی رباتیک.
این مدلها در اجرای متفاوت هستند اما یک هدف مشترک دارند: ارائه درک درونی از محیط آنها.
⚙ مؤلفه های اصلی و مکانیسم های مدل های جهان
مدل های جهانی بر روی چندین مؤلفه اصلی ساخته شده اند:
- پردازش ورودی چند حالته: آنها برای ایجاد یک نمایش یکپارچه ، فیلم های ویدئویی ، تصاویر ، سنسور (به عنوان مثال ، Lidar ، IMU) و گاهی اوقات زبان را می گیرند.
- پیش بینی موقتی: مدل هایی مانند رویای یا کیهان پیش بینی می کند یاد بگیرید که فریم های آینده یا ایالات را از داده های تاریخی پیش بینی کنید.
- یادگیری نهفته یادگیری: WMS به جای اینکه روی ورودی های خام کار کند ، از فضاهای حالت انتزاعی آموخته شده از طریق رمزگذارها و نشانه ها استفاده می کند.
- یادگیری خود سنجی: آموزش اغلب از طریق اهداف مانند پیش بینی مرحله بعدی ، یادگیری متضاد یا بازسازی انجام می شود.
- شبیه سازی و استدلال: پس از آموزش ، WMS می تواند سناریوهای مختلف را شبیه سازی کند ، برای برنامه ریزی ، ایمنی و سازگاری ضروری است.
🔍 چگونه مدل های جهانی کار می کنند و از کجا اعمال می شوند
مدل های جهانی در سه مرحله کلی کار می کنند:
- داده مصرف: داده های حسی چند حالته جمع آوری و به بازنمایی های جمع و جور تبدیل می شود.
- یادگیری جهانی: این مدل نقشه برداری از حالت های فعلی و اقدامات به حالت های آینده (پویایی محیط) را می آموزد.
- شبیه سازی و برنامه ریزی: استنتاج شامل شبیه سازی نتایج آینده و انتخاب اقدامات بهینه است.
این مراحل به مدل های جهانی اجازه می دهد تا برنامه های برق مانند:
- رانندگی خودمختار (به عنوان مثال ، پیش بینی سناریوهای جاده)
- روباتیک (به عنوان مثال ، دستکاری ، تحرک)
- تولید داده مصنوعی (به عنوان مثال ، برای آموزش سایر مدلهای هوش مصنوعی)
- استدلال تجسم یافته (به عنوان مثال ، عقل سلیم جسمی)
📊 چگونه مدل های جهان با مدل های بینایی-زبان (VLA) متفاوت هستند
مدل های VLA ، مانند RT-2 یا OpenVLA ، در تفسیر دستورالعمل ها و پاسخ دادن به اقدامات ، با استفاده از داده های چشم انداز و زبان در مقیاس بزرگ. با این حال ، آنها به طور معمول الگوی داخلی جهان را نمی سازند.
🚀 روباتیک مدرن هوش مصنوعی: جریان های اصلی فناوری و تفاوت های آنها
AI روباتیک مدرن اکنون چندین جریان تکنولوژیکی دارد. هرکدام دارای یک فلسفه و تجارت مهندسی متفاوت هستند:
control کنترل مبتنی بر مدل
- بر اساس فیزیک و بهینه سازی.
- با دقت بالا اما سازگاری کم.
learning یادگیری عمیق تقویت (DRL)
- سیاست آموخته شده از طریق آزمایش و خطا.
- قدرتمند اما داده ناکارآمد است.
🤖 مدل های جهان
- برنامه ریزی پیش بینی از طریق شبیه سازی های داخلی.
- ایده آل برای استدلال و سازگاری رو به جلو.
🔢 بینایی-زبان-اکشن (VLA)
- کنترل عامل زبان و ادراک محور.
- بسیار قابل تعمیم ، اما از نظر جسمی کم عمق.
teleoperation + یادگیری از تظاهرات (LFD)
- مدل های Bootstraps از نسخه های نمایشی انسانی.
- داده های کم اما مقیاس پذیر کمتری دارند.
fusion همجوشی سنسور چندمودال و AI فضایی
- ترکیبی از دید ، لمسی و اختصاصی.
- غنی اما از نظر محاسباتی سنگین است.
این رویکردها متقابل نیستند. به عنوان مثال ، یک ربات ممکن است از مدل های جهانی برای برنامه ریزی ، VLA برای آموزش زیر و همجوشی سنسور برای ادراک در زمان واقعی استفاده کند.
thoughts افکار نهایی
مدل های جهانی فقط یک معماری AI دیگر نیستند – آنها نماینده یک هستند تغییر پارادایم به سمت درک درونی ، شبیه سازی و پیش بینی. در آینده ای که هوش مصنوعی فیزیکی باید عمل کند ، سازگار شود و به طور مداوم یاد بگیرد ، مدل های جهانی هسته مغز مانند مورد نیاز برای عوامل هدف عمومی را ارائه می دهند. در حالی که هنوز کامل نیستند ، آنها تشکیل می دهند بستر تعامل جسمی هوشمند، علامت گذاری یک گام حیاتی به سمت AGI تجسم یافته.
📚 منابع
🔬 مبانی دانشگاهی
1. HA & Schmidhuber (2018). مدل های جهانی
https://arxiv.org/abs/1803.10122
مقاله اصلی که مفهوم استفاده از مدلهای تولیدی را معرفی کرده است (VAE + رفیق + کنترل کننده) برای شبیه سازی محیط برای نمایندگان.
2. هافنر و همکاران. (2019-2023). DREAMER ، DREAMERV2 ، DREAMERV3
https://arxiv.org/abs/1912.01603
https://arxiv.org/abs/2005.12114
https://arxiv.org/abs/2301.04104
کار مترقی از DeepMind در یادگیری مدل های جهان نهفته برای یادگیری تقویت از طریق تخیل.
تحقیقات صنعت
3. متا AI (یان لکون). مسیری به سمت هوش دستگاههای خودمختار
https://openreview.net/pdf؟id=bz5a1r-kvsf
یک طرح بینایی برای مدل های جهان پیش بینی شده و پیش بینی شده به عنوان هسته اصلی عوامل هوشمند.
4. وبلاگ فنی Nvidia. مقیاس داده های مصنوعی و استدلال هوش مصنوعی فیزیکی با مدل های جهان Nvidia Cosmos
https://developer.nvidia.com/blog/scale-synthetic-data-and-physical-ai-teasoning-with-nvidia-cosmos-world-foundation-models/
نمای کلی از پلت فرم NVIDIA COSMOS WFM برای شبیه سازی آگاه فیزیک و استدلال هوش مصنوعی.
5. آزمایشگاه های جهانی فی-فی لی – پوشش از:
متمرکز بر هوش مکانی و درک پایه در محیط های سه بعدی.
strchitects معماری AI مرتبط
6. Google DeepMind (RT-2). RT-2: مدل های چشم انداز-زبان
https://robotics-transformer2.github.io
نشان می دهد که مدل های بزرگ VLA چقدر کار می کنند و چگونه آنها با مدل های جهانی شبیه سازی محور تفاوت دارند.
7. OpenVla: یک معیار چشم انداز-زبان-اکشن
https://openvla.org
برای متضاد سیاست های چند مدلی محور با رویکردهای شبیه سازی محور مفید است.
منتشر شده از طریق به سمت هوش مصنوعی
منبع: https://towardsai.net/p/machine-learning/what-are-world-models