CLIP در مقابل SigLIP در مقابل AIM:


نویسنده(های): ناهید علم

در ابتدا منتشر شد به سمت هوش مصنوعی.

درک رمزگذارهای تصویر برای Multimodal LLMs

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

رمزگذارهای تصویر نقش مهمی در نمایش تصاویر خام به شکلی ایفا می کنند که رایانه ها آن را درک می کنند. برای یک سیستم هوش مصنوعی، این به معنای نمایش برداری از پیکسل های تصویر است. در وظایف بینایی کامپیوتری سنتی مانند طبقه بندی، تشخیص شیو بخش بندی، رمزگذارها مانند شبکه های عصبی کانولوشنال (CNN ها) و Vision Transformers (ViTs) بازنمایی هایی را می آموزند که اطلاعات مکانی و معنایی را جمع آوری می کنند و مدل های پایین دستی را قادر می سازند تا الگوها را شناسایی کرده و پیش بینی کنند.

در این یادداشت، من علاقه مند به درک رمزگذارهای تصویر در زمینه Multimodal هستم LLMs مانند مدل های تصویر-متن. در مدل‌های چندوجهی، رمزگذارهای تصویر وظیفه دارند داده‌های بصری را با سایر روش‌ها، مانند متن، پیوند دهند. این بدان معنی است که رمزگذارهای تصویر، نمایش برداری از یک تصویر را به گونه ای ایجاد می کنند که با نمایش برداری متن همسو شود. اینکه این هم ترازی چقدر خوب اتفاق می افتد معمولاً کیفیت این رمزگذارها را نشان می دهد.

ممکن است بپرسید – چرا کیفیت این رمزگذارهای تصویر مهم است؟ و به طور خاص، چرا ما اهمیت می دهیم؟ اگر شما در حال ساخت مدل های زبان بینایی چندوجهی LLaVA هستید، همانطور که در شکل 1 در زیر نشان داده شده است، متوجه خواهید شد که رمزگذارهای بینایی یک جزء کلیدی در اینجا هستند. عملکرد رمزگذارهای بینایی مهم است… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/clip-vs-siglip-vs-aim-2