رویکردهای مورد استفاده در مدل های زبان بینایی پیشرفته برای مدیریت تصاویر با وضوح بالا


نویسنده(های): دوسی نگوین

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

آیا تا به حال نتوانسته اید از یک مدل Vision-Language (VLM) برای جستجوی اشیاء خاص یا توضیح کامل جزئیات مربوط به یک تصویر با وضوح بالا شکست بخورید؟

تصویر توسط مقاله V* Visual Search

وقتی در مورد مدل‌های زبان بزرگ چندوجهی (MLLM) مطالعه کردم، با یک چالش مهم روبرو شدم: این مدل‌ها به شدت به رمزگذارهای بینایی از قبل آموزش‌دیده‌شده مانند رمزگذار تصویر CLIP وابسته هستند، که بر روی تصاویر در مقیاس کوچک‌تر آموزش داده می‌شوند – معمولاً ۲۲۴×۲۲۴ یا ۳۳۶× 336 پیکسل. این رویکرد آموزشی هنگام استقرار این مدل‌ها مشکل ایجاد می‌کند، زیرا تصاویر اغلب به وضوح‌های مشابه کاهش می‌یابند و در نتیجه جزئیات مهم در تصاویر با وضوح بالاتر از بین می‌روند.

بنابراین در این مقاله، چهار روش اخیر را معرفی می‌کنم و توضیحی در سطح متوسط ​​از هر روش ارائه می‌دهم تا وضوح و دسترسی را برای همه خوانندگان تضمین کند.

تصویر توسط کاغذ FlexAttention

(الف) استفاده از مدل‌های زبان بینایی با وضوح پایین (VLM): من متوجه شدم که این مدل‌ها تصاویر با وضوح بالا را برای برآورده کردن استانداردهای رمزگذار بینایی پایین می‌آورند. این اغلب منجر به از دست دادن جزئیات قابل توجهی می شود که توانایی مدل را برای رسیدگی دقیق به سؤالات مربوط به تصویر مختل می کند.

(ب) استفاده از VLM با وضوح بالا: در حالی که این مدل‌ها مستقیماً تصاویر با وضوح بالا را مدیریت می‌کنند، تعداد زیادی توکن تصویر را مصرف می‌کنند که منجر به تقاضای محاسباتی بیش از حد و ناکارآمدی می‌شود.

4.1 FlexAttention برای کارآمد… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/artificial-intelligence/approaches-used-by-state-of-the-art-vision-language-models-for-handling-high-resolution-images