نویسنده(های): دوسی نگوین
در ابتدا منتشر شد به سمت هوش مصنوعی.
این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.
آیا تا به حال نتوانسته اید از یک مدل Vision-Language (VLM) برای جستجوی اشیاء خاص یا توضیح کامل جزئیات مربوط به یک تصویر با وضوح بالا شکست بخورید؟
وقتی در مورد مدلهای زبان بزرگ چندوجهی (MLLM) مطالعه کردم، با یک چالش مهم روبرو شدم: این مدلها به شدت به رمزگذارهای بینایی از قبل آموزشدیدهشده مانند رمزگذار تصویر CLIP وابسته هستند، که بر روی تصاویر در مقیاس کوچکتر آموزش داده میشوند – معمولاً ۲۲۴×۲۲۴ یا ۳۳۶× 336 پیکسل. این رویکرد آموزشی هنگام استقرار این مدلها مشکل ایجاد میکند، زیرا تصاویر اغلب به وضوحهای مشابه کاهش مییابند و در نتیجه جزئیات مهم در تصاویر با وضوح بالاتر از بین میروند.
بنابراین در این مقاله، چهار روش اخیر را معرفی میکنم و توضیحی در سطح متوسط از هر روش ارائه میدهم تا وضوح و دسترسی را برای همه خوانندگان تضمین کند.
(الف) استفاده از مدلهای زبان بینایی با وضوح پایین (VLM): من متوجه شدم که این مدلها تصاویر با وضوح بالا را برای برآورده کردن استانداردهای رمزگذار بینایی پایین میآورند. این اغلب منجر به از دست دادن جزئیات قابل توجهی می شود که توانایی مدل را برای رسیدگی دقیق به سؤالات مربوط به تصویر مختل می کند.
(ب) استفاده از VLM با وضوح بالا: در حالی که این مدلها مستقیماً تصاویر با وضوح بالا را مدیریت میکنند، تعداد زیادی توکن تصویر را مصرف میکنند که منجر به تقاضای محاسباتی بیش از حد و ناکارآمدی میشود.
4.1 FlexAttention برای کارآمد… وبلاگ کامل را به صورت رایگان در Medium بخوانید.
منتشر شده از طریق به سمت هوش مصنوعی