QVQ-72B: نهایت هوش مصنوعی استدلال بصری که می توانید به صورت محلی اجرا کنید 🔥


نویسنده(های): هاسیتا پاتوم

در ابتدا منتشر شد به سمت هوش مصنوعی.

این داستان فقط برای اعضا در اختیار ماست. برای دسترسی به تمام Medium ارتقا دهید.

تصور کنید که قدرت یک مدل زبان بزرگ استدلال بصری پیشرفته را داشته باشید (LLM) به صورت محلی روی دستگاه خود نصب شده است. این دیگر فقط یک رویا نیست – QVQ-72B که تحت مجوز Apache 2.0 منتشر شده است، اینجاست تا آن را به واقعیت تبدیل کند! QVQ-72B که توسط تیم درخشان Qwen در علی بابا توسعه یافته است، فقط یک مدل هوش مصنوعی دیگر نیست. برای هر کسی که به دنبال استدلال چندوجهی با کارایی بالا بدون اتکا به خدمات ابری است، بازی را تغییر می دهد.

این مقاله عمیقاً به آنچه QVQ-72B را منحصربه‌فرد می‌کند، چرایی انقلابی بودن آن و نحوه راه‌اندازی آن را به صورت محلی می‌پردازد. چه علاقه‌مند به هوش مصنوعی باشید، چه توسعه‌دهنده‌ای که به دنبال قابلیت‌های پیشرفته هستید، یا سازمانی که حریم خصوصی داده‌ها را در اولویت قرار می‌دهد، این راهنما شما را با هر آنچه که باید در مورد QVQ-72B بدانید، مجهز می‌کند.

QVQ-72B یک استدلال بصری پیشرفته است LLM با 72 میلیارد پارامتر، به طور خاص برای کارهایی که نیاز به درک و استدلال در متن و تصویر دارند، طراحی شده است. برخلاف مدل‌های زبان سنتی، QVQ-72B قابلیت‌های پردازش بصری پیشرفته را ادغام می‌کند، و آن را قادر می‌سازد تا تصاویر را تفسیر کند، متن مرتبط با متن را تولید کند، و مسائل پیچیده چندوجهی را حل کند.

ویژگی های کلیدی:

تسلط چندوجهی: استدلال بصری و متنی را یکپارچه ترکیب می کند. استقرار مقیاس پذیر: کاملاً قابل اجرا در تنظیمات سخت افزاری محلی. منبع باز: منتشر شده تحت Apache 2.0، تضمین انعطاف پذیری… وبلاگ کامل را به صورت رایگان در Medium بخوانید.

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/l/qvq-72b-the-ultimate-visual-reasoning-ai-you-can-run-locally