نویسنده (ها): alucinatingkitten
در ابتدا منتشر شده در به سمت هوش مصنوعیبشر
Meta Ai از Llama 4 رونمایی کرده است ، آخرین تکرار آن از باز است مدل های بزرگ زبان، نشان دادن یک پیشرفت قابل توجه با چند مدلی بومی در هسته آن. Llama 4 بیش از یک به روزرسانی افزایشی ، چشم انداز را با رویکردهای معماری نوآورانه ، طول زمینه های طولانی و پیشرفتهای قابل توجه عملکرد تعریف می کند. بیایید پیچیدگی های فنی را که توانایی های Llama 4 را قدرت می دهد ، جدا کنیم.
انواع مدل: نسخه اولیه شامل می شود
- Llama 4 Scout (17B فعال ، 16 متخصص): بهینه شده برای کارآیی و یک پنجره زمینه پیشگامانه.
- Llama 4 Maverick (17b Active ، 128 متخصص): با هدف با کارایی بالا ، با مدل های برتر سطح بالا.
- Llama 4 Behemoth (288B فعال ، 16 متخصص): یک مدل بزرگتر که عملکرد پیشرفته را هدف قرار می دهد ، به ویژه در کارهای استدلال پیچیده.
تکامل معماری: در آغوش گرفتن چندمادی بومی
شاید مهمترین تغییر در Llama 4 آن باشد معماری چندمودال بومیبشر بر خلاف رویکردهای قبلی که ممکن است بر قابلیت های بینایی پیچ خورده باشد ، Llama 4 از زمین تا پردازش و ادغام اطلاعات از روشهای مختلف یکپارچه طراحی شده است.
همجوشی اولیه: درک چند حالته یکپارچه
یک جهش بزرگ در معماری Llama 4 حرکت آن به سمت مولتی بودن بومی، ساخته شده از طریق همجوشی – یک انتخاب طراحی که به شدت چشم انداز و زبان را در هسته اصلی خط لوله آموزش و استنتاج ادغام می کند.
بر خلاف رویکردهای فیوژن دیررس که درک بصری را روی یک مدل متن پس از واقعیت پیچ می کند ، فیوژن اولیه هم متن و هم نشانه های بصری را در همان ستون فقرات مدل تغذیه می کند از ابتدا این جریان ورودی یکپارچه به Llama 4 اجازه می دهد تا توسعه یابد بازنمودهای مشترک در سراسر روشها ، استدلال های روان و آگاه تر از متن ، تصاویر و حتی فیلم را امکان پذیر می کند.
مزایای اصلی:
- پیشگویی مشترک در مقیاس: فیوژن اولیه امکان پیش بینی در حالت عظیم مخلوط را فراهم می کند مجموعه داده ها – متن ، تصاویر و فیلم بدون برچسب – منجر به یک مدل عمومی تر و قوی تر می شود.
- درک مطلب متقاطع: با یادگیری بازنمایی های مشترک در اوایل ، Llama 4 می تواند به طور طبیعی بیشتر در مورد روشها استدلال کند (به عنوان مثال ، پاسخ دادن به سؤالات مربوط به یک تصویر یا ایجاد زیرنویس از متن).
برای حمایت از این ، Llama 4 نیز معرفی می کند رمزگذار بینایی جدید، مشتق شده از metaclip اما به طور مستقل با a آموزش دیده است یخ زده LLM ستون فقراتبشر این طرح به رمزگذار Vision اجازه می دهد تا خروجی خود را با انتظارات مدل Llama بهتر سازگار کند – اطمینان حاصل شود که ورودی های بصری یکپارچه در کنار نشانه های متن در یک فضای نهفته مشترک تعبیه شده اند.
نتیجه مدلی است که فقط نیست دسته ورودی چند حالته – این است برای آن از زمین به بالا ساخته شده است، امکان استدلال عمیق تر و ادغام محکم تر بین بینایی و کارهای زبانی.
مخلوط متخصصان (MOE): مقیاس کارآمد
به عنوان بخشی از تکامل معماری لاما 4 ، متا معرفی کرده است مخلوط متخصصان (MOE) برای اولین بار مدل ها – نشان دادن تغییر قابل توجهی به سمت بیشتر معماری های کارآمد و با ظرفیت بالابشر این تغییر به ویژه در زمینه چند حالته بومی تأثیرگذار است ، جایی که رسیدگی به ورودی های متنوع (متن ، دید و غیره) هم مقیاس و هم چابکی را می طلبد.
مدل های متراکم سنتی فعال می شوند همه پارامترهای مربوط به هر نشانه ، که با رشد اندازه مدل به سرعت به منابع پررنگ می شوند. moe flips that script: فقط بخشی از مدل در هر نشانه فعال می شود، بهبود چشمگیر راندمان استنباط بدون قربانی کردن کیفیت.
به عنوان مثال در Llama 4 Maverick:
- مدل حاوی 400B پارامتر کل، اما فقط 17b در هر نشانه فعال استبشر
- این از طریق حاصل می شود لایه های متراکم و متراکم و متناوببشر
- هر لایه MOE شامل می شود 128 متخصص مسیریابی وت 1 متخصص مشترکبشر
- هر نشانه توسط متخصص مشترک و دقیقاً یک متخصص مسیریابی پردازش می شود، نگه داشتن محاسبه فعال در حالی که می توانید مسیرهای تخصصی پردازش را فراهم کنید.
تأثیر دو برابر است:
- کیفیت بالاتر در هر فلاپ: مدل های MOE هنگام محدود کردن با بودجه محاسبات ثابت آموزش ، از همتایان متراکم بهتر عمل می کنند.
- انعطاف پذیری استقرار: ماوریک می تواند روی یک اجرا کند گره NVIDIA H100 DGX، یا مقیاس در میزبان های مختلف با استنتاج توزیع شده-ارائه مدل های عظیم در محیط های دنیای واقعی.
MOE فقط مربوط به صرفه جویی در محاسبات نیست – در مورد این است باز کردن تخصص تخصصی، که در یک تنظیم چند حالته که در آن انواع مختلف داده ها به مسیرهای استدلال متفاوتی نیاز دارند ، بسیار مهم است. با استفاده از این طراحی ، مدل های Llama 4 ورودی های چند مدلی پیچیده را با راندمان یک مدل کوچکتر و ظرفیت یک مدل بسیار بزرگتر کنترل می کنند.
پنجره زمینه عظیم (10 متر توکن) از طریق تعمیم طول
یکی از برجسته ترین پیشرفت ها ، به ویژه در Llama 4 Scout ، توانایی آن در رسیدگی به طول زمینه است 10 میلیون نشانهبشر این امر با آموزش مستقیم روی نشانه های 10 متر حاصل نمی شود ، اما از طریق تکنیک های پیشرفته تعمیم طول ساخته شده بر روی یک پایه محکم.
تکنیک های تعمیم: برای فراتر از طول آموزش به سمت نشانه های 10 متر ، متا نوآوری های کلیدی معماری و استراتژی های زمان استنباط را معرفی کرد:
- معماری ایروپ: یک نوآوری اصلی معماری “Irope” است. این ویژگی ها است لایه های توجه بین المللی که به ویژه از تعبیه های موقعیتی استفاده نکنیدبشر این با تعبیه موقعیت دوار استاندارد (طناب) که در اکثر لایه های دیگر به کار رفته است ، ترکیب می شود. “من” هم ماهیت درهم تنیده و هم جاه طلبی را به سمت زمینه “بی نهایت” بالقوه برجسته می کند.
- مقیاس دمای زمان استنباط: برای افزایش بیشتر عملکرد در توالی های بسیار طولانی در هنگام استنتاج ، مدل از مقیاس دما به طور خاص بر مکانیسم توجه استفاده می کند.
ارزیابی: اثربخشی این تکنیک ها از طریق نتایج قانع کننده در کارهای طولانی مدت ، از جمله:
- بازیابی سوزن در HAYSTACK (NIAH): با موفقیت بازیابی اطلاعات خاص (“سوزن”) از متن گسترده (“یونجه”).
- درک کد: دستیابی به احتمال زیاد تجمعی تجمعی (NLL) بیش از 10 میلیون نشانه کد ، که نشانگر درک قوی از وابستگی های دوربرد در کد های کد است.
این ترکیب از یک زمینه آموزشی بزرگ و تکنیک های تعمیم جدید به Llama 4 Scout اجازه می دهد تا معیار جدیدی را برای پردازش طولانی متن تنظیم کند.
حفاظت ، محافظت و تعصب
توسعه مدل های قدرتمند هوش مصنوعی مانند Llama 4 با مسئولیت قابل توجهی همراه است. متا بر تعهد خود در ساخت شخصی سازی تأکید می کند وت مسئولیت های AI مسئول. در حالی که پست اولیه وبلاگ به مکانیسم های ایمنی خاص جدید که برای Llama 4 اجرا شده است ، نمی پردازد ، این کار بر اساس کار ایمنی انجام شده برای نسل های قبلی ایجاد می شود. این به طور معمول شامل:
- تنظیم خاص ایمنی: تنظیم دقیق مدل ها برای امتناع از درخواست های مضر و جلوگیری از تولید محتوای مشکل ساز.
- تیمی قرمز: آزمایش های داخلی و خارجی سخت برای شناسایی آسیب پذیری های احتمالی و سوء استفاده از سناریوها.
- کاهش تعصب: تلاش ها در طول درمان داده ها و آموزش مدل برای کاهش تعصبات اجتماعی منعکس شده در داده ها. با این حال ، مانند همه مدل های بزرگ که در داده های در مقیاس وب آموزش دیده اند ، تعصبات باقیمانده یک چالش مداوم است که نیاز به استراتژی های نظارت و کاهش مداوم دارد. کاربران و توسعه دهندگان باید هنگام استقرار این مدل ها از تعصبات احتمالی آگاه باشند.
پایان
Llama 4 گام مهمی برای متا AI نشان می دهد و با انتخاب های نوآورانه معماری مانند فیوژن اولیه و مخلوط کارشناسان ، به شدت به مولتی حالت بومی سوق می دهد. مجموعه داده های عظیم و چند زبانه پیش فرض ، تصفیه شده با تکنیک هایی مانند METAP ، همراه با پنجره زمینه فوق العاده 10M Token که از طریق معماری Irope و تعمیم طول در مدل پیشاهنگی حاصل می شود ، و عملکرد معیار قوی در خانواده ، Llama 4 را به یک بازیکن جدید قانع کننده در منظره AI تبدیل می کند.
با وجود Llama 4 Scout و Maverick که قبلاً برای بارگیری (از طریق Llama.com و بغل کردن چهره) در دسترس است و ادغام در محصولات متا در حال انجام است ، جامعه توسعه دهنده اکنون ابزارهای جدید قدرتمندی برای کشف آینده برنامه های AI چند حالته دارد.
منتشر شده از طریق به سمت هوش مصنوعی