متا با نسل ویدیو و صداها وارد فیلم هوش مصنوعی می شود

متا یک مدل پایه را معرفی کرد که قادر به ایجاد ویدیوهایی با ظاهر واقعی و رقیب است سورا از OpenAI و Veo گوگل در رقابت ویدئویی هوش مصنوعی در حال ظهور. دو مدل جدید در 4 اکتبر معرفی شدند:

پارامتر 30B Movie Gen Video.
پارامتر 13B Movie Gen Audio.

هر دو بر اساس مدل Llama 3 متا ساخته شده اند. غول فناوری انتظار دارد در سال 2025 Movie Gen را در اینستاگرام جاسازی کند.

خانواده مدل های Movie Gen چیست؟

مدل‌های Movie Gen، هوش مصنوعی متن به ویدیو یا متن به صدا هستند. متا ادعا می کند Movie Gen می تواند ویدیوهایی تا 16 ثانیه ایجاد کند. در مقایسه، Sora از OpenAI که در حال حاضر در دسترس عموم نیست، می‌تواند ویدیوهای یک دقیقه‌ای با صحنه‌های متعدد تولید کند. Veo، که برای سازندگان منتخب در دسترس است، می‌تواند ویدیوهایی در حدود یک دقیقه ایجاد کند.

فیلم Gen با استفاده از زبان طبیعی کنترل می شود. این بدان معناست که کاربران می توانند صحنه ای را که می خواهند ببینند، از جمله عناصر فردی و لحن کلی را توصیف کنند. آنها همچنین می توانند عناصر ویدئویی را بر اساس اعلان های متنی زبان طبیعی، مانند افزودن یا حذف قسمت هایی از یک صحنه، تغییر دهند.

عکسی از ویدیویی که با Movie Gen. — عکسی از ویدئویی که توسط Movie Gen. ساخته شده بود. خلاصه این دستور این بود: «دختری در حال دویدن در ساحل است و بادبادکی در دست دارد. او شلوارک جین و یک تی شرت زرد پوشیده است. خورشید در حال غروب است.» تصویر: متا

متا گفت که جنبه شخصی سازی با “روش های پس از آموزش” فعال شد. این رویه‌ها هوش مصنوعی را به گونه‌ای متمرکز کردند که “هویت شخص را در حین دنبال کردن پیام متنی حفظ کند.” این به کاربران اجازه می دهد تا خود یا شخص دیگری را در یک صحنه سفارشی قرار دهند.

برای ویرایش ویدیو می توان از دستورهای زبان طبیعی استفاده کرد. تصویر: متا

به نظر می رسد که محصول متا در رونمایی اولیه محصول، عمدتاً سازندگان محتوا را هدف قرار داده است. متا در گزارشی اعلام کرد که هدف این است که “به مردم کمک کنیم تا خود را به روش‌های جدید ابراز کنند و فرصت‌هایی را برای افرادی فراهم کنیم که در غیر این صورت آن‌ها را نداشتند.” پست وبلاگ.

ببینید: تبدیل دیجیتال گاهی اوقات می تواند مانند یک عکس تصادفی در تاریکی به نظر برسد – اما راه هایی وجود دارد کمک به موفقیت پروژه ها.

نور، عمل و صدا

به گفته Meta’s، Movie Gen Audio می‌تواند موسیقی یا جلوه‌های صوتی را برای ویدیوهای «تا چند دقیقه» ایجاد کند مقاله تحقیقاتی. موسیقی با فرکانس 48 کیلوهرتز تولید می‌شود و می‌تواند با تصاویری که روی صفحه نمایش دیده می‌شود مطابقت داشته باشد یا به عنوان یک موسیقی متن عمل کند.

تصویر ثابتی از نمایش متا از Movie Gen Audio که هم یک موسیقی متن و هم صدای دیژژیک ایجاد می‌کند. تصویر: متا

متا به Llama 3 برای مقابله با نگرانی های امنیتی و دیپ فیک اشاره می کند

برای کسب و کارها، تولید سریع ویدیوهای ایجاد شده با هوش مصنوعی می تواند زمان مورد نیاز برای تولید محتوای داخلی و خارجی را به میزان قابل توجهی کاهش دهد. از سوی دیگر، استفاده از محتوای تولید شده توسط هوش مصنوعی، به ویژه بدون ذکر منبع، می تواند باعث سردرگمی مخاطبان شود و اعتماد را کاهش دهد، که در گزارش اخیر توسط مجله بازاریابی و مدیریت هتلداری.

شاید در تلاشی برای رفع نگرانی‌های مربوط به اعتماد، متا یک واترمارک به تصاویر Video Gen اضافه کرد. یک گرافیک شفاف “درخشش” اغلب برای نشان دادن هوش مصنوعی در گوشه سمت چپ پایین ویدیوها قرار دارد.

امنیت و استفاده از هوش مصنوعی مولد برای ایجاد محتوای مزاحم، مضر یا گمراه‌کننده نگرانی‌هایی است – به‌ویژه برای موارد استفاده تجاری که ممکن است شهرت شرکت در خطر باشد. در اعلامیه Movie Gen، متا به a گزارش سپتامبر در مورد محافظت از مدل های هوش مصنوعی خود، از جمله خانواده Llama 3. در این گزارش توضیح داده می‌شود که چگونه مدل دارای محافظ‌هایی در برابر محتوای نامناسب است و تصاویر شامل واترمارک‌های قابل مشاهده و نامرئی خواهند بود.

منبع: https://www.techrepublic.com/article/meta-generative-ai-video-gen/