همه چیزهایی که باید بدانید

OpenAI در 9 دسامبر، به عنوان بخشی از آبشار اعلانات “shipmas”، مولد ویدئوی خود Sora را برای منتخبی از کاربران ChatGPT منتشر کرد.

این سازمان برای اولین بار توانایی های Sora را در فوریه 2024 نشان داد. در ماه های میانی، آنها نسخه سریع تری ساخته اند و چگونگی انتشار مسئولانه تولید کننده های ویدئویی هوش مصنوعی را بررسی کرده اند.

تاکید OpenAI بر ایمنی در اطراف Sora استاندارد است هوش مصنوعی مولد امروزه با این حال، همچنین اهمیت اقدامات احتیاطی در مورد هوش مصنوعی را نشان می دهد که می تواند برای ایجاد تصاویر جعلی متقاعد کننده مورد استفاده قرار گیرد، که به عنوان مثال می تواند به اعتبار یک سازمان آسیب برساند.

از 10 دسامبر، ایجاد حساب کاربری در Sora بود بسته به دلیل تقاضای بالا.

سورا چیست؟

Sora یک مدل مولد انتشار هوش مصنوعی است. Sora می‌تواند چندین شخصیت، پس‌زمینه پیچیده، و حرکات واقعی را در ویدیوهای حداکثر یک دقیقه ایجاد کند. همچنین می‌تواند چندین عکس را در یک ویدیو ایجاد کند، شخصیت‌ها و سبک بصری را ثابت نگه دارد و Sora را به یک ابزار داستان‌گویی مؤثر تبدیل کند.

Sora می‌تواند برای تولید ویدیو برای همراهی محتوا، تبلیغ محتوا یا محصولات در رسانه‌های اجتماعی، یا نشان دادن نکاتی در ارائه‌های تجاری استفاده شود. در حالی که نباید جایگزین ذهن خلاق سازندگان حرفه‌ای ویدیو شود، می‌توان از Sora برای تولید سریع‌تر و آسان‌تر برخی از محتواها استفاده کرد.

آرون چاندراسکاران چاندراسکاران، تحلیلگر گارتنر و معاون برجسته گارتنر، در ایمیلی به TechRepublic در ماه فوریه گفت: «رسانه و سرگرمی صنعت عمودی خواهد بود که ممکن است اولین مدل‌هایی از این قبیل باشد. «کارکردهای تجاری مانند بازاریابی و طراحی در شرکت‌های فناوری و شرکت‌ها نیز می‌توانند اولین پذیرندگان باشند.»

بریتانیا، سوئیس و بخش‌هایی از اروپا در حال حاضر به سورا دسترسی نخواهند داشت

در حال حاضر، Sora در هر منطقه با دسترسی به ChatGPT به جز بریتانیا، سوئیس و منطقه اقتصادی اروپا در دسترس است. نگهبان اشاره کرد که سورا همچنان باید با قانون GDPR و خدمات دیجیتال اتحادیه اروپا و قانون ایمنی آنلاین بریتانیا مطابقت داشته باشد. OpenAI گفت در ماه دسامبر قصد دارد دسترسی را “در ماه های آینده” گسترش دهد.

چگونه به سورا دسترسی داشته باشم؟

از دسامبر، ChatGPT Plus و Pro کاربران می توانند به Sora در sora.com دسترسی داشته باشند.

ویدیوهای Sora می توانند با وضوح 1080p، حداکثر 20 ثانیه و در نسبت های عریض، عمودی یا مربعی باشند. رابط کاربری به کاربران اجازه می دهد تا محتوای خود را وارد کنند و ابزار “استوری برد” به کاربران کمک می کند تا درخواست های خود را به ترتیب سازماندهی کنند.

رابط Sora شامل چیدمان استوری بورد و فیدهای ویدیوهای برجسته است. تصویر: OpenAI

سورا چگونه کار می کند؟

Sora یک مدل Diffusion است، به این معنی که به تدریج یک تصویر مزخرف را به یک تصویر قابل درک بر اساس دستور اصلاح می کند و از معماری ترانسفورماتور استفاده می کند. تحقیقاتی که OpenAI برای ایجاد مدل‌های DALL-E و GPT انجام داد – به‌ویژه تکنیک بازیابی از DALL-E – پله‌هایی برای ایجاد سورا بودند.

ببینید: افسران ارشد هوش مصنوعی ممکن است در APAC در سال 2025 کلیدی باشد.

ویدیوهای سورا همیشه کاملاً واقعی به نظر نمی رسند

سورا هنوز در تشخیص چپ از راست یا دنبال کردن توصیفات پیچیده رویدادهایی که در طول زمان اتفاق می‌افتند، مانند اعلان‌های مربوط به یک حرکت خاص دوربین، مشکل دارد. OpenAI در ماه فوریه گفت، ویدیوهای ایجاد شده با Sora احتمالاً از طریق خطاهای علت و معلولی شناسایی می شوند، مانند فردی که از یک کوکی لقمه می گیرد اما اثری از لقمه به جا نمی گذارد.

به عنوان مثال، تعامل بین کاراکترها ممکن است تاری (مخصوصاً در اطراف اندام ها) یا عدم قطعیت را از نظر اعداد نشان دهد (به عنوان مثال، در هر زمان معین چند گرگ در ویدیوی زیر وجود دارد؟).

اقدامات احتیاطی OpenAI در اطراف Sora چیست؟

با دستورات و تغییرات مناسب، ویدیوهای سورا به راحتی با لایو اکشن اشتباه گرفته می شوند. OpenAI از مشکلات احتمالی افترا یا اطلاعات نادرست ناشی از این فناوری آگاه است. این شرکت در ماه دسامبر اعلام کرد که برای جلوگیری از «مواد آزار جنسی از کودکان و جعل‌های عمیق جنسی» حفاظ‌هایی در نظر گرفته است. آپلود افراد به طور کلی “محدود” است.

اگر Sora برای عموم منتشر شود، OpenAI قصد دارد محتوای ایجاد شده با Sora را واترمارک کند C2PA فراداده با انتخاب تصویر و انتخاب گزینه های منوی File Info یا Properties می توان ابرداده را مشاهده کرد. افرادی که تصاویر تولید شده توسط هوش مصنوعی را ایجاد می کنند، همچنان می توانند متادیتا را عمدا حذف کنند یا ممکن است به طور تصادفی این کار را انجام دهند.

OpenAI در حال حاضر چیزی برای جلوگیری از کاربران تولید کننده تصویر خود ندارد. DALL-E 3، از حذف ابرداده.

Nana Nwachukwu، مشاور اخلاق و حکومت AI در Saidot، در ایمیلی به TechRepublic گفت: «تصمیم OpenAI برای به تاخیر انداختن دسترسی عمومی به Sora، علی‌رغم اینکه فرصت انتشار زودتر آن را دارد، قطعاً قابل ستایش است.

با این حال، او گفت، هنوز خیلی زود است که بگوییم استراتژی‌های کاهش OpenAI چقدر موثر خواهد بود یا اینکه آیا در اتحادیه اروپا منتشر خواهد شد.

Nwachukwu گفت: “حکومت باید در کنار فناوری برای نظارت و مدیریت این خطرات تکامل یابد.” “بدون نظارت مستمر و استانداردهای صنعتی قوی، وعده نوآوری در سایه تهدید اطلاعات نادرست و آسیب قرار می گیرد.”

“در حال حاضر است [difficult] چاندراسکاران در ماه فوریه گفت و به طور فزاینده ای تشخیص محتوای تولید شده توسط هوش مصنوعی توسط انسان غیرممکن خواهد شد. وی‌سی‌ها در حال سرمایه‌گذاری در استارت‌آپ‌هایی هستند که ابزارهای تشخیص دیپ‌فیک را می‌سازند و آن‌ها (ابزارهای تشخیص عمقی) می‌توانند بخشی از زره یک سازمان باشند. با این حال، در آینده، نیاز به مشارکت عمومی و خصوصی برای شناسایی محتوای تولید شده توسط ماشین، اغلب در مرحله ایجاد، وجود دارد.

رقبای سورا کدامند؟

ویدیوهای واقعی سورا کاملاً متمایز هستند، اما خدمات مشابهی وجود دارد. شاید در میان آنها پرمخاطب ترین باشند Veo گوگل، اکنون در پیش نمایش خصوصی است و آمازون در راه است نوا ریلز.

باند تولید هوش مصنوعی متن به ویدئو را برای سازمانی آماده می کند. فلیکی می تواند ویدیوهای محدودی را با همگام سازی صدا برای روایت رسانه های اجتماعی ایجاد کند. هوش مصنوعی مولد اکنون می تواند به طور قابل اعتمادی محتوا را به ویدیوهای گرفته شده به صورت متعارف اضافه یا ویرایش کند.

در 8 فوریه، محققان اپل مقاله ای را در مورد Keyframer’مدل زبان بزرگ پیشنهاد شده است که می تواند تصاویر متحرک و سبکی ایجاد کند.

یادداشت سردبیر: این مقاله در ابتدا در فوریه ارسال شد و در دسامبر به روز شد.

منبع: https://www.techrepublic.com/article/sora-generative-ai-video/