OpenAI در 9 دسامبر، به عنوان بخشی از آبشار اعلانات “shipmas”، مولد ویدئوی خود Sora را برای منتخبی از کاربران ChatGPT منتشر کرد.
این سازمان برای اولین بار توانایی های Sora را در فوریه 2024 نشان داد. در ماه های میانی، آنها نسخه سریع تری ساخته اند و چگونگی انتشار مسئولانه تولید کننده های ویدئویی هوش مصنوعی را بررسی کرده اند.
تاکید OpenAI بر ایمنی در اطراف Sora استاندارد است هوش مصنوعی مولد امروزه با این حال، همچنین اهمیت اقدامات احتیاطی در مورد هوش مصنوعی را نشان می دهد که می تواند برای ایجاد تصاویر جعلی متقاعد کننده مورد استفاده قرار گیرد، که به عنوان مثال می تواند به اعتبار یک سازمان آسیب برساند.
از 10 دسامبر، ایجاد حساب کاربری در Sora بود بسته به دلیل تقاضای بالا.
سورا چیست؟
Sora یک مدل مولد انتشار هوش مصنوعی است. Sora میتواند چندین شخصیت، پسزمینه پیچیده، و حرکات واقعی را در ویدیوهای حداکثر یک دقیقه ایجاد کند. همچنین میتواند چندین عکس را در یک ویدیو ایجاد کند، شخصیتها و سبک بصری را ثابت نگه دارد و Sora را به یک ابزار داستانگویی مؤثر تبدیل کند.
Sora میتواند برای تولید ویدیو برای همراهی محتوا، تبلیغ محتوا یا محصولات در رسانههای اجتماعی، یا نشان دادن نکاتی در ارائههای تجاری استفاده شود. در حالی که نباید جایگزین ذهن خلاق سازندگان حرفهای ویدیو شود، میتوان از Sora برای تولید سریعتر و آسانتر برخی از محتواها استفاده کرد.
آرون چاندراسکاران چاندراسکاران، تحلیلگر گارتنر و معاون برجسته گارتنر، در ایمیلی به TechRepublic در ماه فوریه گفت: «رسانه و سرگرمی صنعت عمودی خواهد بود که ممکن است اولین مدلهایی از این قبیل باشد. «کارکردهای تجاری مانند بازاریابی و طراحی در شرکتهای فناوری و شرکتها نیز میتوانند اولین پذیرندگان باشند.»
بریتانیا، سوئیس و بخشهایی از اروپا در حال حاضر به سورا دسترسی نخواهند داشت
در حال حاضر، Sora در هر منطقه با دسترسی به ChatGPT به جز بریتانیا، سوئیس و منطقه اقتصادی اروپا در دسترس است. نگهبان اشاره کرد که سورا همچنان باید با قانون GDPR و خدمات دیجیتال اتحادیه اروپا و قانون ایمنی آنلاین بریتانیا مطابقت داشته باشد. OpenAI گفت در ماه دسامبر قصد دارد دسترسی را “در ماه های آینده” گسترش دهد.
چگونه به سورا دسترسی داشته باشم؟
از دسامبر، ChatGPT Plus و Pro کاربران می توانند به Sora در sora.com دسترسی داشته باشند.
ویدیوهای Sora می توانند با وضوح 1080p، حداکثر 20 ثانیه و در نسبت های عریض، عمودی یا مربعی باشند. رابط کاربری به کاربران اجازه می دهد تا محتوای خود را وارد کنند و ابزار “استوری برد” به کاربران کمک می کند تا درخواست های خود را به ترتیب سازماندهی کنند.

سورا چگونه کار می کند؟
Sora یک مدل Diffusion است، به این معنی که به تدریج یک تصویر مزخرف را به یک تصویر قابل درک بر اساس دستور اصلاح می کند و از معماری ترانسفورماتور استفاده می کند. تحقیقاتی که OpenAI برای ایجاد مدلهای DALL-E و GPT انجام داد – بهویژه تکنیک بازیابی از DALL-E – پلههایی برای ایجاد سورا بودند.
ببینید: افسران ارشد هوش مصنوعی ممکن است در APAC در سال 2025 کلیدی باشد.
ویدیوهای سورا همیشه کاملاً واقعی به نظر نمی رسند
سورا هنوز در تشخیص چپ از راست یا دنبال کردن توصیفات پیچیده رویدادهایی که در طول زمان اتفاق میافتند، مانند اعلانهای مربوط به یک حرکت خاص دوربین، مشکل دارد. OpenAI در ماه فوریه گفت، ویدیوهای ایجاد شده با Sora احتمالاً از طریق خطاهای علت و معلولی شناسایی می شوند، مانند فردی که از یک کوکی لقمه می گیرد اما اثری از لقمه به جا نمی گذارد.
به عنوان مثال، تعامل بین کاراکترها ممکن است تاری (مخصوصاً در اطراف اندام ها) یا عدم قطعیت را از نظر اعداد نشان دهد (به عنوان مثال، در هر زمان معین چند گرگ در ویدیوی زیر وجود دارد؟).
اقدامات احتیاطی OpenAI در اطراف Sora چیست؟
با دستورات و تغییرات مناسب، ویدیوهای سورا به راحتی با لایو اکشن اشتباه گرفته می شوند. OpenAI از مشکلات احتمالی افترا یا اطلاعات نادرست ناشی از این فناوری آگاه است. این شرکت در ماه دسامبر اعلام کرد که برای جلوگیری از «مواد آزار جنسی از کودکان و جعلهای عمیق جنسی» حفاظهایی در نظر گرفته است. آپلود افراد به طور کلی “محدود” است.
اگر Sora برای عموم منتشر شود، OpenAI قصد دارد محتوای ایجاد شده با Sora را واترمارک کند C2PA فراداده با انتخاب تصویر و انتخاب گزینه های منوی File Info یا Properties می توان ابرداده را مشاهده کرد. افرادی که تصاویر تولید شده توسط هوش مصنوعی را ایجاد می کنند، همچنان می توانند متادیتا را عمدا حذف کنند یا ممکن است به طور تصادفی این کار را انجام دهند.
OpenAI در حال حاضر چیزی برای جلوگیری از کاربران تولید کننده تصویر خود ندارد. DALL-E 3، از حذف ابرداده.
Nana Nwachukwu، مشاور اخلاق و حکومت AI در Saidot، در ایمیلی به TechRepublic گفت: «تصمیم OpenAI برای به تاخیر انداختن دسترسی عمومی به Sora، علیرغم اینکه فرصت انتشار زودتر آن را دارد، قطعاً قابل ستایش است.
با این حال، او گفت، هنوز خیلی زود است که بگوییم استراتژیهای کاهش OpenAI چقدر موثر خواهد بود یا اینکه آیا در اتحادیه اروپا منتشر خواهد شد.
Nwachukwu گفت: “حکومت باید در کنار فناوری برای نظارت و مدیریت این خطرات تکامل یابد.” “بدون نظارت مستمر و استانداردهای صنعتی قوی، وعده نوآوری در سایه تهدید اطلاعات نادرست و آسیب قرار می گیرد.”
“در حال حاضر است [difficult] چاندراسکاران در ماه فوریه گفت و به طور فزاینده ای تشخیص محتوای تولید شده توسط هوش مصنوعی توسط انسان غیرممکن خواهد شد. ویسیها در حال سرمایهگذاری در استارتآپهایی هستند که ابزارهای تشخیص دیپفیک را میسازند و آنها (ابزارهای تشخیص عمقی) میتوانند بخشی از زره یک سازمان باشند. با این حال، در آینده، نیاز به مشارکت عمومی و خصوصی برای شناسایی محتوای تولید شده توسط ماشین، اغلب در مرحله ایجاد، وجود دارد.
رقبای سورا کدامند؟
ویدیوهای واقعی سورا کاملاً متمایز هستند، اما خدمات مشابهی وجود دارد. شاید در میان آنها پرمخاطب ترین باشند Veo گوگل، اکنون در پیش نمایش خصوصی است و آمازون در راه است نوا ریلز.
باند تولید هوش مصنوعی متن به ویدئو را برای سازمانی آماده می کند. فلیکی می تواند ویدیوهای محدودی را با همگام سازی صدا برای روایت رسانه های اجتماعی ایجاد کند. هوش مصنوعی مولد اکنون می تواند به طور قابل اعتمادی محتوا را به ویدیوهای گرفته شده به صورت متعارف اضافه یا ویرایش کند.
در 8 فوریه، محققان اپل مقاله ای را در مورد Keyframer’مدل زبان بزرگ پیشنهاد شده است که می تواند تصاویر متحرک و سبکی ایجاد کند.
یادداشت سردبیر: این مقاله در ابتدا در فوریه ارسال شد و در دسامبر به روز شد.
منبع: https://www.techrepublic.com/article/sora-generative-ai-video/