مدل های جدید AI Openai O3 و O4-Mini اکنون می توانند "با تصاویر فکر کنند"

عکس مدیرعامل OpenAi سام آلتمن با آرم این شرکت. — مدیرعامل Openai سام آلتمن. تصویر: عوام خلاق

Openai دو مدل جدید هوش مصنوعی ، O3 و O4 – Mini را به نمایش گذاشته است که به معنای واقعی کلمه می تواند “با تصاویر فکر کند” ، یک قدم بزرگ به جلو در نحوه درک ماشین ها تصاویر را نشان می دهد. این مدل ها ، که در یک بیانیه مطبوعاتی OpenAI اعلام شده اند ، می توانند در مورد تصاویر به همان روشی که در مورد متن انجام می دهند ، استدلال کند – کشت ، بزرگنمایی و چرخش عکس ها به عنوان بخشی از روند فکر داخلی آنها.

در قلب این بروزرسانی توانایی ترکیب استدلال بصری و کلامی است.

“Openai O3 و O4 – مینی با استدلال با تصاویر در زنجیره اندیشه خود ، یک پیشرفت چشمگیر در درک بصری را نشان می دهد. ” مطبوعاتبشر بر خلاف نسخه های گذشته ، این مدل ها به سیستم های بینایی جداگانه متکی نیستند – در عوض ، آنها به طور بومی ابزارهای تصویر و ابزارهای متنی را برای پاسخ های غنی تر و دقیق تر مخلوط می کنند.

چگونه “فکر کردن با تصاویر” چگونه کار می کند؟

این مدل ها می توانند مانند بخشی از روند تفکر خود ، مانند انسان ، یک تصویر را به عنوان بخشی از روند تفکر خود بکشند ، زوم کنند و یا یک تصویر را بچرخانند. آنها فقط آنچه را که در یک عکس وجود دارد ، می شناسند بلکه با آن کار می کنند تا نتیجه گیری را به دست آورند.

این شرکت خاطرنشان می کند که “chatgpt’s هوش پیشرفته بصری به شما کمک می کند تا با تجزیه و تحلیل دقیق تر ، دقیق تر و قابل اعتماد تر از گذشته ، مشکلات سخت تر را حل کنید. “

این بدان معناست که اگر عکسی از یک مشکل ریاضی دست نویس ، یک علامت مبهم یا یک نمودار پیچیده را بارگذاری کنید ، مدل نه تنها می تواند آن را درک کند ، بلکه آن را گام به گام خراب می کند – احتمالاً حتی بهتر از گذشته.

از مدل های قبلی در معیارهای کلیدی بهتر عمل می کند

این توانایی های جدید از نظر تئوری فقط چشمگیر نیستند. Openai می گوید هر دو مدل نسبت به پیشینیان خود نسبت به معیارهای برتر دانشگاهی و هوش مصنوعی بهتر عمل می کنند.

این شرکت در بیانیه ای خاطرنشان کرد: “مدل های ما عملکرد جدید و پیشرفته ای را در پاسخ به سؤال STEM (MMMU ، MATHVISTA) ، خواندن نمودار و استدلال (Charxiv) ، Perception Primitives (VLM ها کور) و جستجوی بصری (V*) تنظیم کرده اند.” “در V*، رویکرد استدلال بصری ما به دقت 95.7 ٪ دست می یابد ، تا حد زیادی معیار را حل می کند.”

اما مدل ها کامل نیستند. Openai اذعان می کند که مدل ها می توانند گاهی اوقات سرنگون شوند و منجر به دستکاری تصویر طولانی و غیر ضروری می شوند. همچنین مواردی وجود دارد که هوش مصنوعی ممکن است با وجود استفاده صحیح از ابزارهایی برای تجزیه و تحلیل تصویر ، آنچه را که می بیند اشتباه تفسیر کند. این شرکت همچنین هنگام تلاش چندین بار در مورد مسائل مربوط به قابلیت اطمینان هشدار داد.

چه کسی می تواند از Openai O3 و O4-Mini استفاده کند؟

از تاریخ 16 آوریل ، هر دو O3 و O4-Mini در دسترس کاربران Chatgpt Plus ، Pro و Team هستند. آنها مدل های قدیمی تر مانند O1 و O3-Mini را جایگزین می کنند. کاربران سازمانی و آموزش هفته هفته دسترسی پیدا می کنند و کاربران رایگان می توانند O4-Mini را از طریق ویژگی جدید “Think” امتحان کنند.

منبع: https://www.techrepublic.com/article/news-openai-models-o3-o4mini/