Openai O3-PRO را منتشر می کند ، ارتقاء "باهوش ترین مدل" آن

ارزیابی های مقایسه ای O3-Pro Openai با آزمایش کنندگان انسانی. تصویر: Openai

OpenAi رسماً O3-PRO ، جدیدترین و پیشرفته ترین مدل را در ترکیب سری O خود راه اندازی کرده است. تکرارهای اولیه این خانواده مدل به طور مداوم نتایج محکمی را در معیارهای استاندارد هوش مصنوعی-به ویژه در کارهای ریاضی ، برنامه نویسی و علمی-ارائه داده اند و O3-PRO بر آن نقاط قوت ایجاد می کند.

در یادداشت های Openai’s O3-Pro را منتشر کنید بخوانید ، بخشی از آن: “مانند O1-PRO ، O3-PRO نسخه ای از هوشمندانه ترین مدل ما ، O3 است که برای فکر کردن طولانی تر است و قابل اطمینان ترین پاسخ ها را ارائه می دهد. از آنجا که راه اندازی O1-PRO ، کاربران از این مدل برای دامنه هایی مانند ریاضی ، علوم و برنامه نویسی استفاده کرده اند.

مدل O3-PRO در حال حاضر برای کاربران Pro and Team در ChatGPT و API خود در دسترس است و در دسترس بودن برای حساب های EDU و شرکت های انتظار می رود که هفته آینده و پس از یک برنامه چرخشی مشابه مدل های قبلی پیش بینی شود.

ارزیابی های تطبیقی

قبل از انتشار داده های معیار ، Openai به آزمایش کنندگان انسانی این فرصت را داد تا O3-PRO را امتحان کنند و آن را در برابر نتایج مقایسه کنند O3بشر اکثر این آزمایش کنندگان انسانی O3-PRO را بیش از O3 در مناطق کلیدی ترجیح می دهند ، از جمله:

همه نمایش داده شد (64 ٪)
تجزیه و تحلیل علمی (64.9 ٪)
نوشتن شخصی (66.7 ٪)
برنامه نویسی رایانه (7 /62 ٪)
تجزیه و تحلیل داده ها (64.3 ٪)

معیارهای دقت و کارآیی را عبور دهید

اغلب برای اندازه گیری کارآیی استفاده می شود مدلهای مدرن هوش مصنوعی، یک معیار Pass@1 توانایی مدل در ایجاد یک پاسخ دقیق در اولین تلاش را برجسته می کند. با کمال تعجب ، O3-PRO از O3 و O1-PRO در معیارهای مختلف بهتر عمل می کند.

	ریاضیات رقابتی (Aime 2024)	علوم سطح دکترا (الماس GPQA)	برنامه نویسی رقابتی (CodeForces)
O3-Pro	93 ٪	84 ٪	2748
O3	90 ٪	81 ٪	2517
O1-Pro	86 ٪	79 ٪	1707

معیارهای قابلیت اطمینان 4/4

در تیم در Openai مدل های هوش مصنوعی خود را در یک سری معیارهای قابلیت اطمینان 4/4 قرار دادند. در این ارزیابی ها ، یک مدل AI تنها در صورتی که در چهار مورد از چهار تلاش پاسخ صحیحی ارائه دهد ، می تواند موفقیت آمیز باشد. هرگونه تلاش ناموفق منجر به خرابی خودکار معیارهای قابلیت اطمینان 4/4 می شود.

	ریاضیات رقابتی (Aime 2024)	علوم سطح دکترا (الماس GPQA)	برنامه نویسی رقابتی (CodeForces)
O3-Pro	90 ٪	76 ٪	2301
O3	80 ٪	67 ٪	2011
O1-Pro	80 ٪	74 ٪	1423

محدودیت O3-Pro

محدودیت های O3-PRO که باید در نظر بگیرید عبارتند از:

در زمان این نوشتار ، چت های موقت در O3-PRO در حال حاضر غیرفعال هستند در حالی که تیم OpenAi به یک مسئله فنی می پردازد.
O3-Pro از تولید تصویر پشتیبانی نمی کند. از کاربران نیاز به عملکرد تولید تصویر خواسته می شود از GPT-4O ، Openai O3 یا Openai O4-Mini استفاده کنند.
O3-PRO از رابط بوم OpenAi پشتیبانی نمی کند. مشخص نیست که آیا پشتیبانی در تاریخ بعدی اضافه می شود.>

وزن و جوانب مثبت و منفی O3-Pro

اگرچه Openai اذعان می کند که O3-PRO در برخی موارد کندتر از O1-PRO عمل می کند ، اما نتیجه ویژگی های اضافی در آخرین نسخه است. به عنوان ویرایشگر مدیریت فناوری کوری نولز در راهنمای کاربر خود در سایت خواهر TechRepublic The Neuron می نویسد، “O3 – Pro دوست روزمره شما نیست.

با امکان جستجوی اینترنت در زمان واقعی ، انجام تجزیه و تحلیل داده های پیچیده ، ارائه استدلال بر اساس اعلان های بصری و موارد دیگر ، O3-PRO در هنگام عملکرد کلی ، برنده واضح است.

پوشش ما را بخوانید پیش بینی های Superintelligence توسط مدیر عامل OpenAi سام آلتمنبشر

منبع: https://www.techrepublic.com/article/news-openai-o3-pro/