
OpenAi رسماً O3-PRO ، جدیدترین و پیشرفته ترین مدل را در ترکیب سری O خود راه اندازی کرده است. تکرارهای اولیه این خانواده مدل به طور مداوم نتایج محکمی را در معیارهای استاندارد هوش مصنوعی-به ویژه در کارهای ریاضی ، برنامه نویسی و علمی-ارائه داده اند و O3-PRO بر آن نقاط قوت ایجاد می کند.
در یادداشت های Openai’s O3-Pro را منتشر کنید بخوانید ، بخشی از آن: “مانند O1-PRO ، O3-PRO نسخه ای از هوشمندانه ترین مدل ما ، O3 است که برای فکر کردن طولانی تر است و قابل اطمینان ترین پاسخ ها را ارائه می دهد. از آنجا که راه اندازی O1-PRO ، کاربران از این مدل برای دامنه هایی مانند ریاضی ، علوم و برنامه نویسی استفاده کرده اند.
مدل O3-PRO در حال حاضر برای کاربران Pro and Team در ChatGPT و API خود در دسترس است و در دسترس بودن برای حساب های EDU و شرکت های انتظار می رود که هفته آینده و پس از یک برنامه چرخشی مشابه مدل های قبلی پیش بینی شود.
ارزیابی های تطبیقی
قبل از انتشار داده های معیار ، Openai به آزمایش کنندگان انسانی این فرصت را داد تا O3-PRO را امتحان کنند و آن را در برابر نتایج مقایسه کنند O3بشر اکثر این آزمایش کنندگان انسانی O3-PRO را بیش از O3 در مناطق کلیدی ترجیح می دهند ، از جمله:
- همه نمایش داده شد (64 ٪)
- تجزیه و تحلیل علمی (64.9 ٪)
- نوشتن شخصی (66.7 ٪)
- برنامه نویسی رایانه (7 /62 ٪)
- تجزیه و تحلیل داده ها (64.3 ٪)
معیارهای دقت و کارآیی را عبور دهید
اغلب برای اندازه گیری کارآیی استفاده می شود مدلهای مدرن هوش مصنوعی، یک معیار Pass@1 توانایی مدل در ایجاد یک پاسخ دقیق در اولین تلاش را برجسته می کند. با کمال تعجب ، O3-PRO از O3 و O1-PRO در معیارهای مختلف بهتر عمل می کند.
ریاضیات رقابتی (Aime 2024) | علوم سطح دکترا (الماس GPQA) | برنامه نویسی رقابتی (CodeForces) | |
---|---|---|---|
O3-Pro | 93 ٪ | 84 ٪ | 2748 |
O3 | 90 ٪ | 81 ٪ | 2517 |
O1-Pro | 86 ٪ | 79 ٪ | 1707 |
معیارهای قابلیت اطمینان 4/4
در تیم در Openai مدل های هوش مصنوعی خود را در یک سری معیارهای قابلیت اطمینان 4/4 قرار دادند. در این ارزیابی ها ، یک مدل AI تنها در صورتی که در چهار مورد از چهار تلاش پاسخ صحیحی ارائه دهد ، می تواند موفقیت آمیز باشد. هرگونه تلاش ناموفق منجر به خرابی خودکار معیارهای قابلیت اطمینان 4/4 می شود.
ریاضیات رقابتی (Aime 2024) | علوم سطح دکترا (الماس GPQA) | برنامه نویسی رقابتی (CodeForces) | |
---|---|---|---|
O3-Pro | 90 ٪ | 76 ٪ | 2301 |
O3 | 80 ٪ | 67 ٪ | 2011 |
O1-Pro | 80 ٪ | 74 ٪ | 1423 |
محدودیت O3-Pro
محدودیت های O3-PRO که باید در نظر بگیرید عبارتند از:
- در زمان این نوشتار ، چت های موقت در O3-PRO در حال حاضر غیرفعال هستند در حالی که تیم OpenAi به یک مسئله فنی می پردازد.
- O3-Pro از تولید تصویر پشتیبانی نمی کند. از کاربران نیاز به عملکرد تولید تصویر خواسته می شود از GPT-4O ، Openai O3 یا Openai O4-Mini استفاده کنند.
- O3-PRO از رابط بوم OpenAi پشتیبانی نمی کند. مشخص نیست که آیا پشتیبانی در تاریخ بعدی اضافه می شود.>
وزن و جوانب مثبت و منفی O3-Pro
اگرچه Openai اذعان می کند که O3-PRO در برخی موارد کندتر از O1-PRO عمل می کند ، اما نتیجه ویژگی های اضافی در آخرین نسخه است. به عنوان ویرایشگر مدیریت فناوری کوری نولز در راهنمای کاربر خود در سایت خواهر TechRepublic The Neuron می نویسد، “O3 – Pro دوست روزمره شما نیست.
با امکان جستجوی اینترنت در زمان واقعی ، انجام تجزیه و تحلیل داده های پیچیده ، ارائه استدلال بر اساس اعلان های بصری و موارد دیگر ، O3-PRO در هنگام عملکرد کلی ، برنده واضح است.
پوشش ما را بخوانید پیش بینی های Superintelligence توسط مدیر عامل OpenAi سام آلتمنبشر
منبع: https://www.techrepublic.com/article/news-openai-o3-pro/