Openai O3-PRO را منتشر می کند ، ارتقاء “باهوش ترین مدل” آن


OpenAi رسماً O3-PRO ، جدیدترین و پیشرفته ترین مدل را در ترکیب سری O خود راه اندازی کرده است. تکرارهای اولیه این خانواده مدل به طور مداوم نتایج محکمی را در معیارهای استاندارد هوش مصنوعی-به ویژه در کارهای ریاضی ، برنامه نویسی و علمی-ارائه داده اند و O3-PRO بر آن نقاط قوت ایجاد می کند.

در یادداشت های Openai’s O3-Pro را منتشر کنید بخوانید ، بخشی از آن: “مانند O1-PRO ، O3-PRO نسخه ای از هوشمندانه ترین مدل ما ، O3 است که برای فکر کردن طولانی تر است و قابل اطمینان ترین پاسخ ها را ارائه می دهد. از آنجا که راه اندازی O1-PRO ، کاربران از این مدل برای دامنه هایی مانند ریاضی ، علوم و برنامه نویسی استفاده کرده اند.

مدل O3-PRO در حال حاضر برای کاربران Pro and Team در ChatGPT و API خود در دسترس است و در دسترس بودن برای حساب های EDU و شرکت های انتظار می رود که هفته آینده و پس از یک برنامه چرخشی مشابه مدل های قبلی پیش بینی شود.

ارزیابی های تطبیقی

قبل از انتشار داده های معیار ، Openai به آزمایش کنندگان انسانی این فرصت را داد تا O3-PRO را امتحان کنند و آن را در برابر نتایج مقایسه کنند O3بشر اکثر این آزمایش کنندگان انسانی O3-PRO را بیش از O3 در مناطق کلیدی ترجیح می دهند ، از جمله:

  • همه نمایش داده شد (64 ٪)
  • تجزیه و تحلیل علمی (64.9 ٪)
  • نوشتن شخصی (66.7 ٪)
  • برنامه نویسی رایانه (7 /62 ٪)
  • تجزیه و تحلیل داده ها (64.3 ٪)

معیارهای دقت و کارآیی را عبور دهید

اغلب برای اندازه گیری کارآیی استفاده می شود مدلهای مدرن هوش مصنوعی، یک معیار Pass@1 توانایی مدل در ایجاد یک پاسخ دقیق در اولین تلاش را برجسته می کند. با کمال تعجب ، O3-PRO از O3 و O1-PRO در معیارهای مختلف بهتر عمل می کند.

ریاضیات رقابتی (Aime 2024) علوم سطح دکترا (الماس GPQA) برنامه نویسی رقابتی (CodeForces)
O3-Pro 93 ٪ 84 ٪ 2748
O3 90 ٪ 81 ٪ 2517
O1-Pro 86 ٪ 79 ٪ 1707

معیارهای قابلیت اطمینان 4/4

در تیم در Openai مدل های هوش مصنوعی خود را در یک سری معیارهای قابلیت اطمینان 4/4 قرار دادند. در این ارزیابی ها ، یک مدل AI تنها در صورتی که در چهار مورد از چهار تلاش پاسخ صحیحی ارائه دهد ، می تواند موفقیت آمیز باشد. هرگونه تلاش ناموفق منجر به خرابی خودکار معیارهای قابلیت اطمینان 4/4 می شود.

ریاضیات رقابتی (Aime 2024) علوم سطح دکترا (الماس GPQA) برنامه نویسی رقابتی (CodeForces)
O3-Pro 90 ٪ 76 ٪ 2301
O3 80 ٪ 67 ٪ 2011
O1-Pro 80 ٪ 74 ٪ 1423

محدودیت O3-Pro

محدودیت های O3-PRO که باید در نظر بگیرید عبارتند از:

  • در زمان این نوشتار ، چت های موقت در O3-PRO در حال حاضر غیرفعال هستند در حالی که تیم OpenAi به یک مسئله فنی می پردازد.
  • O3-Pro از تولید تصویر پشتیبانی نمی کند. از کاربران نیاز به عملکرد تولید تصویر خواسته می شود از GPT-4O ، Openai O3 یا Openai O4-Mini استفاده کنند.
  • O3-PRO از رابط بوم OpenAi پشتیبانی نمی کند. مشخص نیست که آیا پشتیبانی در تاریخ بعدی اضافه می شود.>

وزن و جوانب مثبت و منفی O3-Pro

اگرچه Openai اذعان می کند که O3-PRO در برخی موارد کندتر از O1-PRO عمل می کند ، اما نتیجه ویژگی های اضافی در آخرین نسخه است. به عنوان ویرایشگر مدیریت فناوری کوری نولز در راهنمای کاربر خود در سایت خواهر TechRepublic The Neuron می نویسد، “O3 – Pro دوست روزمره شما نیست.

با امکان جستجوی اینترنت در زمان واقعی ، انجام تجزیه و تحلیل داده های پیچیده ، ارائه استدلال بر اساس اعلان های بصری و موارد دیگر ، O3-PRO در هنگام عملکرد کلی ، برنده واضح است.

پوشش ما را بخوانید پیش بینی های Superintelligence توسط مدیر عامل OpenAi سام آلتمنبشر



منبع: https://www.techrepublic.com/article/news-openai-o3-pro/

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *