Google's Gemini 2.5 Pro نسبت به مدل AI مورد علاقه خود در برنامه نویسی ، ریاضی و علوم بهتر است

GEMINI 2.5 Google

Google از Gemini 2.5 Pro رونمایی کرده است ، اولین نفر در خانواده Gemini 2.5. این مدل استدلال چندمدی در معیارهای کلیدی مربوط به برنامه نویسی ، ریاضیات و علوم از رقبای Openai ، Anthropic و Deepseek بهتر عمل می کند.

مدل های AI استدلال چیست؟

استدلال AIS به گونه ای طراحی شده است که “قبل از صحبت کردن” فکر کند. آنها زمینه ، جزئیات فرآیند را به صورت روشمند ارزیابی می کنند و پاسخ های بررسی واقعیت را برای اطمینان از دقت منطقی ارزیابی می کنند-اگرچه این قابلیت ها نیاز به محاسبات بیشتر و هزینه های عملیاتی بالاتر دارند.

Openai اولین مدل استدلال را راه اندازی کرد سپتامبر گذشته با O1 ، یک عزیمت قابل توجه از سری GPT ، که تا حد زیادی بر تولید زبان متمرکز بود. از آن زمان ، بازیکنان اصلی مسابقه AI پاسخ داده اند: Deepseek با R1، انسان شناسی با کلود غزل 3.7، و xai با GROK 3بشر

در حال تحول فراتر از “تفکر فلش”

Google قبلاً اولین مدل استدلال AI خود را راه اندازی کرده بود ، تفکر فلش جمینی 2.0، در ماه دسامبر به تازگی به دلیل قابلیت های عامل خود ، به تازگی فکر می کرد به روز شده برای اجازه بارگذاری پرونده و اعلان های بزرگتر ؛ با این حال ، با معرفی Gemini 2.5 Pro ، به نظر می رسد Google در حال بازنشستگی برچسب “تفکر” است.

مطابق اعلامیه Google در مورد Gemini 2.5این امر به این دلیل است که اکنون قابلیت های استدلال در تمام مدلهای آینده به صورت بومی ادغام می شوند. این تغییر به جای جدا کردن ویژگی های “تفکر” به عنوان مارک مستقل ، حرکت به سمت یک معماری یکپارچه تر هوش مصنوعی را نشان می دهد.

مدل آزمایشی جدید “یک مدل پایه به طور قابل توجهی پیشرفته” را با “بهبود یافته پس از آموزش” ترکیب می کند. Google عملکرد خود را در صدر Lmarena Leaderboard ، که در رتبه های اصلی زبان بزرگ در کارهای مختلف قرار دارد ، نشان می دهد.

بارگیری: نحوه استفاده از هوش مصنوعی در تجارت از حق بیمه TechRepublic

رهبر معیار در علوم ، ریاضیات و کد

Gemini 2.5 Pro در معیارهای استدلال دانشگاهی ، 86.7 ٪ در AIME 2025 (ریاضیات) و 84.0 ٪ در معیار الماس GPQA (Science) به دست می آید. در آخرین امتحان بشریت – یک آزمایش گسترده با هزاران سؤال در سراسر ریاضیات ، علوم و علوم انسانی – این مدل با نمره 18.8 ٪ منتهی می شود.

نکته قابل توجه ، این نتایج بدون استفاده از تکنیک های گران قیمت آزمون ، که به مدلهایی مانند O1 و R1 اجازه می دهد تا در طول ارزیابی ادامه یابد ، حاصل شد.

در معیارهای توسعه نرم افزار ، عملکرد Gemini 2.5 Pro مخلوط است. این امتیاز 68.6 ٪ در معیار PolyGlot Aider برای ویرایش کد ، از همه مدل های برتر سطح بالایی برخوردار بود. با این حال ، این امتیاز 63.8 ٪ در SWE-BENCH تأیید شده ، در رده دوم Claude Sonnet 3.7 در کارهای برنامه نویسی گسترده تر قرار گرفت.

با وجود این ، Google می گوید Gemini 2.5 Pro “در ایجاد برنامه های وب و برنامه های عامل قانع کننده بصری” ، همانطور که از توانایی آن مشهود است یک بازی ویدیویی را از یک سریع ایجاد کنیدبشر

این مدل از یک پنجره متن از یک میلیون توکن پشتیبانی می کند ، به این معنی که می تواند معادل سریع 750،000 کلمه یا شش کتاب اول هری پاتر را پردازش کند. گوگل قصد دارد در موعد مقرر این آستانه را به دو میلیون نشانه افزایش دهد.

Gemini 2.5 Pro در حال حاضر از طریق برنامه Advanced Gemini ، که به اشتراک 20 دلار در ماه و برای توسعه دهندگان و شرکت ها از طریق استودیوی Google AI نیاز دارد ، در دسترس است. در هفته های آینده ، Gemini 2.5 Pro در Vertex AI ، پلت فرم یادگیری ماشین Google برای توسعه دهندگان در دسترس قرار می گیرد و جزئیات قیمت گذاری برای محدودیت های مختلف نیز معرفی می شود.

منبع: https://www.techrepublic.com/article/news-google-gemini-2-5-pro/