گوگل رونمایی کرده است جمینی زنده، دستیار صوتی مکالمه ای که قرار است رقیب شود OpenAI‘s حالت صدا.
ویژگی جدید Live که از طریق برنامه Gemini در اندروید و iOS در دسترس است، به کاربران اجازه می دهد تا با استفاده از صدای خود با هوش مصنوعی تعامل داشته باشند.
پشتیبانی شده توسط گوگل مدل فلش جمینی 1.5، ویژگی Live می تواند به سؤالات مختلف از صداهای تولید شده، در مجموع 10 پاسخ پاسخ دهد. کاربران می توانند از چت بات بخواهند لیست خرید آنها را مدیریت کند یا ایمیل های دریافتی را خلاصه کند.
سیسی هسیائو، مدیر کل تجارب جمینی و دستیار گوگل، گفت: “با Gemini، ما در حال تجسم معنای واقعی مفید بودن یک دستیار شخصی هستیم.” جمینی در حال تکامل است تا کمکهای تلفن همراه مبتنی بر هوش مصنوعی را ارائه دهد که سطح جدیدی از کمک را ارائه میکند – همه اینها در عین طبیعیتر، مکالمهای و شهودیتر است.
https://www.youtube.com/watch?v=fY5jwF7TQmE
پاسخ Google به ChatGPT Voice Mode به کاربران این امکان را میدهد که هنگام انتقال به یک برنامه دیگر و حتی زمانی که تلفن آنها قفل است، با ربات چت صحبت کنند و این امکان را فراهم میکند تا تعاملات به گونهای انجام شود که گویی در حال برقراری تماس تلفنی معمولی هستند.
Gemini Live در حال حاضر به زبان انگلیسی برای مشترکین Gemini Advanced در تلفنهای اندرویدی در دسترس است، قبل از اینکه در هفتههای آینده به iOS و زبانهای دیگر بیاید.
Gemini Advanced یک دوره آزمایشی رایگان را برای ماه اول ارائه می دهد، با هزینه اشتراک 20 دلار در ماه پس از آن.
علاوه بر قابلیت صوتی جدید، مشترکین به مدل Gemini 1.5 Pro و طول ورودی بزرگ آن و همچنین فضای ذخیرهسازی بیشتر، دسترسی به Gemini در برنامههای Workspace و امکان آپلود فایلها برای تعامل با ربات چت دسترسی دارند.
Live افزونههای بیشتری دریافت میکند – از جمله قابلیت همکاری با سایر برنامههای Google مانند YouTube Music، که در آن ربات چت میتواند لیستهای پخش را از پیامهای صوتی ایجاد کند.
همچنین در حال کار است که از تقویم پشتیبانی میکند و به ربات چت اجازه میدهد با برنامه تقویم کاربر تعامل داشته باشد تا یادآور رویدادهای آینده باشد.
ویژگی های جدید در هفته های آینده انتظار می رود.
Hsiao در یک پست وبلاگ نوشت: «از آنجایی که Gemini ادغام های عمیقی برای اندروید ایجاد کرده است، می تواند بیش از خواندن صفحه نمایش انجام دهد. این می تواند با بسیاری از برنامه هایی که قبلاً استفاده می کنید تعامل داشته باشد. به عنوان مثال، میتوانید تصاویری را که Gemini تولید میکند به طور مستقیم به برنامههایی مانند Gmail و Google Messages بکشید و رها کنید.
علاوه بر قابلیت های جدید، گوگل قصد دارد سرعت و کیفیت پاسخ های زنده را بهبود بخشد. زیربنای 1.5 مدل فلش بود در رویداد Google I/O امسال رونمایی شد و با وجود کوچکتر بودن از مدل پرچمدار 1.5 Pro، همچنان دارای همان پنجره زمینه بزرگ است، به این معنی که می تواند ورودی های داده عظیمی را اداره کند.
Gemini Live در حالی عرضه میشود که OpenAI بهبودهای خود را در ویژگی صوتی ChatGPT با ویژگی جدید افزایش میدهد GPT-4o عملکرد صوتی چت بات را به شدت بهبود می بخشد.
OpenAI اخیرا شروع به عرضه حالت صوتی ChatGPT تازه اصلاح شده کرد، اگرچه در حال حاضر برای گروه کوچکی از مشترکین ChatGPT Plus قفل شده است.
برخی ممکن است بگویند گوگل به سادگی حالت صوتی ChatGPTs را کپی می کند، اما شرکت جستجو مدتی است که روی چیزی مشابه کار می کند.
Gemini Live نگاهی اجمالی به آنچه محققان آن روی آن کار کرده اند است، با یک عامل مکالمه ای که در ماه می در I/O تحت عنوان شعار مورد تمسخر قرار گرفت. پروژه آسترا.
https://www.youtube.com/watch?v=nXVvvRhiGjI