
OpenAi در حال گسترش پایدار بحث برانگیز خود در صداهای هوش مصنوعی است تا مدل های عامل را شامل شود. مدل های عامل روند داغ در هوش مصنوعی تولیدی هستند و فرآیندهای دو مرحله ای مانند درخواست AI را برای خرید بلیط هواپیما یا تغییر سفارش مشتری امکان پذیر می کنند. به طور خاص ، مدل های جدید عبارتند از:
- GPT-4O-Transcrib و GPT-4O-Mini-transcrib ، که هر دو مدل گفتار به متن هستند.
- GPT-4O-MINI-TTS ، یک مدل متن به گفتار.
توسعه دهندگان می توانند به API OpenAI دسترسی پیدا کرده و آنها را با Agents SDK ادغام کنند. افزودن متن به گفتار و گفتار به متن به API به آنها اجازه می دهد تا در انواع برنامه های هوش مصنوعی مورد استفاده قرار گیرند ، از جمله ابزارهای عاملبشر
صداهای مصنوعی پیشرفته می توانند کلاهبرداری ها را قانع کننده تر کنند
این شرکت می خواهد “تعامل عمیق تر و شهودی تر با نمایندگان فراتر از متن را فعال کند” ، اما افزودن انعطاف پذیری و استقلال بیشتر در مدل های صوتی ، امکان ربات های کلاهبرداری قانع کننده تر را ایجاد می کند.
طبق گفته های یک “ما ادامه می دهیم تا با سیاست گذاران ، محققان ، توسعه دهندگان و خلاقیت ها در گفتگو با سیاست گذاران ، محققان ، توسعه دهندگان و خلاقیت ها شرکت کنیم.” خبرنامهبشر
ببینید: مقداری پول نقد اضافی دارید؟ شما به آن برای API جدید Openai نیاز دارید
مدل ها برای صحت ، قابلیت اطمینان و واقع گرایی تنظیم شده اند
در تاریخ 21 مارس ، OpenAI ابزارهای صوتی جدید گفتار به متن و متن به گفتار را در API منتشر کرد. این مدل ها برای صحت و قابلیت اطمینان ، به ویژه در مکالمات از جمله “لهجه ها ، محیط های پر سر و صدا و سرعت گفتار متفاوت” تنظیم شده اند. این مدل ها برای مراکز تماس با مشتری یا رونویسی جلسات در نظر گرفته شده است.
همچنین می توان به آنها دستور داد تا به روش های خاصی صحبت کنند ، از عمداً خاص گرفته تا دراماتیک یا شاد. Openai برخی از این موارد را پیش بینی می کند مدل های AI مورد استفاده برای “روایت بیانگر برای تجربیات قصه گویی خلاق”. من می توانم تصور کنم که این مورد در پارک های موضوعی یا رویدادهای تئاتری مورد استفاده قرار می گیرد – از مواردی استفاده کنید که باعث افزایش Specter of AI می شود و حرفه های خلاق را جایگزین می کند. به عنوان مثال صداهای Openai پیشنهاد می کنند “داستان خواب” ، “Surfer” ، “Buff Crime True” و “Knight Medieval”.
GPT-4O-Transcrib و GPT-4O-Mini-transcribe برای رونویسی دقیق تر گفتار ، به ویژه در مکالمات با لهجه ها ، سر و صدای پس زمینه یا سرعت گفتار متفاوت طراحی شده اند.
GPT-4O-Mini-TTS می تواند دستورالعمل هایی را برای مطابقت با لحن یا گرفتن شخصیت ها دنبال کند. Openai مراقب است که اشاره کند که تمام صداهای متن به گفتار در API “صداهای مصنوعی و از پیش تعیین شده” هستند-قطعاً نه اسکارلت یوهانسون، که این شرکت را متهم کرده است که بدون رضایت از صدای خود تقلید می کند.
ویدیوی عامل AI ممکن است در راه باشد
در مرحله بعد ، Openai گفت که توسعه دهندگان قادر خواهند بود “صداهای سفارشی” را برای “تجربیات شخصی سازی شده به روش هایی که با استانداردهای ایمنی ما هماهنگ باشد” به ارمغان بیاورند. این شرکت همچنین در حال دنبال کردن راه های استفاده از فیلم در تجربیات Aticic AI است.
منبع: https://www.techrepublic.com/article/news-openai-agentic-voice-models-text-to-speech-to-text/