مدل جدید AI Nova Sonic Amazon دارای "صدای انسانی تر" است

تصویر از سایت آمازون آمازون نوا بوم ، یکی از مدلهای پایه آن برای تولید تصاویر با کیفیت بالا. — آمازون نوا بوم یک الگوی پایه و اساس برای توسعه دهندگان برای ایجاد تصاویر با کیفیت بالا است. تصویر: آمازون

آمازون آخرین غول فنی است که از یک مدل صوتی صوتی رونمایی می کند. به گفته آمازون ، Nova Sonic آن “یک الگوی جدید بنیاد است که درک گفتار و تولید گفتار را به یک مدل واحد تبدیل می کند تا مکالمات صوتی مانند انسان را در برنامه های هوش مصنوعی بیشتر کند.” نوا سونیک توسط OpenAI ، Google و سایر شرکت های فناوری با مدل های AI مشابه رقابت خواهد کرد.

نوا سونیک بیش از کلمات می فهمد

نوا سونیک فقط سخنان گوینده را درک نمی کند ، بلکه می تواند لحن ، سبک و سرعت را پردازش کند. ژنراتور صوتی AI با زمینه مکالمه سازگار است ، بنابراین گفتگو به طور طبیعی تر جریان می یابد ، در مقایسه با مدل های محکم تر از نسل های اول الکسا. نوا سونیک می تواند این کار را انجام دهد زیرا به جای استفاده از مدل های مختلف مختلف ، پردازش گفتار و تولید چندین کارکرد را در یک مدل AI واحد ترکیب می کند.

به طور سنتی ، ابزارهای صوتی AI شامل اجرای چندین مدل به صورت توالی: یک مدل تشخیص گفتار می تواند گفتار را به متن تبدیل کند ، سپس یک مدل زبان بزرگ (LLM) متن ورودی را پردازش می کند و پاسخ ها را ایجاد می کند ، و در نهایت یک مدل متن به گفتار متن را به صدا تبدیل می کند. این خط لوله پیچیده اغلب لحن ، سبک و قدم زدن گفتگوی اصلی گوینده را از بین می برد.

از آنجا که نوا سونیک همه اینها را در یک مدل ترکیب می کند ، می تواند با زمینه آکوستیک گفتار ورودی سازگار شود. همچنین به طور طبیعی به کادرهای گفتار انسانی پاسخ می دهد. به عنوان مثال ، وقتی گوینده دریغ یا مکث می کند تا نفس بکشد ، قطع نمی شود.

چگونه نوا صوتی را بدست آوریم

نوا سونیک در حال حاضر از طریق یک API جدید در آمازون Bedrock ، پلت فرم ساخت برنامه شرکت شرکت در دسترس است و توسعه برنامه های صوتی را ساده می کند.

آنچه توسعه دهندگان باید درباره آمازون نوا بدانند

غول فناوری اخیراً آمازون نوا ACT را معرفی کرده است ، یک مدل جدید هوش مصنوعی که برای انجام اقدامات در یک مرورگر وب آموزش دیده است. علاوه بر این ، یک SDK آمازون نوا برای توسعه دهندگان وجود دارد. یکی از مدلهای بنیاد ، نوا بوم برای تولید تصاویر با کیفیت بالا است. همچنین مدل هایی برای تولید متن از روشهای مختلف و همچنین فیلم هایی از ورودی متن و تصویر وجود دارد.

منبع: https://www.techrepublic.com/article/news-amazon-nova-sonic-ai/