
آمازون آخرین غول فنی است که از یک مدل صوتی صوتی رونمایی می کند. به گفته آمازون ، Nova Sonic آن “یک الگوی جدید بنیاد است که درک گفتار و تولید گفتار را به یک مدل واحد تبدیل می کند تا مکالمات صوتی مانند انسان را در برنامه های هوش مصنوعی بیشتر کند.” نوا سونیک توسط OpenAI ، Google و سایر شرکت های فناوری با مدل های AI مشابه رقابت خواهد کرد.
نوا سونیک بیش از کلمات می فهمد
نوا سونیک فقط سخنان گوینده را درک نمی کند ، بلکه می تواند لحن ، سبک و سرعت را پردازش کند. ژنراتور صوتی AI با زمینه مکالمه سازگار است ، بنابراین گفتگو به طور طبیعی تر جریان می یابد ، در مقایسه با مدل های محکم تر از نسل های اول الکسا. نوا سونیک می تواند این کار را انجام دهد زیرا به جای استفاده از مدل های مختلف مختلف ، پردازش گفتار و تولید چندین کارکرد را در یک مدل AI واحد ترکیب می کند.
به طور سنتی ، ابزارهای صوتی AI شامل اجرای چندین مدل به صورت توالی: یک مدل تشخیص گفتار می تواند گفتار را به متن تبدیل کند ، سپس یک مدل زبان بزرگ (LLM) متن ورودی را پردازش می کند و پاسخ ها را ایجاد می کند ، و در نهایت یک مدل متن به گفتار متن را به صدا تبدیل می کند. این خط لوله پیچیده اغلب لحن ، سبک و قدم زدن گفتگوی اصلی گوینده را از بین می برد.
از آنجا که نوا سونیک همه اینها را در یک مدل ترکیب می کند ، می تواند با زمینه آکوستیک گفتار ورودی سازگار شود. همچنین به طور طبیعی به کادرهای گفتار انسانی پاسخ می دهد. به عنوان مثال ، وقتی گوینده دریغ یا مکث می کند تا نفس بکشد ، قطع نمی شود.
چگونه نوا صوتی را بدست آوریم
نوا سونیک در حال حاضر از طریق یک API جدید در آمازون Bedrock ، پلت فرم ساخت برنامه شرکت شرکت در دسترس است و توسعه برنامه های صوتی را ساده می کند.
آنچه توسعه دهندگان باید درباره آمازون نوا بدانند
غول فناوری اخیراً آمازون نوا ACT را معرفی کرده است ، یک مدل جدید هوش مصنوعی که برای انجام اقدامات در یک مرورگر وب آموزش دیده است. علاوه بر این ، یک SDK آمازون نوا برای توسعه دهندگان وجود دارد. یکی از مدلهای بنیاد ، نوا بوم برای تولید تصاویر با کیفیت بالا است. همچنین مدل هایی برای تولید متن از روشهای مختلف و همچنین فیلم هایی از ورودی متن و تصویر وجود دارد.
منبع: https://www.techrepublic.com/article/news-amazon-nova-sonic-ai/