
محقق AI AI AI و مهندس بین رشته ای در مورد چگونگی تأخیر ، نه زبانشناسی ، انقلاب رابط را تعریف می کند
با توجه به اخیر تجزیه و تحلیل بازارپیش بینی می شود که AI در بازار صدا دستیار از 3.54 میلیارد دلار در سال 2024 به 4.66 میلیارد دلار در سال 2025 با 8.4 میلیارد دلار رشد کند. دستگاه های دستیار صدا انتظار می رود تا سال 2025 در سراسر جهان مورد استفاده قرار گیرد. با این حال ، صدا در محیط های سازمانی و اتوماسیون تجاری مورد استفاده قرار نمی گیرد.
چه چیزی آن را عقب نگه می دارد ، و چه چیزی در حال تغییر است؟ AI Time Journal با Vitaliy Danylov ، بنیانگذار یک استارتاپ AI AI مستقر در ایالات متحده که بر ارتباطات مرزی متمرکز شده است ، صحبت می کند. دنیلوف دارای دو مدرک کارشناسی ارشد (از NYU و DNU) است ، یک کتاب و سه مقاله بررسی شده در مورد AI AI ، و راه حل های درجه بندی سازمانی که قبلاً توسعه یافته بود برای شرکت هایی مانند Take-Two Software Interactive ، Shiloh Industries و Tower International ، تألیف کرده است. در سال 2025 ، وی به عنوان قاضی بیستمین دوره جوایز سالانه Globee برای فناوری ، با ارزیابی بیش از 50 ارسال در زمینه های زیرساخت های هوش مصنوعی و ابر.
“مردم بیش از تحمل تأخیر پنج ثانیه ای ، تن رباتیک را تحمل می کنند”
ویتالی ، بیشتر متخصصان از زمینه های صرفاً فنی به صدا در می آیند. شما یک ترکیب نادر دارید: تجزیه و تحلیل مالی ، علوم سیاسی و اکنون علوم کامپیوتر. آیا این درک از تجارت ، رفتار انسان و فناوری ها به شما چشم انداز ویژه ای می دهد که چرا صدا به رابط غالب تبدیل می شود؟
بله ، پیشینه من یک لنز منحصر به فرد به من می دهد. امور مالی و تجزیه و تحلیل تجارت به من آموخت که چگونه مشاغل فکر می کنند ، چه فناوری هایی می چسبند و چه چیزی نمی کنند. علوم سیاسی و سایر کلاسهای علوم اجتماعی که من در آن گذراندم ، بینشی در مورد رفتار انسان به من ارائه داد: آنچه مردم به طور طبیعی اتخاذ می کنند و چه چیزی احساس اجباری می کنند ، صرف نظر از اینکه چقدر خوب به بازار عرضه شده است. و تجربه فنی من به من اجازه می دهد آنچه را که قابل اجرا است ارزیابی کنم. این نمای سه زاویه به من کمک می کند تا اعتیاد به مواد مخدره را فیلتر کنم. صدا سریع است ، حداقل 3 برابر سریعتر از تایپ کردن ، و برای اولین بار تشخیص گفتار به اندازه کافی دقیق است تا سر و صدای واقعی ، لهجه ها و تأخیر در دنیای واقعی را کنترل کند. این نکته مهم اخیراً اتفاق افتاده است ، و به همین دلیل است که من معتقدم صدا در بسیاری از تعامل های انسان و انسان جایگزین متن می شود. از آنجا که AI صوتی به اندازه کافی سریع و پایدار برای محیط های تولید می شود ، طبیعتاً با روند دیگری ادغام می شود: ظهور کارگران دیجیتال با قدرت AI. آنچه که قبلاً یک چت بیت بود ، به یک عامل دیجیتالی کامل تبدیل می شود – قادر به گوش دادن ، استدلال و پاسخگویی در گفتار طبیعی است.
با استفاده از کارشناسی ارشد خود در مدیریت مالی از دانشگاه نیویورک ، چگونه دلیل مالی را برای جایگزینی کارگران اداری با کارمندان دیجیتال با صدای صوتی ارزیابی می کنید؟
نقش های یقه سفید اغلب با حقوق و پاداش پایه بالاتری همراه است. اگر بتوانید آن کارکردها را خودکار کنید ، ROI بلافاصله قابل مشاهده است. سرمایه گذاران و CFO ها این را با یک معادله ساده مدل می کنند: آیا ارزش فعلی سود مورد انتظار است ، یعنی کاهش هزینه ها به علاوه افزایش درآمد ، ارزش خطر پیش بینی شده ، که هزینه شکست ضرب شده با احتمال عدم موفقیت است؟ وقتی جواب مثبت است ، اتوماسیون پیش می رود. وقتی نه ، انسان در حلقه گردش کار می ماند. همچنین زاویه قرار گرفتن در معرض خطر وجود دارد. هنگامی که یک کارمند دیجیتالی در پشتیبانی مشتری اشتباه می کند ، می تواند در بدترین حالت ، شخصی را خفیف ناامید کند. با این حال ، اگر یک کارمند دیجیتالی در مورد پرونده حقوقی با مشتری اشتباه بحث کند یا به پرداخت فروشنده اشتباه محاسبه شود ، قرار گرفتن در معرض حقوقی یا مالی می تواند قابل توجه باشد. این ریاضیات را تغییر می دهد. بنابراین ، در عمل ، خواهیم دید که کارمندان دیجیتال ابتدا وارد نقش های اداری می شوند ، جایی که کار با هزینه بالا ، کم تحرک ، کم خطر و مقیاس پذیر است. همه چیز دیگر تاخیر خواهد داشت ، نه به این دلیل که نمی تواند خودکار باشد ، بلکه به این دلیل که این اعداد آن را توجیه نمی کنند – هنوز.
“صدا 5 برابر ورودی بیشتری ایجاد می کند – و زمینه محیط بیشتری را فراهم می کند”
بر اساس تجربه کار خود با سیستم های سازمانی در شرکت هایی مانند Take-Two Software Interactive ، با ارزش 28 میلیارد دلار و صنایع Shiloh ، جایی که شما راه حل هایی را برای 25 کارخانه جهانی خودرو اجرا کرده اید ، چگونه می توانید رابط های صوتی را در محیط های شرکت ها ادغام کنید؟
در یک شرکت ، فناوری هنگامی که هزینه ها را کاهش می دهد یا درآمد را افزایش می دهد ، اتخاذ می شود. صدا هر دو را انجام می دهد. این امر می تواند عوامل انسانی را در مناطق پر هزینه تقویت یا جایگزین کند ، پشتیبانی 24/7 را بدون زمان انتظار فراهم کند و نیاز به تغییر تماس در تعطیلات یا آخر هفته را از بین ببرد. از طرف درآمد ، در مورد نمایندگی های اتومبیل فکر کنید – بیش از نیمی از تماس های ورودی بدون جواب می روند. این فروش از دست رفته است. یک عامل صوتی که این تماس ها را انجام می دهد ، حتی با نرخ تبدیل متوسط ، می تواند تغییری ایجاد کند. تجربه من با سیستم های بزرگ شرکت ها به من نشان داده است که وقتی یک فناوری سریع ، ارزان و به اندازه کافی پایدار می شود ، آینده نگر بودن را متوقف می کند و شروع به کار می کند. صدا در آن آستانه درست است. اما برای اینکه کارمندان دیجیتالی مبتنی بر صدا در مقیاس قابل دوام باشند ، زیرساخت های ابری باید به دست آورند.
در راه اندازی خود ، شما در حال توسعه فن آوری های ابری مقیاس پذیر برای کمک به مشاغل مرزی با استفاده از سیستم های صوتی AI هستند. معماری محاسبات ابری چگونه بر سرعت پذیرش فناوری صدا تأثیر می گذارد؟
فناوری صوتی از نظر Complexit بین متن و فیلم قرار دارد ، سبک تر از پخش ویدیو است ، اما بسیار سنگین تر از تایپ کردن است. پردازش صدا در زمان واقعی به عضله ابری جدی نیاز دارد و در صورت پراکنده خدمات ، تأخیر سریع اضافه می شود. مؤثرترین سیستم ها ASR ، LLMS و TTS را در همان نمونه فیزیکی یا مرکز داده قرار می دهند. اگر بین ابرها حرکت می کنید ، تأخیرها قابل مشاهده می شوند. به همین دلیل بهترین ارائه دهندگان ابر – AWS ، Azure ، Google Cloud – فقط سریع نیستند. آنها یکپارچه شده اند. آنها مواردی مانند تجزیه و تحلیل احساسات و ترجمه را در زیر یک سقف ارائه می دهند. پذیرش فناوری صوتی سریعترین مقیاس را در جایی که معماری اصطکاک را برای توسعه دهندگان به حداقل می رساند ، مقیاس می کند.
“مدل های کسب و کار برنده ، اشتغال بشر را آینه می دهند.”
شما به عنوان یکی از بنیانگذاران یک استارتاپ ، پویایی بازار را از داخل درک می کنید. چه مدلهای تجاری در فضای کارمندان دیجیتال مسلط می شوند؟ اشتراک ها ، مجوزها یا چیزی که اساساً جدید است؟
من فکر می کنم مدل های غالب بسته به مورد استفاده ، اشتراک ها و معاملات مبتنی بر عملکرد خواهند بود. مدل اشتراک به طور پیش فرض خواهد بود ، به ویژه برای نقش های پشتیبانی داخلی – خدمات به مشتری ، گزارش دهی و اتوماسیون وظیفه. هزینه ماهانه مسطح را پرداخت می کنید ، دقیقاً مثل اینکه حقوق انسان را پرداخت می کنید. بودجه آن آسان است ، مقایسه آن آسان است و به خوبی با گردش کار موجود هماهنگ است. اگر کارمند دیجیتال جایگزین نقش اداری 6000 دلاری در ماه شود و ربات 600 دلار در ماه هزینه کند ، این یک فروش آسان است. مدل های معامله ای مانند ربات های فروش ، در عملکردهای مبتنی بر عملکرد ، کشش را به دست می آورند. در آنجا ، شما ممکن است درصدی از درآمد حاصل از آن را بپردازید. این شبیه به نحوه کار وکلای مبتنی بر احتمالی است: آنها فقط در صورت تحویل حقوق می گیرند. این مدل برای فروشندگان خطرناک است ، اما برای خریداران بسیار جذاب است.
مدل برنده همان چیزی خواهد بود که از نزدیک اشتغال انسان را آینه می دهد. اشتراک آینه حقوق و دستمزد را نشان می دهد و مدل معامله از نزدیک شبیه کار برای کمیسیون ها است. این قاب بندی به شرکتها کمک می کند تا کارمندان دیجیتالی را بدون بازنویسی کل الگوی ذهنی کار خود بر روی کارمندان دیجیتالی انجام دهند.
تجربه شما در حال مهاجرت سیستم های مالی برای 25 کارخانه جهانی خودرو نشان داد که چقدر سریع تحول دیجیتالی می تواند در مقیاس اتفاق بیفتد. چه درسهایی برای استقرار کارمندان دیجیتال اعمال می شود؟
یکی از بزرگترین درسهایی که من آموخته ام این است که شما نمی توانید آنچه را که مستند نشده است خودکار کنید.
کارگران بشر می توانند حدس های تحصیل کرده ، در زمان واقعی سازگار شوند و وقتی چیزی از دست رفته است ، نقاط را به هم وصل کنید. کارمندان دیجیتال نمی توانند. اگر یک گردش کار به طور کامل نقشه برداری نشده باشد ، با تمام ورودی ها ، خروجی ها ، استثنائات و موارد خرابی ، در معرض خطر توهم و خرابی قرار می گیرید که هیچ کس تا زمانی که خیلی دیر شود متوجه آن نیست. اگر دستورالعمل های شما مشخص نیست یا منطق کسب و کار شما در سالهاست که دانش داخلی را توصیف می کند دفن شده است ، شما برای اتوماسیون آماده نیستید ، هر چقدر هم که روند اساسی قدرتمند باشد حالت اتوماسیونl است
همچنین ، اعتماد به نفس دارد. دقیقاً مانند کارمندان جدید انسانی ، افراد دیجیتالی باید جای خود را کسب کنند. شما در روز اول به آنها وظایف مهم و مهم نمی دهید. شما کوچک را شروع می کنید ، از نزدیک مشاهده می کنید ، و آنها را در جغرافیایی ها یا واحدهای تجاری قرار می دهید. این طرز فکر ، سوار شدن آهسته ، مقیاس سریع ، برای تحول دیجیتال بسیار مهم است.
“حتی در بین استارتاپ های برتر هوش مصنوعی ، صدا هنوز هم به عنوان طاقچه دیده می شود.”
به عنوان قاضی بیستمین جوایز سالانه Globee برای فناوری 2025 ، با ارزیابی 50 ارسال در گروه های هوش مصنوعی و ابر ، چه روندهایی در فن آوری های صوتی در بین استارتاپ ها و شرکت های مدرن مشاهده می کنید؟
نکته برجسته این است که حتی در بین استارتاپ های برجسته ، فناوری صوتی کمی توجه می شود. از 50 ارسال من قضاوت کردم ، شاید 2 یا 3 واقعاً روی صدا متمرکز شده باشند. بیشتر آنها بر روی متن و گردش کار مبتنی بر LLM متمرکز شده بودند. این به من می گوید صدا هنوز هم طاقچه محسوب می شود ، حتی اگر در سرعت و قابلیت استفاده دستاوردهای گسترده ای داشته باشد. من فکر می کنم بخشی از تردید مالی است ، سرمایه گذاری سرمایه گذاری تمایل به تأمین اعتبار آنچه مرسوم است ، و صدا هنوز به آن اوج نرسیده است. با این حال ، من معتقدم که دقیقاً در این مناطق نادیده گرفته شده ، مانند صدا و بینایی ، جهش بزرگ بعدی رخ خواهد داد. انسان برای گفتار سیم کشی می شود. فرزندخواندگی فقط موضوع زیرساخت ها است. تغییر از متن به صدا فقط فنی نیست. این فرهنگی و نسلی است. من این دانش آموزان دست اول را می بینم که دانشجویان NYU را راهنمایی می کنند.
“میلیارد کاربر بعدی تایپ نمی کنند – آنها صحبت خواهند کرد”
به عنوان یک مربی در فارغ التحصیلان NYU در Tech Club ، شما چه مهارت هایی را توصیه می کنید که متخصصان جوان برای دوران تسلط فناوری صدا آماده شوند؟
وقتی دانشجویان NYU از من سؤال می کنند که چگونه می توانم شغلی خود را در آینده بگذارم ، من به آنها می گویم بستگی به این دارد که در کجا هستند. اگر در اوایل کار خود هستید ، کنجکاو و فلکس باشید ، به طور گسترده یاد بگیرید و سریع کاوش کنید. اگر باتجربه تر هستید ، تخصص دارید و به عمق بروید. در مورد فناوری صوتی ، این در مورد یادگیری “مهارت های صوتی” نیست ، این در مورد تحقق صدا فقط یک ورودی دیگر است. LLM ها هنوز استدلال پشت صحنه را انجام می دهند. آنچه تغییر می کند نحوه دسترسی افراد به آن هوش است.
تغییر واقعی فرهنگی است: ما به سمت دنیایی حرکت می کنیم که مردم با ماشین آلات صحبت می کنند که با یکدیگر صحبت می کنند. این مشاغل جدید را باز می کند که هنوز هیچ کس نامگذاری نشده است و جایگزینی مواردی را که ممکن است همیشه بسیار امن داشته باشید جایگزین می کند. در سطح جهانی ، صدا نیز تغییر خواهد کرد که چه کسی به خدمات ، آموزش و کار دسترسی پیدا می کند – نه فقط نحوه تعامل ما با ماشین آلات.
کار شما به ساده سازی ارتباطات متقابل برای جوامع از راه دور اختصاص یافته است. چگونه فن آوری های صوتی ارتباطات جهانی را تغییر می دهند و دسترسی به اطلاعات را در 5 سال آینده دموکراتیک می کنند؟
صدا نحوه برقراری ارتباط ما را تغییر نخواهد داد ، اما نیاز به واسطه ها را برطرف می کند. به جای استخدام مفسران ، مردم قادر خواهند بود مستقیماً در 20-30 زبان صحبت کنند. این امر در مورد تجارت ، آموزش و حتی صحبت با یک عامل هوش مصنوعی در آن طرف جهان صدق می کند.
صدا کاری نمی کند که متن نتواند ، فقط سریعتر انجام می دهد. اما “دموکراتیک سازی” به معنای “آزاد” نیست. این سیستم ها دارای منابع هستند و اجرای آن ارزان نخواهد بود. بنابراین ، بله ، دسترسی گسترش خواهد یافت ، دراماتیک ، اما در درجه اول برای افراد و شرکت هایی که توانایی پرداخت آن را دارند.
برای هر کس دیگری ، خدمات رایگان وجود خواهد داشت ، اما آنها با تجارت همراه خواهند بود. مثل همیشه ، اگر چیزی در اقتصاد دیجیتال رایگان است ، پس بیشتر از این ، شما محصول هستید.