شکستن موانع: سفری از طریق ترجمه گفتار در زمان واقعی


نویسنده(های): نوین کریشنان

در ابتدا منتشر شد به سمت هوش مصنوعی.

منبع تصویر – Unsplash [by Dmitrii Eliuseev]

به هر حال، من در سرزمینی با بیش از 1600 زبان و گویش بزرگ شدم: زمانی که قدرتمند باشد، زبان را تعیین می کند، حتی گاهی اوقات میله تبعید. مدرسه، فعالیت‌های اجتماعی و سپس کار، هر جا که می‌رفت دنبالش می‌آمد-زبان دیگر رسانه‌ای برای برقراری ارتباط نبود- تبدیل به یک دروازه‌بان شد و به آن‌ها گفت که چه کسی واجد شرایط عضویت است و چه کسی نه. این برای من چیزی بیش از یک موضوع انتزاعی بود. بنابراین، در حالی که زبان مادری من برای من طبیعت دوم بود، حرکت به خارج از آن حباب مانند دنیایی خارجی با شرایط و محدودیت های خاص خود بود. این به سختی تنها ناهنجاری اجتماعی است که موانع زبانی از من ربوده است.

استرس مطالعه برای کنکور ارتش و نیروی دریایی را به یاد می‌آورم، جایی که آشنایی با زمینه‌ها، دستورات و دستورالعمل‌های ظریف به زبانی که کاملاً به آن مسلط نبودم همه چیز را معنا می‌کرد. من برای قبولی در آن امتحانات سختی کشیدم، اما این سختی آزمون نبود که آن را دشوار کرد – این در واقع فقط تا حدی مربوط به استعداد حرفه ای و اخلاق کاری من بود. در واقعیت، آنچه باعث مشکلاتی در عملکرد آنها می‌شد، تنها به زبان مربوط می‌شد. به این فکر کنید که چقدر باورنکردنی می‌بود اگر در آن زمان چیزی انقلابی مثل ترجمه بلادرنگ داشتم که آن مشکل را فوراً حل می‌کرد.

چشم انداز ترجمه در زمان واقعی

امتحانات و جاه طلبی های شخصی تنها نیازهایی نیستند که با موانع زبانی مواجه می شوند، بلکه به افراد کمک می کند با هم رشد کنند تا در یک سیلو جدا شده از زبان به چیزی بسیار فراتر از توانایی های خود دست یابند. وقتی برای اولین بار در مورد سیستم ترجمه گفتار Azure شنیدم، عظمت آن در ذهن من تأثیر گذاشت. اهمیت کلیدی Azure Speech Translation فقط به عنوان یک ابزار نیست، بلکه به عنوان توانمندساز است. این بدان معناست که تجربیات، فرصت ها و درک متقابل ممکن است در سطح عمیق تری تحقق یابد. مزیت دیگر این است که ترجمه در زمان واقعی انجام می شود. مکالمه ای را تصور کنید که در آن هر فرد به زبان مادری خود صحبت می کند، با این حال همه به طور کامل قادر به درک دیگری هستند. ناگهان شما در جهان کمتر مرز ایستاده اید! این فناوری می تواند چیزی را که زمانی مانع بود به یک پل قدرتمند تبدیل کند.

ترجمه گفتار بلادرنگ چگونه کار می کند

Azure Speech Translation برای قابلیت تشخیص گفتار خود به هوش مصنوعی متکی است. وقتی با چنین پیچیدگی مواجه می شویم، صرفاً وابستگی به ترجمه کلمه به کلمه کافی نیست. پیشرفته پردازش زبان طبیعی مدل‌های (NLP) توسعه یافته توسط Microsoft Azure می‌توانند هم کلمات گفتاری را در یک زبان ضبط کنند و هم بلافاصله آنها را به زبان دیگری تبدیل کنند. با این حال، بر خلاف مترجم‌های خودکار معمولی، بر اساس تقاضا، که فقط کلمات را از یک شکل به شکل دیگر تبدیل می‌کنند و همه چیزهای دیگر (مطمئن، متن) را در این فرآیند از دست می‌دهند، این مدل‌ها هم متن و هم آهنگ را حفظ می‌کنند. آنها حتی لهجه های فردی را درک می کنند، به طوری که ترجمه ها طبیعی و محاوره ای به نظر می رسند.

ترجمه بلادرنگ شامل چند مرحله است:

تشخیص گفتار: هوش مصنوعی کلمات گفتاری را می شنود و آنها را به متن تبدیل می کند.

ترجمه زبان: هنگامی که متن رونویسی شد، به زبان مقصد ترجمه می شود.

سنتز: متن ترجمه شده به صوت منتقل می شود و تبادل بدون زحمت بین دو نفر که زبان یکدیگر را نمی دانند تسهیل می کند.

مکالمات جریان طبیعی توسط این فناوری تشخیص داده می شود که برای مکث بین مبادلات و همچنین وقفه ها و سرعت گفتار و غیره تنظیم می شود. بنابراین در زمان واقعی احساس می کنید که همه به یک زبان صحبت می کنند.

شروع با ترجمه گفتار Azure

قبل از ورود به کد، مطمئن شوید که پیش نیازهای زیر را دارید:

  • اشتراک Azure. شما می توانید به صورت رایگان یکی بسازید.
  • یک منبع گفتار ایجاد کنید در پورتال Azure
  • کلید منبع گفتار و منطقه را دریافت کنید. پس از استقرار منبع گفتار شما، برای مشاهده و مدیریت کلیدها، برو به منبع را انتخاب کنید.

همیشه توصیه می شود از احراز هویت Microsoft Entra ID استفاده کنید هویت های مدیریت شده برای منابع Azure برای جلوگیری از ذخیره اعتبار با برنامه های خود که در فضای ابری اجرا می شوند.

اگر از یک کلید API استفاده می کنید، آن را به طور ایمن در جای دیگری مانند Azure Key Vault ذخیره کنید. کلید API را مستقیماً در کد خود قرار ندهید و هرگز آن را به صورت عمومی پست نکنید.

برای اطلاعات بیشتر در مورد امنیت خدمات هوش مصنوعی، رجوع کنید درخواست‌های سرویس‌های هوش مصنوعی Azure را تأیید کنید.

ترجمه گفتار از میکروفون

این مراحل را برای ایجاد یک برنامه کنسول جدید و نصب Speech SDK دنبال کنید.

یک Command Prompt را در جایی که پروژه جدید می خواهید باز کنید و یک برنامه کنسول با .NET CLI ایجاد کنید. را Program.cs فایل باید در دایرکتوری پروژه ایجاد شود.

dotnet new console

Speech SDK را در پروژه جدید خود با دات نت CLI نصب کنید.

dotnet add package Microsoft.CognitiveServices.Speech

محتویات را جایگزین کنید Program.cs با کد زیر

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Microsoft.CognitiveServices.Speech.Translation;

class Program
{
// This example requires environment variables named "SPEECH_KEY" and "SPEECH_REGION"
static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
static string speechRegion = Environment.GetEnvironmentVariable("SPEECH_REGION");

static void OutputSpeechRecognitionResult(TranslationRecognitionResult translationRecognitionResult)
{
switch (translationRecognitionResult.Reason)
{
case ResultReason.TranslatedSpeech:
Console.WriteLine($"RECOGNIZED: Text={translationRecognitionResult.Text}");
foreach (var element in translationRecognitionResult.Translations)
{
Console.WriteLine($"TRANSLATED into '{element.Key}': {element.Value}");
}
break;
case ResultReason.NoMatch:
Console.WriteLine($"NOMATCH: Speech could not be recognized.");
break;
case ResultReason.Canceled:
var cancellation = CancellationDetails.FromResult(translationRecognitionResult);
Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

if (cancellation.Reason == CancellationReason.Error)
{
Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
Console.WriteLine($"CANCELED: Did you set the speech resource key and region values?");
}
break;
}
}

async static Task Main(string[] args)
{
var speechTranslationConfig = SpeechTranslationConfig.FromSubscription(speechKey, speechRegion);
speechTranslationConfig.SpeechRecognitionLanguage = "en-US";
speechTranslationConfig.AddTargetLanguage("it");

using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
using var translationRecognizer = new TranslationRecognizer(speechTranslationConfig, audioConfig);

Console.WriteLine("Speak into your microphone.");
var translationRecognitionResult = await translationRecognizer.RecognizeOnceAsync();
OutputSpeechRecognitionResult(translationRecognitionResult);

// Extract the translated text
var translatedText = translationRecognitionResult.Translations["it"];

// Create a SpeechSynthesizer to output the translated text as audio
using var synthesizer = new SpeechSynthesizer(speechTranslationConfig);
await synthesizer.SpeakTextAsync(translatedText);
}
}

نسخه ی نمایشی سریع

https://www.youtube.com/watch?v=zcxXgNaEs5g

نگاهی به کاربردهای عملی

موانع زبانی همه چیز از تعاملات تجاری گرفته تا آموزش و پزشکی را تحت تاثیر قرار می دهد. در اینجا نگاهی داریم به اینکه چگونه فناوری ترجمه بلادرنگ به ما امکان می دهد در دنیایی که می خواهیم در آن زندگی کنیم زندگی کنیم:

  1. تجارت بین الملل: وقتی معاملات تجاری در صحنه بین‌المللی به دلیل زبان خنثی می‌شوند، ریسک آن بالا می‌رود. به عنوان مثال، یک کنفرانس بین المللی با حضور سران کشورها و مقامات ارشد هر کشور در Globo تصور کنید. ترجمه گفتار لاجوردی این امکان را برای هر یک از شرکت‌کنندگان فراهم می‌آورد که در زمان واقعی، همه چیز را به زبانی که در همه سطوح قابل درک است صحبت کرده و بشنوند، بدون اینکه معنای مورد بحث را تغییر دهد. این فقط یک راحتی نیست. درک بهتر، تصمیم‌گیری سریع‌تر و شیوه‌های بازتر در انجام کسب‌وکار را باز می‌کند.
  2. آموزش و پرورش: یادگیری در ایجاد ارتباط نهفته است و زبان نباید عاملی باشد که کسی را عقب نگه دارد. با ترجمه گفتار بی‌درنگ Azure، معلمان می‌توانند به دانش‌آموزان با پیشینه‌های زبانی مختلف آموزش دهند، بدون اینکه مجبور باشند به زبان دیگری صحبت کنند. اگر روزی دانشجویی در هند با استاد سخنرانی خود در 10000 مایل دورتر از فرانسه تماس بگیرد چه؟ هر دو طرف سخنرانی را به زبان مادری خود می شنوند. در نتیجه این پیشرفت در فناوری ترجمه گفتار، دانش آموزان در سراسر جهان اکنون اطلاعاتی را بدون مانع زبان دریافت می کنند.
  3. بهداشت و درمان: در مراقبت های بهداشتی، ارتباطات واضح اغلب به معنای زندگی یا مرگ است. تصور کنید که یک پزشک و یک بیمار به زبان های مختلف صحبت می کنند. سوء تفاهم های ایجاد شده در این وضعیت ممکن است در واقع منجر به تشخیص های نادرست یا برنامه های درمانی اشتباه شود. ترجمه هم‌زمان تضمین می‌کند که پزشکان و بیماران می‌توانند به طور واضح با یکدیگر صحبت کنند: هر دو حس می‌کنند که اطلاعات مهم به درستی داده می‌شود.

چالش ها و جنبه انسانی ترجمه

البته همیشه یک عنصر انسانی منحصر به فرد هنگام صحبت به هر زبانی وجود دارد. برخی از عبارات یا کلمات عامیانه به درستی ترجمه نمی شوند. هر زبانی اصطلاحات و گفته های مربوط به فرهنگ خود را دارد. وقتی اینها کلمه به کلمه به زبان دیگری تبدیل می شوند، معنای اصلی می تواند کاملاً از بین برود. در حالی که Azure Speech Service هنوز با چالش های زیادی روبرو است، عملیاتی را ارائه می دهد که برای وظایف پردازشی طراحی شده است. کسب و کارها و توسعه دهندگان می توانند مدل های ترجمه ای را ایجاد کنند که اصطلاحات، اصطلاحات و واژگان آنها را بپذیرد. چه برای قانون باشد، چه پزشکی یا فناوری. این بدان معناست که کاربران فقط ترجمه دریافت نمی‌کنند، بلکه ترجمه‌هایی را دریافت می‌کنند که شخصی و مرتبط با زمینه هستند

نگاه به آینده: آینده ارتباطات

زیبایی ترجمه گفتار بلادرنگ Azure نه تنها در فناوری بلکه در دیدی است که آن را قادر می سازد. وقتی موانع زبان دیگر مانعی ندارد، اما در عوض جهانی را ایجاد می‌کند که در آن همه می‌توانند مشارکت کنند، یاد بگیرند و پیشرفت کنند. به تمام زمان‌هایی که در برقراری ارتباط مشکل داشتم فکر می‌کنم و فکر می‌کنم اگر چنین چیزی در آن زمان وجود داشت، زندگی امروز چگونه می‌توانست متفاوت باشد.

همه آن مکالماتی که اکنون می توانند بدون مشکلات زبانی برگزار شوند – از همکاری بین المللی در تحقیقات علمی گرفته تا مشاوره های پزشکی در سراسر مرزهای قاره ای. دنیایی را تصور کنید که در آن هیچ دو نفر، صرف نظر از زبان، نمی توانند با یکدیگر صحبت کنند. اما ایده‌ها مطرح می‌شوند، طرح‌ها به طور مشترک تکامل می‌یابند، و راه‌حل‌هایی برای مشکلاتی که همه ما با آن روبرو هستیم، به وجود می‌آیند. فناوری ترجمه گفتار Azure فقط کلمات را ترجمه نمی کند. مردم را دور هم جمع می کند.

قلب موضوع: چرا ترجمه گفتار در زمان واقعی اهمیت دارد

ترجمه گفتار در زمان واقعی نه تنها موانع زبان را از بین می برد، بلکه زمین بازی را هموار می کند. بدون دنیایی که در آن باید بتوانید برای استفاده از شانس خود ارتباط برقرار کنید، توانایی صحبت کردن و درک شدن به هر زبانی اساساً این وضعیت را تغییر می دهد.

Azure Speech Translation امکان من را از تجربه شخصی به نان تست یک LifeStar موفق و توانمند تغییر داد. می‌توانید تصور کنید دانش‌آموزانی که با موانع زبانی عقب‌مانده‌اند، اکنون از نظر فکری مایل‌ها جلوتر در رشته‌هایی که واقعاً دوست دارند، هستند. یا افرادی مثل من که شانس را فقط به خاطر زبان هایی که نمی دانستند از دست دادند، بالاخره توانستند رویاهای خود را دنبال کنند.

این فناوری فقط در مورد ترجمه نیست. این فرصتی را برای افراد فراهم می کند تا به آنها گوش داده شود، درک کنند و در اتفاقاتی که در اطرافشان می افتد سهیم شوند. این در مورد ایجاد جهانی است که در آن زبان نگهبان نیست بلکه کمک کننده است. جایی که همه می توانند ارتباط برقرار کنند، از یکدیگر یاد بگیرند و با هم رشد کنند.

افکار نهایی

این یک نوشدارویی نیست، اما به معنای یک گام بزرگ به جلو در انقلاب ارتباطات است. من به عنوان کسی که از ابتدا با مشکلات زبان مواجه شده ام، این فناوری را به عنوان یک تحول اجتماعی خالص می دانم. این راهی است برای افزایش دسترسی، وسیله ای برای شوخی کردن همه افراد توانمند و باز کردن آن درهایی که مدت هاست به روی من بسته شده اند.

و مانند آن، ترجمه گفتار بلادرنگ دیگر فقط یک فناوری نیست – بلکه تبدیل به حرکتی به سوی جهانی مرتبط تر، فراگیرتر و قابل فهم تر می شود. نیازی به شکاف زبانی نیست. Azure Speech Translation اینجاست تا به ما کمک کند تا یک مکالمه را در هر زمان انجام دهیم!

مراجع

[1] مروری بر ترجمه گفتار — سرویس گفتار — خدمات هوش مصنوعی Azure | Microsoft Learn

کد همراه این آموزش است: اینجا

متشکرم

ممنون از اینکه برای خواندن داستان من وقت گذاشتید! اگر از آن لذت بردید و آن را ارزشمند دیدید، لطفاً یک کف زدن (یا 50!) برای نشان دادن حمایت خود در نظر بگیرید. دست زدن های شما به دیگران کمک می کند تا این محتوا را کشف کنند و به من انگیزه می دهد تا به خلق بیشتر ادامه دهم.

همچنین، فراموش نکنید که برای اطلاعات بیشتر و به روز رسانی در مورد هوش مصنوعی، من را دنبال کنید. حمایت شما بسیار مهم است و به من کمک می کند تا به اشتراک گذاری مطالب ارزشمند با شما ادامه دهم. متشکرم!

منتشر شده از طریق به سمت هوش مصنوعی



منبع: https://towardsai.net/p/machine-learning/breaking-barriers-a-journey-through-real-time-speech-translation