هدفون های هوش مصنوعی که صحبت چندین گوینده را هم زمان ترجمه می کنند

پی اچ پی و جی کوئری: هدفون های مجهز به هوش مصنوعی می توانند ترجمه گروهی را بطور هم زمان با شبیه سازی صدا عرضه کنند.

به گزارش پی اچ پی و جی کوئری به نقل از ایسنا، «توچائو چن»(Tuochao Chen) دانشجوی «دانشگاه واشنگتن» بتازگی از موزه ای در مکزیک بازدید نمود. چن اسپانیایی صحبت نمی نماید. بنابراین، یک اپلیکیشن ترجمه را روی موبایل خود اجرا کرد و میکروفون را به سوی راهنمای تور گرفت اما حتی در سکوت نسبی موزه، سر و صدای اطراف زیاد بود و متن حاصل فایده زیادی نداشت.
به نقل از تک اکسپلور، بتازگی فناوری های گوناگونی ظهور کرده اند که ترجمه روان را نوید می دهند اما هیچ کدام از این فنآوری ها مشکل چن را در فضاهای عمومی حل نکردند. بعنوان مثال، عینک های جدید شرکت «متا»(Meta) فقط با یک بلندگوی مجزا کار می کنند. آنها بعد از به انتها رسیدن صحبت گوینده، ترجمه صوتی خودکار را پخش می کنند.
حال چن و گروهی از محققان دانشگاه واشنگتن یک سیستم هدفون طراحی نموده اند که هم زمان صحبت چندین گوینده را ترجمه می کند و در عین حال، جهت و کیفیت صدای افراد را حفظ می نماید. این گروه پژوهشی، سیستم را با هدفون های نویزگیر موجود در بازار که به میکروفون مجهز هستند، ساخته اند. الگوریتم های این گروه پژوهشی، گویندگان متفاوت را در یک فضا جدا می کنند، آنها را هنگام حرکت دنبال می کنند، گفتار آنها را ترجمه می کنند و با تأخیر دو تا چهار ثانیه ای پخش می کنند.
«شیام گولاکوتا»(Shyam Gollakota) استاد دانشکده علوم کامپیوتر و مهندسی دانشگاه واشنگتن و پژوهشگر ارشد این پروژه اظهار داشت: کد دستگاه برای دیگران دردسترس است تا بر طبق آن کار کنند. سایر فناوری های ترجمه بر این فرض تولید شده اند که فقط یک نفر صحبت می کند اما در دنیای واقعی نمی توانید فقط یک صدای رباتیک داشته باشید که برای چندین نفر در یک اتاق صحبت کند. ما برای نخستین بار صدای هر شخص و جهتی را که صدا از آن می آید، حفظ نموده ایم.
این سیستم سه نوآوری را در بر دارد. نخست اینکه وقتی روشن می شود، بلا فاصله تشخیص می دهد چه تعداد اسپیکر در فضای داخلی یا خارجی وجود دارد. چن اظهار داشت: الگوریتم های ما کمی شبیه به رادار کار می کنند. بنابراین، آنها فضا را بصورت ۳۶۰ درجه مورد بررسی قرار می دهند و دائما بروزرسانی می کنند تا مشخص شود چند نفر درحال صحبت کردن هستند.
سپس سیستم، گفتار را ترجمه می کند و کیفیت بیان و بلندی صدای هر گوینده را هنگام اجرا روی یک دستگاه مجهز به تراشه «Apple M۲» مانند لپ تاپ ها و هدست «اپل ویژن پرو»(Apple Vision Pro) حفظ می نماید. این گروه پژوهشی به سبب نگرانی های مربوط به حریم خصوصی پیرامون شبیه سازی صدا، از به کار بردن محاسبات ابری اجتناب کردند. در نهایت، هنگامی که گوینده ها سر خودرا حرکت می دهند، سیستم بازهم به ردیابی جهت و کیفیت صدای آنها همراه با تغییرات انجام شده ادامه می دهد.
این سیستم در ۱۰ محیط داخلی و خارجی آزمایش شد و در یک آزمایش با ۲۹ شرکت کننده، کاربران این سیستم را به مدل هایی که اسپیکرها را در فضا ردیابی نمی کردند، ترجیح دادند.
در یک آزمایش جداگانه روی کاربران، بیشتر شرکت کنندگان تأخیر سه تا چهار ثانیه ای را ترجیح دادند برای اینکه سیستم هنگام ترجمه با تأخیر یک تا دو ثانیه ای، خطاهای بیشتری مرتکب می شد. این گروه پژوهشی در تلاش هستند تا سرعت ترجمه را در نسخه های آینده کاهش دهند. این سیستم هم اکنون فقط روی گفتار روزمره کار می کند، نه زبان تخصصی مانند اصطلاحات فنی. محققان در این پروژه با زبان های اسپانیایی، آلمانی و فرانسوی کار کردند اما بررسی های پیشین روی مدلهای ترجمه نشان داده اند که می توان آنها را برای ترجمه حدود ۱۰۰ زبان آموزش داد.
چن اظهار داشت: این قدمی به طرف از بین بردن موانع زبانی بین فرهنگ هاست. بنابراین، اگر من در خیابان مکزیک قدم بزنم، حتی اگر اسپانیایی صحبت نکنم هم می توانم صدای همه مردم را ترجمه کنم و بدانم چه کسی چه گفته است.

منبع: پی اچ پی و جی كوئری

1404/02/22

10:42:23

5.0 / 5

840

تگهای خبر: آموزش , اپل , اپلیكیشن , بلندگو

این مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۲ بعلاوه ۴

ثبت کامنت