Web Analytics Made Easy - Statcounter

ایتنا - متا با اشاره به «خطرات احتمالی سوء استفاده» با وجود «موارد استفاده بسیار هیجان‌انگیزی که برای مدل‌های گفتار مولد» وجود دارد اعلام کرد که نه اپ Voicebox و نه کد منبع آن در حال حاضر برای استفاده عموم منتشر نمی‌شود. یک گام دیگر به سمت تحقق دنیای سلبریتی‌های بدون‌مرگ برداشته شد: متا از مدل مولد متن به گفتار خود موسوم به Voicebox، که وعده داده است همان کاری را که ChatGPT و Dall-E برای تولید متن و تصویر انجام دادند برای کلام گفتاری انجام دهد، رونمایی کرد.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!


 
به گزارش ایتنا و به نقل از انگجت، اساساً این ابزار یک تولیدکننده متن به خروجی است، درست مانند GPT یا Dall-E، فقط به جای ایجاد متن یا تصاویر زیبا، کلیپ‌های صوتی تولید می‌کند. متا این سیستم را به‌عنوان «یک مدل تطبیق جریان غیرخودهمبسته که برای پر کردن گفتار، با توجه به بافت صوتی و متن، آموزش داده شده است» تعریف می‌کند. وویس‌باکس با بهره‌گیری از بیش از 50000 ساعت صدای فیلتر نشده آموزش دیده است. مشخصاٌ، متا از گفتار و رونویسی‌های ضبط شده از مجموعه‌ای از کتاب‌های صوتی با مالکیت عمومی که به زبان‌های انگلیسی، فرانسوی، اسپانیایی، آلمانی، لهستانی و پرتغالی نوشته شده بودند، استفاده کرد.
 
به گفته این پژوهشگران، این مجموعه متنوع از داده‌ها به این سیستم امکان می‌دهد فارغ از اینکه زبان‌هایی که هر یک از طرف‌ها به چه زبانی صحبت می‌کنند، گفتار محاوره‌ای بیشتری تولید کند. «نتایج ما نشان می‌دهد که مدل‌های تشخیص گفتار آموزش‌دیده بر روی گفتار مصنوعی تولید شده توسط وویس‌باکس تقریباً به همان خوبی مدل‌های آموزش داده شده با استفاده از گفتار واقعی عمل می‌کنند». علاوه بر این، این گفتار تولید شده توسط کامپیوتر تنها 1 درصد نرخ خطا داشت، در حالی که در مدل‌های TTS موجود این افت به 45 تا 70 درصد می‌رسد.
 
این سیستم ابتدا برای پیش‌بینی بخش‌های گفتار بر اساس بخش‌های اطراف آن‌ها و همچنین رونوشت متن آموزش داده شد. محققان متا توضیح دادند: «پس از یادگیری پر کردن گفتار از متن، این مدل می‌تواند آن را در سراسر وظایف تولید گفتار، از جمله تولید بخش‌هایی در وسط یک ضبط صوتی بدون نیاز به بازسازی کل ورودی، اعمال کند.
 
گفته می‌شود که وویس‌باکس قادر به «تولید بخش‌هایی در وسط یک ضبط صوتی بدون نیاز به بازسازی کل ورودی» است و همچنین می‌تواند به طور فعال کار ویرایش کلیپ‌های صوتی، حذف نویز از گفتار و حتی جایگزینی کلمات اشتباه را انجام دهد.
 
متا با اشاره به «خطرات احتمالی سوء استفاده» با وجود «موارد استفاده بسیار هیجان‌انگیزی که برای مدل‌های گفتار مولد» وجود دارد اعلام کرد که نه اپ Voicebox و نه کد منبع آن در حال حاضر برای استفاده عموم منتشر نمی‌شود.
این تیم تحقیقاتی امیدوار است که در آینده این فناوری راه خود را به حوزه پروتز بیماران مبتلا به آسیب تارهای صوتی، NPCهای درون‌بازی و دستیارهای دیجیتال باز کند.
 

منبع: ايتنا

کلیدواژه: هوش مصنوعی

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت www.itna.ir دریافت کرده‌است، لذا منبع این خبر، وبسایت «ايتنا» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۸۰۶۲۳۸۴ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

اجرای طرح برخورد با خودرو‌های شوتی در مراغه

سرهنگ فارسی اظهار داشت: طرح برخورد با خودرو‌های شوتی ، آلودگی صوتی و دارای تخلفات حادثه ساز با هدف ارتقای امنیت اجتماعی، انتظام بخشی و جلوگیری از بروز تخلفات با همکاری پلیس راهور و یگان‌های انتظامی مراغه به مرحله اجرا گذاشته شد.

 وی اضافه کرد: در قالب این طرح ۱۲ دستگاه انواع خودرو و ۴ دستگاه موتورسیکلت که با نصب تجهیزات و دستکاری غیرمتعارف وسیله نقلیه خود اقدام به آلودگی صوتی و مزاحمت برای شهروندان می کردند توقیف و روانه پارکینگ شدند.

فرمانده انتظامی مراغه خاطرنشان کرد: در اجرای این طرح برای  ۳۷۰ وسیله نقلیه دارای تخلف نیز اعمال قانون شد.

باشگاه خبرنگاران جوان آذربایجان شرقی تبریز

دیگر خبرها

  • اجرای طرح برخورد با خودرو‌های شوتی در مراغه
  • لکه‌های صنعتی غرب البرز به شهرک صنعتی تبدیل شود
  • تبدیل برمودا به یکی از ویژندهای شبکه نسیم/ برنامه‌ای که قابلیت تولید در فصل‌های متعدد دارد
  • تبدیل «برمودا» به یکی از نماد‌های شبکه نسیم/ برنامه‌ای که قابلیت تولید در فصل‌های متعدد را دارد
  • هوش مصنوعی اخبار ایکس را خلاصه می‌کند
  • چت‌بات Grok اخبار ایکس را خلاصه می‌کند
  • دومین جشنواره سالانه تولید فیلم با هوش مصنوعی در آمریکا برگزار شد
  • تولید محتوا با هوش مصنوعی جایگزین تولید محتوای انسانی شده است؟
  • اولین موزیک‌ ویدئوی رسمی با هوش مصنوعی ساخته شد
  • تجهیز صنایع کشور با ربات‌های مجهز به هوش مصنوعی