توضیحات
عنوان فارسی:شبکه عصبی انتها به انتها برای تشخیص خودکار گفتار
عنوان انگلیسی مقاله ترجمه شده:
End-to-End Deep Neural Network for Automatic Speech Recognition
شبکه عصبی انتها به انتها برای تشخیص خودکار گفتار
چکیده:
ما اثربخشی شبکه های عصبی عمیق را در تشخیص گفتار بررسی کردیم. به طور خاص، ما یک سیستم یادگیری عمیق انتها به انتها ایجاد میکنیم که با استفاده از ویژگی های بانک فیلتر ملبور به طور مستقیم بدون نیاز به مدل سنتی مخفی مارکوف برای رمزگشایی، به کلمات صوتی گفته شده خروجی نشان دهیم. این سیستم شامل دو نوع شبکه های عصبی برای تشخیص صدا می شود. به طور مشخص، ما از کانولاسیون برای دسته بندی سطح فریم و معماری مجدد با استفاده از تلفات دسته بندی موقت ارتباطی برای رمزگشایی فریم ها در قالب دنباله ای از مشخصات استفاده می کنیم. ما آزمایش های خود را در مجموعه داده TIMIT دسته بندی می کنیم. ما موفق به دریافت 22.1٪ خطای خط فریم با CNN شدیم، که به نظر ما، خیلی نزدیک به مرز علم است. توالی رمزنگاری تلفن ما یک خطای 29.4٪ را دریافت می کند.
- مقدمه:
مسئله تشخیص گفتار خودکار یک موضوع مهم تحقیق در جامعه یادگیری ماشین از همان اوایل دهه 70 بود [13]. اکثر سیستم های ASR استاندارد بین تشخیص صدا و رمزگشایی کلمه تعریف می شوند [11] [13]. پیش از ظهور یادگیری عمیق، محققان اغلب از الگوریتم های طبقه بندی دیگر بر روی ویژگی های بسیار تخصصی مانند MFCC استفاده می کردند تا توزیع مشخصه های ممکن برای هر فریم انجام شود. در طول مرحله رمزگشایی، یک مدل مخفی مارکوف (HMM) با یک زبان از پیش تعلیم شده برای پیدا کردن ترتیب احتمالی از تلفن هایی که می توانند به خروجی کلمات مرتبط شوند، استفاده می شود. برنامه های پیشین یادگیری عمیق در گفتار، دو وظیفه را جدا می کند؛ بسیاری از سیستم های هیبریدی موفق هستند که از مزایای اختیاری DNN برای تشخیص تلفن استفاده می کنند اما رمزگشایی برای HMM را رها می کنند. ما علاقه مند به توسعه تحولات اخیر شده ایم که در [9] [10] انجام شده است که نتایج پیشرفته ای را با شبکه های عصبی بازنشینی، ایجاد می کنند که می توانند به طور همزمان شناسایی و رمزگشایی کنند.
با ظهور استفاده از GPU ها برای آموزش شبکه های عصبی عمیق (DNNs)، بسیاری از معماری های DNN در بسیاری از مشکلات مربوط به یادگیری ماشین بسیار خوب عمل کرده اند. با وجودی که به طور معمول در این فرایند هیچ تکنیک خاصی وجود ندارد، این شبکه های عصبی موفق به پیروی از معیارهای مختلف در وظایف مختلف گفتار شده اند. در حقیقت، بیشتر حالت پیشرفته در تشخیص گفتار خودکار، نتیجه مدل DNN است [4].
با این حال، بسیاری از مدل های گفتار DNN، از جمله API مورد استفاده به طور گسترده در گوگل ، تنها از لایه های متصل با تراکم استفاده می کنند [3]. در حالی که چنین مدلهایی توانایی یادگیری عالی دارند، آنها بسیار مستعد به ابتلا به بیش تنظیمی هستند و دشوار است که برای یادگیری از ویژگیهایی که همبستگی های محلی دارند، استفاده کنند. علاوه بر این، اکثر این سیستم ها از پارامتری جداگانه برای انجام رمزگشایی استفاده می کنند. با این بینش، ما می خواهیم پیشرفت های اخیر در CNN و RNN را برای تولید یک سیستم تشخیص گفتاری انتها به انتها با استفاده از شبکه های عصبی خالص مورد استفاده قرار دهیم. انگیزه استفاده از CNN از موفقیت های اخیر شبکه های عصبی کانولوشن (CNN) در بسیاری از برنامه های کاربردی کامپیوتری الهام گرفته شده است، جایی که ورودی به شبکه معمولا یک ماتریس دو بعدی با همبستگی بسیار قوی است. [5]. در حالی که دلیل استفاده از RNN و CTC جایگزین HMM است تا واقعا به یک سیستم یادگیری عمیق پایان یابد.
2 کارهای مرتبط
برای یک دوره قبلی، ما با یک معماری شناسایی گفتار که شامل یک شبکه عصبی پیچیده عمیق ترکیبی (CNN) برای تشخیص واژگان و یک مدل مارکف پنهان (HMM) برای رمزگشایی کلمه است، آزمایش داشتیم. به طور خاص، ما یک CNN مبتنی بر GPU را پیاده سازی کردیم و آن را در ویژگی های فیلتر بانک Mel وارد کردیم تا توزیع احتمالی تلفن ها در هر فریم تعیین شود. سپس آن ها را به عنوان امكان انتشار و استفاده از رمز گشايي Viterbi اعمال كرديم تا محدوده احتمالي تلفن را محاسبه كنيم. با این حال، با توجه به ابزار و منابع محدود، ما تنها قادر به آزمایش معماری های کوچک CNN بودیم. بهترین مدل ما دقت 26.3% خطای فریم را در مجموعه داده های استاندارد هسته ای TIMIT به دست آورد. در این پروژه، ما قصد داریم نتایج پروژه پیشین خود را گسترش دهیم و HMM را به طور کامل با استفاده از شبکه های عصبی مجدد با تلفات CTC رمزگشایی کنیم.
معماری شبکه های عصبی جدید در رمزنگاری واژه از صدا ها و همچنین شناسایی صدا ها از گفتار موفق بوده است. ا. عبدالحمید و همکاران. کارهای اساسی را در تشخیص گفتار با CNN انجام داده اند و در زمان منتشر شدن آن [14] و [15] نتایج علمی لبه مرز دانش را نشان داده است. رویکرد او هنوز رمزگشایی با HMM)) را از آموزش شبکه جدا می کند و پیش بینی توزیع واژگان را نشان می دهد؛ CNN همچنین ویژگی های زمانی طولانی را در اختیار ندارد. A. Graves و همکاران. تلاش کرده اند تا CNN را با معماری RNN نوع LSTM ترکیب کنند و از جستجوی پرتوی برای رمزگشایی کلمه استفاده کنند که نتیجه ای را نیز حاصل می کند. J. Chorowski و همکاران از یک شبکه CNN با فعال سازی حداکثر برای تشخیص صدا استفاده کردند و از RNN دوطرفه برای رمزگشایی کلمه استفاده کردند.
دسته بندی موقتی ارتباطی[9] در دهه گذشته موفقیت هایی را تجربه کرده است که برای رمزگشایی زبان توسعه یافته است. هانون و دیگران [7] آن را برای گام رمزگشایی در شبکه گفتاری عمیق Baidu استفاده کرده اند. گریوس و همکاران [17] آن را به عنوان عملکرد هدف خود در سیستم عمیق دو طرفه LSTM ASR استفاده کردند. اخیرا، A. Maas و Xie و همکاران آن را برای استفاده از تشخیص لغو سخنرانی آزاد به کار بردند[16].
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.