توضیحات
عنوان فارسی:شبکه های عصبی پیچشی(کانولوشن) عمیق برای وظایف گفتاری در مقیاس بزرگ
عنوان انگلیسی مقاله ترجمه شده:
Deep Convolutional Neural Networks for Large-scale Speech Tasks
شبکه های عصبی پیچشی(کانولوشن) عمیق برای وظایف گفتاری در مقیاس بزرگ
چکیده:
شبکههای عصبی پیچشی(CNNها) نوع جایگزینی از شبکه عصبی هستند که میتوانند برای کاهش تغییرات طیفی و همبستگیهای طیفی مدل که در سیگنالها موجود میباشند، مورد استفاده قرار گیرد. از آنجایی که سیگنالهای گفتاری هر دو این خواص را به نمایش میگذارند، ما فرض میکنیم که CNNها، مدل کارآمدتری برای گفتار در مقایسه با شبکههای عصبی عمیق(DNNها) هستند. در این مقاله، ما اعمال CNNها را بر وظایف تشخیص گفتار پیوسته با دایره لغات بزرگ(LVCSR) بررسی میکنیم. اولاً، ما معماری مناسب برای کارآمد کردن CNNها در مقایسه با DNNها را برای وظایف LVCSR تعیین میکنیم. به طور مشخص، ما بر این موارد تمرکز داریم؛ چند لایهی پیچشی مورد نیاز است، تعداد واحدهای پنهان مناسب چند عدد است، بهترین استراتژی تجمع چیست. دوماً، چگونگی ترکیب کردن ویژگیهای تطبیقی-گوینده را بررسی میکنیم که به طور مستقیم توسط CNNها قابل مدلسازی نیستند زیرا آنها از موقعیت در فرکانس نسبت به چارچوب CNN پیروی نمیکنند. سوماً، با داشتن اهمیت آموزش توالی برای وظایف گفتاری، ما استراتژی را به منظور استفاده از ReLU+dropout طی آموزش توالی Hessian-free برای CNNها معرفی میکنیم. آزمایشات بر سه وظیفهی LVCSR نشان میدهند که یک CNN با ایدههای تطبیقی-گوینده و ReLU+dropout امکان بهبود نسبی 12%-14% در WER را نسبت به یک سیستم DNN فراهم میکند و پیشرفتهترین نتایج در این سه وظیفه به دست میآیند.
واژگان کلیدی: یادگیری عمیق، شبکه های عصبی، تشخیص گفتار.
1- مقدمه:
اخیراً، شبکههای عصبی عمیق(DNNها) موفقیت شگرفی را در مدلسازی صوتی برای وظایف تشخیص گفتار با دایره لغات بزرگ(LVCSR) بدست آوردهاند که نشاندهندهی دستاوردهای قابل توجهی در سرتاسر سیستمهای پیشرفتهی مدل مارکونهان/مدل ترکیبی گوسی(GMM/HMM) بر انواع مختلفی از وظایف دایره لغات بزرگ و کوچک است(داهل، یو، دنگ و آسرو، 2012؛ هینتون، دنگ، یو، داهل، محمد، جایتلی، سینور و وانهوکه، 2012؛ کینگزبری، ساینات و سولتائو، 2012؛ سید، لی و یو، 2011). شبکههای عصبی پیچشی(CNN) (لکان و بنگیو، 1995؛ لکان، بوتو، بنگیو و هافنر، 1998) یک نوع جایگزین از شبکهی عصبی هستند که میتوانند برای مدل کردن همبستگی فضایی و زمانی مورد استفاده قرار گیرند در حالیکه واریانس انتقالی را در سیگنالها کاهش میدهند.
CNNها به دلایل مختلفی در مقایسه با DNNهای کاملاً متصل، جذاب هستند. اولاً، DNNها توپولوژی ورودی را نادیده میگیرند چنانکه ورودی میتواند به هر ترتیبی(ثابت) بدون اثرگذاری بر عملکرد شبکه، ارائه داده شود(لکان و بنگیو، 1995). با این وجود، ارائههای طیفی گفتار دارای همبستگیهای قوی در زمان و فرکانس هستند و همبستگیهای محلی مدلسازی با CNNها از طریق اوزان که در سرتاسر نواحی محلی فضای ورودی به اشتراک گذاشته شدهاند، در زمینههای دیگر نیز مفید ظاهر شدهاند(لکان، هوانگ و بوتو، 2004). دوماً، DNNها صریحاً برای مدلسازی واریانس انتقالی درون سیگنالهای گفتار طراحی نشدهاند که میتواند به دلیل شیوههای مختلف نطق باشد(لکان و بنگیو، 1995). خصوصاً، شیوههای مختلف نطق منجر به فورمانتها در دامنهی فرکانسی و نیز تغییرات در طول مدت فونمها(تمیز دادن دو صدا از هم) میگردد. این شیوههای گفتاری ما را وادار به اعمال تکنیکهای متنوع تطبیقی-گوینده به منظور کاهش تغییر ویژگی میکنند. از آنجایی که DNNهایی با اندازهی کافی میتوانند تغییرناپذیری انتقالی را بگیرند، این نیازمند شبکههای بزرگی با تعداد زیادی از مثالهای آموزشی است. از طرف دیگر، CNNها تغییرناپذیری انتقالی را با تعداد بسیار کمتری از پارامترها به دست میآورند که توسط میانگینگیری از خروجیهای واحدهای پنهان در نواحی فرکانسی و زمانی محلی مختلف صورت میگیرد.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.