توضیحات
عنوان فارسی: یادگیری فضای آکوستیک برای تفکیک منبع صدا و متمرکز سازی منیفولدهای دو شنودی
عنوان انگلیسی مقاله:
ACOUSTIC SPACE LEARNING FOR SOUND-SOURCE SEPARATION AND LOCALIZATION ON BINAURAL MANIFOLDS
در این سند ، مشکلات مدلسازی فضای اکوستیک که توسط طیف کاملی از منابع صدا تولید می شود را جهت دهی می نماییم و سپس مدل فراگرفته شده را برای بومی سازی و تفکیک منابع متعددی که به صورت همزمان اصوات طیف پراکنده را منتشر می کنند به کار می بریم. بدین منظور از محیط های روش شناسانه و تئوریکال برای معرفی پارادایم منیفولید دو گوشی استفاده می نماییم . این پژوهش بسیار عمقی به بررسی ساختار نهان داده های طیفی اینتراورال با ابعاد بالا می پردازد که توسط یک ربات بدن شبیه سازی شده ی انسان صورت پذیرفته است. از روش کاهش ابعاد غیرخطی برای نشان دادن دوبعدی بودن داده ها و پارامتری بودن فرد شنونده و جهات منابع صدا استفاده می شود. در این پژوهش ما مدل نقشه برداری احتمالی تک منبع های وابسته را پیشنهاد می نماییم که برای تطبیق با داده های با ابعاد بالا به کار می رود و به نوعی ساختار خطی ذاتی تک منبع ها را نشان می دهد. علاوه بر موارد یاد شده ، با استفاده از روش حداکثر انتظارات ، پارامترهای مدل مذکور ، تخمین زده می شوند. این روش توسط وارونگی بیز برای کسب عملکرد تراکم خلفی کامل راستای منبع صوت صورت می پذیرد. از این روش برای تطبیق و جلوگیری از فقدان داده و افزونگی طیف نگار های واقعی و مکان یابی دوبعدی منابع صوت طبیعی از جمله انواع سخنرانی ها استفاده می نماییم. در فراسوی این پژوهش ، مدل مذکور را برای منابع صوتی چندگانه ی چالش برانگیز تعمیم می دهیم و در نهایت چارچوب EM متنوعی را ارائه می کنیم. الگوریتم مرتبط با مکان یابی و تفکیک صوت در حوزه EM ، تخمین بیز برای موقعیت های دوبعدی و پوشش های زمان-فرکانس برای تمامی منابع را در بر می گیرد . مقایسه ی روش ارائه شده با روش های موجود بیانگر ترکیب فضای آکوستیک و تداخل بیز ، روش ما را هر چه بیشتر هنری می نماید.
واژگان کلیدی : شنود دو وجهی ، مکان یابی صوت ، تفکیک منبع صوت ،آموزش منیفولد ، ترکیب رگرسورها ، استنتاج EM .
معرفی :
توانایی قابل توجه انسان در تشخیص مکانی یک یا چند منبع صوتی و شناسایی محتوای آن از سیگنال های آکوستیکی ادراکی ، به طرز گسترده ای در علوم روان فیزیک ، تحلیل سامعه محاسباتی و در علم نوظهور اخیر به نام شنود رباتی ، مورد بحث و بررسی گسترده قرار گرفته است.یکی از جمله نمونه های کلاسیکی که بیانگر مشکل ادراک این گونه مهارت های انسانی است ، اثر “جشن کوکتل”می باشد. این اثر توسط cherry معرفی گردیده و کماکان روش های نوین امروزی را به چالش می کشد: چطور شنوندگان قادرند صدای یک سخنرانی را از میان دیگر اصوات ، تمیز دهند؟ با وجود این که شنوندگان از این موضوع به سادگی عبور می نمایند ، اما این امر کماکان از جمله چالش های شنود محاسباتی محسوب می شوند. شواهد روانشناسانه و رفتاری بسیاری وجود دارد که شنوندگان از منابع دو شنودی برای تخمین جهت و سوی منبع صوت استفاده می نمایند. به نوعی مکان یابی صدا ، نقش بسیار مهمی برای حل چنین مسائل پیچیده ای بازی می کند. دو منبع دو شنودی از جمله تفاوت سطح درون شنودی (ILD) و تفاوت زمان درون شنودی (ITD) و یا تفاوت فاز درون شنودی همراه با هم ارزی درون شنودی (IPD) نقش بسیار مهمی را در این آزمایش ایفا می نمایند. هم ILD و هم IPD وابسته به زمان و موضوع می باشند و به عنوان تابع انتقال نسبی اصلی با توجه به فرم سر انسان شناخته می شوند . در این بخش ، بخش های pinna و torso سیگنال های دریافتی به پرده گوش را فیلتر می نمایند.تمامی اشکال پیچیده بوجود آمده ، یک وابستگی غیر خطی ناشی از HRTF به مسیر منبع صوتی تحمیل می نمایند. چنین به نظر می آید که اطلاعات فضایی بدست آمده توسط راهنماهای متمایز درون شنودی توام با باند فرکانسی محدود ، به لحاظ فضایی مبهم بوده و به صورت گسترده ابعاد عمودی و افقی جلو و عقب را در بر می گیرند. این موضوع بیان می دارد که انسان ها و پستانداران از اطلاعات طیف کامل مکان یابی منبع صوتی دوبعدی استفاده می نمایند. این روش توسط مدل های بیولوژیکی سیستم شنوایی با فرض وجود نورون های متعلق به راهنماهای درون شنودی محاسباتی دز باندهای فرکانسی مشخص تایید شده است.
بسیاری از تکنیک های محاسباتی برای تحلیل ITD ، ILD و IPD حاصل از ثبت های دوشنودی هم در دامنه زمانی با همبستگی متقابل و یا دامنه زمان – فرکانس تحلیل فوریر و فیلترهای اصوات گاما ، به کار می رود. با این حال ، مشکل مکان یابی و تفکیک چندین منبع صوت ، همچنان از چالش های تحلیل شنوایی محاسباتی محسوب می گردد . در ابتدا ، ترسیم راهنماهای درون شنودی به موقعیت های منابع صوتی ، بدلیل عملکرد انتقال میکروفن ها و عدم مدل سازی آسان آنها، ناشناخته ، پیچیده و غیرخطی می باشد. ثانیا ، داده های سمعی توسط نویز و بازتاب های موجود اشغال می گردند. در مرحله سوم، ارزش درون شنودی در فرکانس داده شده در صورت انتشار صوت در همان فرکانس ، مرتبط و قابل استناد خواهد بود : اصوات طبیعی از جمله سخنرانی ها ، دارای پراکندگی بسیار صوت می باشند به گونه ای که 80 درصد از فرکانس های صدا در همان لحظه ی نشر ، از بین می روند. در نهایت ، در هنگام انتشار چند منبع صوتی به صورت مشابه ، اختصاص نقطه فرکانس – زمان به یکی از منابع ، تخمین دشوار آن را به همراه خواهند داشت.
اولین مشکل ، ترسیم اصول سمعی در مکان های منبع صوتی مرکزگرا می باشد. تاکنون به شنوایی محاسباتی توجه اندکی شده است. اغلب روش های موجود ، ترسیم مورد نظر را بر اساس فرضیه های تسهیل کننده انجام می دهند. از این جمله فرضیه ها می توان به مسیر مستقیم انتشار صوت از منبع به میکروفن اشاره کرد. در این روش ، اتصال سینوسی داده های ILD از مجموع داده های HRTF انسان و یا مدل گوش مارپیچ صورت می گیرد. معمولا این گونه فرضیه ها در حالت واقعی ، معتبر نیستند. پیرو این دیدگاه ، مدل سازی دقیق سیستم دو شنودی در حالت واقعی نیازمند شمار بالای پارامترهای بازدارنده از جمله ویژگی های آکوستیک و شمایل دقیق دستگاه ضبط صدا و اتاق می باشند. زیرا موارد یاد شده در حالت کاربردی ، کاملا غیر دسترس هستند. به همین علت ، اکثر قریب به اتفاق روشهای بومی سازی صوت دوشنودی ، عموما بر تخمین دقیق زاویه جلویی آزیموث ، بومی سازی یک بعدی و گاهی هم بومی سازی دو بعدی متکی می باشند. متناوبا ،برخی از روش های موجود ، مدل ترسیمی موجود را کنار گذاشته و بومی سازی دوبعدی را توسط کاوش تکمیلی در جدول مشخصات طیفی درون شنودی مسیرهای منابع سمعی HRTF انجام می دهند . با این وجود ، این فرایند بی ثبات بوده و با توجه به شمار آزمایشات مورد نیاز و هزینه های محاسباتی و حافظه بازدارنده به سختی مقیاس پذیر می باشد.
توجه:
- برای دانلود فایل word کامل ترجمه از گزینه افزودن به سبد خرید بالا استفاده فرمایید.
- لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش ترجمه تخصصی مقالات خود بر روی کلید زیر کلیک نمایید.
سفارش ترجمه مقاله
دیدگاهها
هیچ دیدگاهی برای این محصول نوشته نشده است.