توضیحات
عنوان: فشرده سازی صوت
- فشرده سازی صوت
- تکنیک DPCM
- روش کلپ CELP
- این استاندارد می تواند 4 حالت مختلف را ساپورت کند.
- Stereo coding
- استاندارد MPEG2
- پروفایل ها
- AAC window
- Noise shaping
- Middle side stereo coding
- Bit reservoir
فشرده سازی صوت
در جلسه قبلی مقدمات آن گفته شد. اینکه سیگنال صوت چیست و چگونه مدل می شود. سیگنال صوت یک سیگنال پیوسته در زمان است. از آن نمونه برداری میکنیم تا تبدیل به سیگنال های گسسته شود. این سیگنال گسسته در هر فرکانسی یک شدت خاصی دارد. که این فرکانس ها و شدت ها باید کد شود و به سمت گیرنده ارسال شود.
در یک محدوده خاص فرکانسی گوش ما تک تک فرکانس ها را نم تواند تشخیص دهد . و بنابراین محدوده ی فرکانسی را به یک سری باند تقسیم می کنیم و به هر باندی فقط یک سری از فرکانس ها را ارسال می کنیم. بعد برای آنکه انتخاب کنیم کدام یک از فرکانس ها را ارسال کنیم از ویژگی های گوش انسان استفاده می کنیم. در دو فرکانسی که نزدیک هم هستند، اگر دو شدت متفاوت داشته باشیم ، آن فرکانسی که شدتش بیشتر است آن شدت کمتر را ماسک می کند و می پوشاند. پی یک فرکانسی که ارسال شود فرکانس بعدی دیگر شنیده نمی شود.
یا در بازه های زمانی نزدیک به هم صدای دیگری را نمی توانیم بشنویم.
یک سری تکنیک های lossless داریم که دیتاها را بدون اینکه دور بریزد کد می کند که تکنیک هایی مثل هافمن و LZW و مثل اینها بودند.
از جمله تکنیک های Lossy که استفاده می شود و اطلاعات دور ریخته می شود روش فشرده سازی سکوت است. که بیشتر در کاربردهایی که به صورت صحبت هستند استفاده می شود. در همچین اپلیکیشن هایی معمولا خیلی بازه های زمانی اتفاق می افتد که سکوت وجود دارد. این سکوت وقتی اتفاق می افتد عملا سکوت محض نیست. چون صداهای محیط و مثل اینها وجود دارد و یک نویزهایی وجود دارد. در همچین کاردبردهایی این نویزها مهم نیستند یعنی اگر این نویزها را به سمت دیکدر نفرستیم هم اتفاقی نمی افتد. در نتیجه بهتر است جاهای که سکوت است دیتایی نفرستیم و به دیکدر بگوییم در سمت گیرنده جاهایی که سکوت است یک حالت نویز مانندی تولید کند که ار آن سکوت مطلق بیرون بیاییم. نویز سمت انکدر با نویز سمت دیکدر اگر فرق داشت هم مهم نیست. مهم این است که یک نویزی تولید شود. که به این روش فشرده سازی سکوت می گویند.
مشکل این روش تشخیص دادن سکوت است. معمولا کاری که می کنند یک threshold ای می گذارند می گویند در این threshold خاص اگرصدا از این threshold خاص پایین تر آمد یعنی عملا سکوت است. انتخاب این threshold مهم است. اگر این threshold را از یک مقدار خاصی پایین تر بگیریم ، اگر صدا خیلی هم پایین باشد باز این احساس می کند یک صدایی هست. اگر threshold را هم خیلی بالا بگیریم ممکن است صداهای واقعی را جزو سکوت تشخیص دهد و عملا کدشان نکند. پس انتخاب این threshold بسته به اینکه محیط چقدر سر و صدا دارد می تواند کار سختی باشد.
سمت دیکدر به صورت تصادفی نویزی تولید می کنیم تا فواصل که سکوت بوده آن نویزها را پخش کند.
تکنیک DPCM
برای کد کردن ضرایب DC یکی از آن ضرایب را کد می کنیم برای بقیه فقط اختلافشان نسبت با این یکی را کد می کنیم. یعنی اختلاف را حساب می کند. این اختلاف هم از خود ضریب DC مقداذ خیلی کمتری دارد. در اینجا هم برای ارسال دیتا اولی را می فرستیم و برای بقیه فقط اختلاف اش را نسبت به اولی ارسال کنیم، باعث می شود حجم دیتا کمتر شود. و این اختلاف ها را حتی می توان quantize هم کرد. یعنی مثلا اگر دیتا 8 بیت بود می توان با 6 بیت آن را کد کرد و 2 بیت پایین آن را عملا دور انداخت. که باز هم حجم دیتا کمتر شود. البته مقداری خطا به سیستم وارد می شود. چیزی که می ماند با روش های لاسی دیکد می کنیم و به سمت گیرنده ارسال می کنیم.
Adaptive DPCM:
این سیستم می تواند حالت adaptive هم داشته باشد. حالت کوانتیزه می تواند حالت adaptive داشته باشد. Adaptive یعنی اینکه می تواند به نوعی کدها را دور ریخت. یعنی می توان در بعضی ضرایب 2 تا بیت دور ریخت در بعضی از ضرایب 3 تا یا 4 تا بیت دور ریخت. به جای اینکه از همه ضرایب به صورت یکسان بیت دور بریزیم از هر ضریبی متفاوت دیتا دور بریزیم. حروفی که صدا دارند اینجا بهشان فرکانس پایین و حروف بی صدا مثل سین و شین را فرکانس بالا می گوییم که خیلی اینها شبیه به نویز هستند. می شود حروفی که فرکانس بالا اند و حالت نویز دارند را با ضرایب qp بالاتری کوانتیزه کنیم حروف فرکانس پایین که مهم تر هستند با ضرایب پارامتر کوانتیزیشن کوچکتری کوانتایز کنیم یعنی دیتای کمتری از آن دور بریزیم. به این تکنیک adaptive می گویند. یک جاهایی بیت های بیشتری دور میریزیم و یک جاهایی بیت های کمتری دور میریزیم.
LPC:
روشیاست که فقط برای فشرده سازی صدای انسان استفاده می شود. روش آن مدل کردن حنجره ی انسان است. چون صدای انسان عملا توسط حنجره تولید شده و اگر بتوانیم حنجره ی انسان را مدل کنیم صدای انسان را هم می توانیم مدل کنیم.
تارهای صوتی انسان می تواند فرکانس های خاصی را تولید کند و گلو مانند فیلتری عمل می کند که باعث ایجاد طنین روی صدا می شود. صدا به دیواره های ناحیه گلو برخورد می کند حالت انعکاسی پیدا می کند که طنین صدا را می سازد. فرکانس تولید شده توسط تارهای صوتی هر شخص و گلوی هر شخص باعث می شود صدای افراد مختلف با هم متفاوت باشد. در نتیجه اگر بخواهیم صوتی را مدل کنیم کافی است فرکانس های تولید شده توسط حنجره که یک سری عدد هستند و گلوی شخص (فیلتر) را مدل کنیم و ضرایبش را بدست آوریم می توانیم صدا را تولید کنیم و سمت دیکدر با استفاده از پارامترهایی که فرستایم می توانیم دوباره این صدا را بسازیم. که چیزی شبیه به همان صدایی می شود که سمت انکدر تولید شده. سمت انکدر به صورت ساختگی آن صدا را می سازد که ممکن است مقداری هم با صدایی که در سمت گیرنده ایجاد شده متفاوت باشد. به خاطر اینکه ضرایب فیلتر دقیق نیست یا دیتایی از آن دور ریخته می شود. از نطر فشرده سازی تکنیک خیلی خوبی است چون پرامترهایی که می فرستد خیلی پارامترهای محدودی است و یک سری عدد هستند و با حجم کمتری می توانند ارسال شوند.
انکدر و دیکدر LPC:
از نظر فرمت ها آنالیز می کند گفتار را، بعد فیلتری که همان گلوی انسان است را از روی آن بر می دارد یعنی عکس آن فیلتر را انجام می دهد. در نتیجه سیگنال صدای بدون طنین را یعنی همان فرکانس ها را ارسال می کند. و بعد سمت دیکدر عکس آن عملیات را انجام می دهد. یعنی صدا و طنین را بر روی آن اضافه می کند.
LPC: فقط برای صدای انسان است و مثلا برای موزیک کافی نیست. بیت ریت خیلی خوبی می تواند داشته باشد. صدای سمت گیرنده ممکن است طبیعی نباشد. و به 2.4kb/s هم می توان رسید.
توجه:
برای دانلود فایل کامل ورد لطفا اقدام به خرید نمایید.
لینک دانلود فایل بلافاصله پس از خرید بصورت اتوماتیک برای شما ایمیل می گردد.
به منظور سفارش تحقیق مرتبط با رشته تخصصی خود بر روی کلید زیر کلیک نمایید.
سفارش تحقیق
نقد و بررسیها
هنوز بررسیای ثبت نشده است.