day5.1心理聲學(xué)模型及音頻壓縮

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-01-07 格式：pptx 頁數(shù)：32 大?。?00.23KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩31頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Part I-音頻掩蔽,,音頻掩蔽,2012/9/21,2,音頻信號(hào)種類亞音信號(hào)，次音信號(hào)(subsonic)頻率小于20Hz的信號(hào)音頻(Audio)信號(hào)頻率范圍為20Hz～20kHz的信號(hào)音樂、話音、風(fēng)聲、雨聲、鳥叫聲、機(jī)器聲…話音(speech)信號(hào)頻率范圍為300～3000Hz的信號(hào),音頻掩蔽,2012/9/21,3,超音頻信號(hào)，超聲波(ultrasonic)信號(hào)頻率高于20kHz的信號(hào)具有很強(qiáng)的方向性，形成波束

2、在工業(yè)上得到廣泛的應(yīng)用，如超聲波探測儀，超聲波焊接設(shè)備等,音頻掩蔽,2012/9/21,4,聽覺系統(tǒng)的感知特性響度、音高和掩蔽效應(yīng)對響度的感知聲音的響度聲音的強(qiáng)弱物理測量單位，dyn/cm2(達(dá)因/平方厘米)(聲壓)或w/cm2(瓦特/平方厘米)(聲強(qiáng))心理主觀感覺，響度級(jí)，方(phon)/宋(sone)完全不同的兩種概念，又有一定的聯(lián)系,音頻掩蔽,2012/9/21,5,聽閾聲音弱到人耳剛剛可以聽見時(shí)的聲音強(qiáng)度1k

3、Hz純音的聲強(qiáng)達(dá)到10-16w/cm2(0 dB聲強(qiáng)級(jí))時(shí)，人耳剛剛能聽到，主觀響度定為零方聽閾隨頻率變化,音頻掩蔽,2012/9/21,6,絕對聽閾曲線,音頻掩蔽,2012/9/21,7,聽覺范圍聽閾—頻率曲線和痛閾—頻率曲線之間的區(qū)域人耳對頻率的敏感程度對2kHz～5kHz范圍的信號(hào)最為敏感，幅度很低的信號(hào)都能被人耳聽到低頻區(qū)和高頻區(qū)，幅度要高得多才能聽到等響度級(jí)曲線1kHz的10dB的聲音和200Hz的30dB的聲音

4、，在人耳聽起來具有相同的響度,音頻掩蔽,2012/9/21,8,對音高的感知客觀測量用頻率(Hz)來表示聲音的音高人耳的頻率感覺范圍約20Hz~18000Hz主客觀音高的關(guān)系Mel=1000log2(1+f)主觀感覺的音高單位-美(Mel),音頻掩蔽,2012/9/21,9,主觀音高的測量以40dB聲強(qiáng)為基準(zhǔn)讓實(shí)驗(yàn)者聽兩個(gè)聲強(qiáng)級(jí)為40dB的純音，固定其中一個(gè)純音的頻率，調(diào)節(jié)另一個(gè)純音的頻率，直到他感到后者的音高為前者的

5、兩倍，就標(biāo)定這兩個(gè)聲音的音高差為兩倍,音頻掩蔽,2012/9/21,10,實(shí)驗(yàn)表明，音高與頻率之間不是線性關(guān)系測出的音高—頻率曲線如圖所示,音頻掩蔽,2012/9/21,11,掩蔽效應(yīng)一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象前者稱為掩蔽聲音(masking tone)，后者稱為被掩蔽聲音(masked tone)分成頻域掩蔽和時(shí)域掩蔽。心理聲學(xué)的基礎(chǔ)【例】安靜房間里的普通談話可以聽得很清楚，但在播放搖滾樂的環(huán)境下

6、同樣的普通談話就聽不清楚了,音頻掩蔽,2012/9/21,12,頻域掩蔽一個(gè)強(qiáng)純音會(huì)掩蔽在其附近同時(shí)發(fā)聲的弱純音，也稱同時(shí)掩蔽(simultaneous masking),音頻掩蔽,2012/9/21,13,【例】一個(gè)聲強(qiáng)為60dB、頻率為1000Hz的純音，另外還有一個(gè)1100Hz的純音，前者比后者高18dB，只能聽到1000Hz的強(qiáng)音一個(gè)1000Hz的純音和一個(gè)聲強(qiáng)比它低18dB的2000Hz的純音，同時(shí)聽到這兩個(gè)聲音要想讓

7、2000Hz的純音也聽不到，則需要把它降到比1000Hz的純音低45dB一般弱純音離強(qiáng)純音越近就越容易被掩蔽,音頻掩蔽,2012/9/21,14,一組曲線分別表示頻率為250Hz、1kHz、4kHz和8kHz純音的掩蔽效應(yīng)，聲強(qiáng)均為60dB在純音附近，對其他純音的掩蔽效果最明顯低頻純音可以有效地掩蔽高頻純音，但高頻純音對低頻純音的掩蔽作用則不明顯,不同純音的掩蔽效應(yīng)曲線,音頻掩蔽,2012/9/21,15,臨界頻帶(critica

8、l band)-I聲音頻率與掩蔽曲線不是線性關(guān)系從感知上來統(tǒng)一度量聲音頻率人類聽覺系統(tǒng)HAS在20Hz到16kHz范圍內(nèi)有24個(gè)臨界頻帶，單位叫Bark(巴克)1Bark = 一個(gè)臨界頻帶的寬度f(頻率) 500 Hz, 1Bark≈9+4log(f/1000)在中心頻率為500Hz以下的臨界頻帶中，帶寬恒定為100Hz，隨著中心頻率的增加，臨界帶寬進(jìn)一步增加,音頻掩蔽,2012/9/21,16,臨界頻帶表,音頻掩蔽,20

9、12/9/21,17,臨界頻帶(critical band)-II主觀反映突然發(fā)生變化的帶寬人耳以臨界頻帶為單位對聲音進(jìn)行處理在一個(gè)臨界頻帶內(nèi)耳朵的聽覺感知特性很類似很多心理聲學(xué)特性都相同即使加入噪聲，人耳也不能察覺出與原信號(hào)間的差別各種聲音相互作用，合成聲音的響度由這些頻率共同決定。如果超出臨界區(qū)，聲音的響度不再相互作用,音頻掩蔽,2012/9/21,18,時(shí)域掩蔽時(shí)間上相鄰聲音之間的掩蔽預(yù)先掩蔽(pre-maski

10、ng)在強(qiáng)信號(hào)打開前5到20ms時(shí)產(chǎn)生，由于掩蔽信號(hào)與被掩蔽信號(hào)之間的聽覺處理相互干涉引起的后掩蔽(post-masking)在強(qiáng)信號(hào)關(guān)閉后50到200ms時(shí)產(chǎn)生，由于神經(jīng)行為具有一定的持久性,Part II-音頻壓縮,,音頻壓縮,2012/9/21,20,為什么壓縮？數(shù)字信號(hào)存儲(chǔ)容量大，傳輸信道容量要求高CD采樣率44.1kHz，量化精度16比特，1分鐘的立體聲音頻信號(hào)需占約10M字節(jié)的存儲(chǔ)容量所有比特都是必需的?PC

11、M碼流進(jìn)行存儲(chǔ)和傳輸存在非常大的冗余度無損的條件下對聲音至少可進(jìn)行4:1壓縮，即只用25%的數(shù)字量保留所有的信息，視頻領(lǐng)域壓縮比甚至可以達(dá)到幾百倍,音頻壓縮,2012/9/21,21,音頻壓縮(壓縮編碼)原始數(shù)字音頻信號(hào)流(PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù)，在不損失有用信息量，或所引入損失可忽略的條件下，降低(壓縮)其碼率必須具有相應(yīng)的逆變換(解壓縮或解碼)可能引入大量的噪聲和一定的失真,音頻壓縮,2012/9/21,22

12、,音頻壓縮的聲學(xué)原理原始信號(hào)本身存在著冗余度客觀冗余可以計(jì)算，用來確定音頻信號(hào)的某些數(shù)字上可預(yù)測特性的數(shù)量，如周期波形人類的聽覺感知系統(tǒng)對某些失真不敏感主觀冗余音頻信號(hào)中包含被人耳忽略的分量,音頻壓縮,2012/9/21,23,音頻壓縮技術(shù)分類按照信息損失無損(lossless)壓縮及有損(lossy)壓縮按照壓縮方案時(shí)域壓縮、變換壓縮、子帶壓縮、混合壓縮算法的時(shí)間、空間復(fù)雜程度、音頻質(zhì)量、算法效率(即壓縮比例)、

13、編解碼延時(shí)等都有很大的不同,音頻壓縮,2012/9/21,24,時(shí)域壓縮(波形編碼)直接對音頻PCM碼流的樣值進(jìn)行處理，通過靜音檢測、非線性量化、差分等手段進(jìn)行壓縮算法復(fù)雜度低、聲音質(zhì)量一般、壓縮比小(CD音質(zhì)>400kbps)、編解碼延時(shí)最短多用于語音壓縮等低碼率應(yīng)用場合G.711、ADPCM、 LPC、CELP,音頻壓縮,2012/9/21,25,ADPCM自適應(yīng)地改變量化階的大小使用小的量化階去編碼小的差值使用

14、大的量化階去編碼大的差值LPC通過分析話音波形來產(chǎn)生聲道激勵(lì)和轉(zhuǎn)移函數(shù)的參數(shù)并對其編碼在接收端通過話音合成器(代表人的話音生成系統(tǒng)模型)重構(gòu)話音,音頻壓縮,2012/9/21,26,子帶壓縮以子帶編碼理論為基礎(chǔ)的一種編碼方法最早是由Crochiere等于1976年提出的基本思想對各子帶分量根據(jù)其不同的分布特性采取不同的壓縮策略以降低碼率感知(Perceptual)壓縮音源性質(zhì)沒有假設(shè)，去除人耳不可感知的部分根據(jù)心理感

15、知模型，決定子帶樣值或頻域樣值的量化階數(shù)和其它參數(shù),音頻壓縮,2012/9/21,27,子帶壓縮與感知壓縮的特點(diǎn)相對時(shí)域壓縮技術(shù)復(fù)雜得多，編碼效率、聲音質(zhì)量大幅提高，編碼延時(shí)相應(yīng)增加子帶編碼的復(fù)雜度要略低于感知編碼，編碼延時(shí)也相對較短各頻帶內(nèi)的噪聲將被限制在頻帶內(nèi)，不會(huì)對其它頻帶的信號(hào)產(chǎn)生影響在編碼時(shí)各子帶的量化階數(shù)不同，采用了動(dòng)態(tài)比特分配技術(shù)，壓縮效率高的主要原因,音頻壓縮,2012/9/21,28,MP3音頻MPEG-運(yùn)動(dòng)

16、圖像專家組，IS0/IEC的一個(gè)工作組MPEG-I 1ayer 3，注意不是MPEG-3!因特網(wǎng)上事實(shí)的音頻標(biāo)準(zhǔn)壓縮比高，音質(zhì)較好，制作簡單，交流方便支持采樣率為32，44.1， 48kHz的單聲道(Mono)及雙聲道(stereo)等編碼模式,音頻壓縮,2012/9/21,29,MPEG-1 Layerl(MP1)復(fù)雜度最低，每聲道位數(shù)據(jù)率為192Kb/sMPEG-1 Layer2(MP2)編碼較為復(fù)雜，128kbit/

17、s比特率接近CD音質(zhì)MPEG-1 Layer3(MP3)算法最復(fù)雜，壓縮性能最好。不定長編碼、霍夫曼編碼…，比特率64kbit/s，壓縮比1:10~1:12時(shí)，接近CD音質(zhì),音頻壓縮,2012/9/21,30,MP4一種商品GMO公司， AT&T授權(quán)MPEG-2AAC壓縮+知識(shí)產(chǎn)權(quán)保護(hù)，全新的數(shù)字音樂A2BMPEG-1 Layer4(X!)，MPEG-4(XX!)A2B數(shù)字音樂AAC音頻壓縮，知覺編碼，最高20:1

18、不損失音質(zhì)安全數(shù)據(jù)庫，A2B音樂文件含有特定密鑰協(xié)議認(rèn)證復(fù)制許可、允許復(fù)制副本數(shù)量、歌曲總時(shí)間、歌曲可以播放時(shí)間，經(jīng)營銷售許可等,音頻壓縮,2012/9/21,31,MP4特點(diǎn)-Iexe文件，內(nèi)嵌播放器，雙擊運(yùn)行與MP3相比大小僅為MP3的四分之三左右更好的音質(zhì)更大的壓縮比更適合在Internet上傳播SOLANA數(shù)字水印技術(shù)方便的追蹤和發(fā)現(xiàn)盜版行為非法解壓可能導(dǎo)致MP4原文件的損毀,音頻壓縮,2012/9/21

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

day5.1心理聲學(xué)模型及音頻壓縮

文檔簡介

溫馨提示

最新文檔

評(píng)論

day5.1心理聲學(xué)模型及音頻壓縮

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載