數(shù)字音頻技術

上傳人：奔*** IP屬地：河北更新時間：2024-01-06 格式：ppt 頁數(shù)：50 大?。?87.00KB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩49頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、信息工程系,1,2024/3/14,8.2 MPEG音頻壓縮技術,8.2.1 音頻特性及其編碼研究聽覺系統(tǒng)對聲音的感知特性，下面介紹已經(jīng)用在MPEG Audio壓縮編碼算法中的三個特性：響度、音高和掩蔽效應，聽覺感知編碼。1. 對響度的感知聲音的響度就是聲音音頻弱。在物理上（客觀），聲音的響度使用客觀測量單位來度量，即dyn/cm2(達因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強)。在心理上（主觀），主觀

2、感覺的聲音強弱使用響音頻“方(phon)”或者“宋(sone)”來度量,信息工程系,2,2024/3/14,8.2 MPEG音頻壓縮技術,這兩種感知音頻強弱的計量單位是完全不同的兩種概念，但是它們之間又有一定的聯(lián)系當音頻弱到人的耳朵剛剛可以聽見時，我們稱此時的音頻強度為“聽閾”。例如，1 kHz純音的聲強達到10-16w/cm2(定義成零dB聲強級)時，人耳剛能聽到，此時的主觀響度級定為零方實驗表明，聽閾是隨頻率變化的。測出的“聽

3、閾—頻率”曲線如圖所示。圖中最靠下面的一根曲線叫做“零方等響度級”曲線，也稱“絕對聽閾”曲線，即在安靜環(huán)境中，能被人耳聽到的純音的最小值另一種極端的情況是音頻強到使人耳感到疼痛。實驗表明，如果頻率為1 kHz的純音的聲強級達到120 dB左右時，人的耳朵就感到疼痛，這個閾值稱為“痛閾”,信息工程系,3,2024/3/14,8.2 MPEG音頻壓縮技術,“聽閾—頻率”曲線,信息工程系,4,2024/3/14,8.2 MPEG音頻壓縮技術

4、,人耳對不同頻率的敏感程度差別很大，其中對2 kHz～4 kHz范圍的信號最為敏感，幅度很低的信號都能被人耳聽到。而在低頻區(qū)和高頻區(qū)，能被人耳聽到的信號幅度要高得多,信息工程系,5,2024/3/14,8.2 MPEG音頻壓縮技術,2. 對音高的感知客觀上用頻率來表示聲音的音高，其單位是Hz主觀感覺的音高單位則是“美(Mel)”,主觀音高與客觀音高的關系是：其中 f的單位為Hz這也是兩個既不相同又有聯(lián)系的單位人耳對頻率的

5、感覺也有一個范圍。人耳可以聽到的最低頻率約20 Hz，最高頻率約20000 Hz,信息工程系,6,2024/3/14,8.2 MPEG音頻壓縮技術,音高—頻率曲線,信息工程系,7,2024/3/14,8.2 MPEG音頻壓縮技術,3. 掩蔽效應一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象稱為掩蔽效應。前者稱為掩蔽聲音(masking tone)，后者稱為被掩蔽聲音(masked tone)掩蔽可分成頻域掩蔽和時域掩蔽(1

6、). 頻域掩蔽一個強純音會掩蔽在其附近同時發(fā)聲的弱純音，這種特性稱為頻域掩蔽，也稱同時掩蔽(simultaneous masking),信息工程系,8,2024/3/14,8.2 MPEG音頻壓縮技術,聲強為60 dB、頻率為1000 Hz純音的掩蔽效應,信息工程系,9,2024/3/14,8.2 MPEG音頻壓縮技術,頻率為250 Hz、1 kHz、4 kHz和8 kHz純音的掩蔽效應，它們的聲強均為60 dB①在250 Hz

7、、1 kHz、4 kHz和8 kHz純音附近，對其他純音的掩蔽效果最明顯②低頻純音可以有效地掩蔽高頻純音，但高頻純音對低頻純音的掩蔽作用則不明顯,信息工程系,10,2024/3/14,8.2 MPEG音頻壓縮技術,2. 時域掩蔽時間上相鄰的聲音之間也有掩蔽現(xiàn)象，并且稱為時域掩蔽。時域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)超前掩蔽較短，只有大約5～20 ms，而滯后掩蔽可以持續(xù)50～20

8、0 ms,信息工程系,11,2024/3/14,8.2 MPEG音頻壓縮技術,時域掩蔽,信息工程系,12,2024/3/14,8.2 MPEG音頻壓縮技術,聽覺感知編碼的編碼思路：1. 根據(jù)聽覺域度對可聞信號進行編碼,,聽覺域度對編碼的作用,信息工程系,13,2024/3/14,8.2 MPEG音頻壓縮技術,2.根據(jù)掩蔽效應，只對幅度強的掩蔽信號進行編碼,,信息工程系,14,2024/3/14,8.2 MPEG音頻壓縮技術,3.量化噪

9、聲使得不必全部編碼原始信號,,信息工程系,15,2024/3/14,8.2 MPEG音頻壓縮技術,4. 通過子帶分割來進行優(yōu)化、編碼,,子帶編碼、優(yōu)化,信息工程系,16,2024/3/14,8.2 MPEG音頻壓縮技術,8.2.2 MPEG-1音頻壓縮技術MPEG音頻壓縮的的主要依據(jù)是人耳朵的聽覺特性，使用“心理聲學模型(psychoacoustic model)”來達到壓縮聲音數(shù)據(jù)的目的心理聲學模型聽覺系統(tǒng)中存在一個聽覺閾值電平

10、，低于這個電平的聲音信號就聽不到，因此就可以把這部分信號去掉聽覺閾值的大小隨聲音頻率的改變而改變，各個人的聽覺閾值也不同。大多數(shù)人的聽覺系統(tǒng)對2 kHz～5 kHz之間的聲音最敏感。一個人是否能聽到聲音取決于聲音的頻率，以及聲音的幅度是否高于這種頻率下的聽覺閾值,信息工程系,17,2024/3/14,8.2 MPEG音頻壓縮技術,聽覺系統(tǒng)存在掩蔽特性，聽覺閾值電平是自適應的，即聽覺閾值電平會隨聽到的不同頻率的音頻而發(fā)生變化例如，同時

11、有兩種頻率的音頻存在，一種是1000 Hz的音頻，另一種是1100 Hz的音頻，但它的強度比前者低18分貝，在這種情況下，1100 Hz的音頻就聽不到,信息工程系,18,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG音頻壓縮算法框圖,信息工程系,19,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1音頻壓縮標準的主要性能：(1) 輸入信號為線性PCM信號，采樣率為32, 44.1或48 kHz，輸出為32 k

12、b/s～384 kb/s(2) MPEG-1音頻壓縮標準提供三個獨立的壓縮層次① 層1的編碼器最為簡單，編碼器的輸出數(shù)據(jù)率為384 kb/s，主要用于小型數(shù)字盒式磁帶(digital compact cassette，DCC)② 層2的編碼器的復雜程度屬中等，編碼器的輸出數(shù)據(jù)率為256 kb/s～192 kb/s，其應用包括數(shù)字廣播聲音(DAB)、數(shù)字音樂、CD-I(compact disc-interactive)和VCD(vi

13、deo compact disc)等③ 層3的編碼器最為復雜，編碼器的輸出數(shù)據(jù)率為64 kb/s，主要應用于網(wǎng)絡音樂,信息工程系,20,2024/3/14,8.2 MPEG音頻壓縮技術,1. 子帶編碼濾波器組的劃分MPEG-1音頻編碼器把輸入信號變換到32個頻域子帶中去。子帶的劃分方法有兩種，一種是線性劃分，另一種是非線性劃分,信息工程系,21,2024/3/14,8.2 MPEG音頻壓縮技術,2. 子帶編碼,SNR(signal

14、 noise ratio) —— 信號噪聲比SMR(signal-to-mask ratio) —— 信號掩蔽比NMR(noise-to-mask ratio) —— 噪聲掩蔽比,信息工程系,22,2024/3/14,8.2 MPEG音頻壓縮技術,3.編碼層 MPEG音頻壓縮定義了3個層次，它們的基本模型是相同的。層1是最基礎的，層2和層3都在層1的基礎上有所提高。每個后繼的層次都有更高的壓縮比，但需要更復雜的編碼解碼

15、器 MPEG的音頻數(shù)據(jù)分成幀(frame)，層1每幀包含384個樣本的數(shù)據(jù)，每幀由32個子帶分別輸出的12個樣本組成。層2和層3每幀為1152個樣本,信息工程系,23,2024/3/14,8.2 MPEG音頻壓縮技術,層1、2和層3的子帶樣本,信息工程系,24,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG編碼層簡介層1：采用均勻子帶劃分，心理聲學模型僅使用頻域掩蔽特性層2：采用均勻子帶劃分，心理聲學模型除使用頻域掩

16、蔽特性外還利用了時域掩蔽特性，并且在低、中和高頻段對比特分配作了一些限制，對比特分配，比例因子和量化樣本值的編碼也更緊湊層3：采用非均勻子帶劃分，即臨界頻帶劃分，心理聲學模型使用頻域和時域掩蔽，同時還考慮了立體聲數(shù)據(jù)冗余，并且使用了Huffman編碼,信息工程系,25,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1數(shù)字音頻的參數(shù)概述 (1)MPEG-1音頻取樣頻率 fs：32 kHz, 44.1 kHz ,

17、 48 kHz(2)MPEG-1音頻碼率32～192kHz 單聲道, 64～384kHz 立體聲 PCM如按高保真立體聲：50Hz～20kHz，取fs＝44.1KHz，n＝16bit;則不壓縮時速率：44.1×16＝705.6Kbit/s (每聲道)(3)MPEG-1音頻壓縮算法①自適應頻譜心理聲學熵編碼ASPEC(Adaptive Spectral Perceptual Entropy Coding);

18、②自適應變換聲音編碼ATAC（Adaptive Transform Audio Coding）③掩蔽型自適應子帶編碼和復用MUSICAM(Masking-Pattern Adapted Universal Subband Integrated Coding And Multiplexing)④子帶/自差分脈沖編碼SB/ADPCMASPEC和MUSICAM主觀評價幾乎相同。在64kbit/s時APESC音質(zhì)略好，而MUSICAM較

19、簡單，解碼延時較好；所以MUSICAM作為MPEG LayerI，結合ASPEC優(yōu)點為LayerII，LayerIII。,信息工程系,26,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1音頻信號數(shù)據(jù)壓縮過程 (a)時間/頻率映射（濾波器組）用以將輸入的信號轉化為亞取樣的頻譜分量分為子帶(b)頻域濾波器組或并行變換的輸出，根據(jù)心理聲學模型求出時變的掩蔽門限估值(c)按量化噪聲不超過掩蔽門限的原則將子帶量化編碼以使量化

20、噪聲不可聽到(d)按幀打包成碼流（包括比特分配信息）,信息工程系,27,2024/3/14,8.2 MPEG音頻壓縮技術,Layer Ⅰ,Ⅱ音頻編碼方框圖,信息工程系,28,2024/3/14,8.2 MPEG音頻壓縮技術,Layer Ⅰ,Ⅱ音頻解碼方框圖,信息工程系,29,2024/3/14,8.2 MPEG音頻壓縮技術,Layer III音頻編碼方框圖,信息工程系,30,2024/3/14,8.2 MPEG音頻壓縮技術,Layer

21、 III音頻解碼方框圖,信息工程系,31,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1音頻編碼幀結構,信息工程系,32,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2音頻壓縮 MPEG-2聲音編碼標準是MPEG為多聲道聲音開發(fā)的低碼率編碼方案，它是在MPEG-1聲音標準基礎上發(fā)展而來的。和MPEG-1相比，MPEG-2聲音主要增加了三個方面的內(nèi)容 (1)支持5.1路環(huán)繞聲。它能提供5個全帶寬聲道(左

22、、右、中和兩個環(huán)繞聲道)，外加一個低頻效果增強聲道，統(tǒng)稱為5.1聲道(2)支持多達8種語言或解說(3)增加了低取樣和低碼率。在保持MPEG-1聲音的單聲道和立體聲的原有取樣率的情況下，MPEG-2又增加了三種取樣率，即把MPEG-1的取樣率降低了一半，(16kHz,22.05kHz, 24kHz)以便提高碼率低于64kbit/s時的每個聲道的聲音質(zhì)量,信息工程系,33,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2聲

23、音多聲道擴展部分的數(shù)據(jù)結構 MPEG-2多聲道聲音編碼標準和現(xiàn)有的MPEG-1聲音標準保持后向兼容。在對原有的MPEG-1兩聲道增加獨立的環(huán)繞聲道時，MPEG-2盡量保特和MPEG-1聲音語法的兼容性，MPEG-2中的主聲道(左、右)仍然保持后向兼容，而環(huán)饒聲道采用新的編碼方法和語法,信息工程系,34,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2的兩種音頻數(shù)據(jù)壓縮格式 MPEG-2 Audio，或者稱為MPEG-

24、2多通道(Multichannel)音頻，與MPEG-1 Audio兼容，所以又稱為MPEG-2 BC (Backward Compatible)MPEG-2 AAC (Advanced Audio Coding)，與MPEG-1聲音格式不兼容，因此通常稱為非后向兼容MPEG-2 NBC(Non-Backward-Compatible)標準,信息工程系,35,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2 Audio

25、MPEG-2 Audio(ISO/IEC 13818-3)和MPEG-1 Audio(ISO/IEC 1117-3)標準都使用相同種類的編譯碼器，LayerⅠ, LayerⅡ和LayerⅢ的結構也相同MPEG-2音頻標準與MPEG-1標準相比，MPEG-2做了如下擴充：①增加了16 kHz, 22.05 kHz和24 kHz采樣頻率②擴展了編碼器的輸出速率范圍，由32～384 kbit/s擴展到8～640 kbit/s③增加了

26、聲道數(shù)，支持5.1聲道和7.1聲道的環(huán)繞聲。此外MPEG-2還支持Linear PCM(線性PCM)和Dolby AC-3(Audio Code Number 3)編碼,信息工程系,36,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1和MPEG-2的聲音數(shù)據(jù)規(guī)格,信息工程系,37,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2 Audio的“5.1環(huán)繞聲” MPEG-2 Audio的“5.1環(huán)繞聲”也稱

27、為“3/2/.1立體聲加LFE”，其中的“.1”就是指LFE聲道。它的含義是播音現(xiàn)場的前面可有3個喇叭聲道(左、中、右)，后面可有2個環(huán)繞聲喇叭聲道，LFE(low frequency effects)是低頻音效的加強聲道,信息工程系,38,2024/3/14,8.2 MPEG音頻壓縮技術,5.1聲道最佳效果放置 5個全頻帶的重放揚聲器分為前置揚聲器（包括L、R、C）和后置揚聲器（也稱環(huán)繞揚聲器，包括Ls、Rs），分別位于一個圓的邊

28、界上，其中L、R揚聲器與C揚聲器分別呈30度夾角，Ls、Rs揚聲器與C揚聲器分別呈110度夾角低頻增強聲道，稱之為LFE，它的頻率范圍在200Hz以下，大約是全頻帶倍頻程的10%左右，因此也稱點一聲道。它的放置沒有特殊的要求，一般放置在前面,,信息工程系,39,2024/3/14,8.2 MPEG音頻壓縮技術,7.1聲道環(huán)繞立體聲,信息工程系,40,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-1、MPEG-2音頻參

29、數(shù)的比較,信息工程系,41,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2中的AAC編碼AAC：Advanced Audio Coding 先進音頻編碼,不向下兼容MPEG-2 AAC是聲音感知編碼標準，MPEG-2 AAC主要使用聽覺系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù)量，并且通過把量化噪聲分散到各個子帶中，用全局信號把噪聲掩蔽掉。AAC支持的采樣頻率可從8 kHz到96 kHzAAC編碼器的音源可以是單聲道的、立體

30、聲的和多聲道的聲音。AAC標準可支持48個主聲道、16個低頻音效加強通道LFE (low frequency effects)、16個配音聲道(overdub channel)或者叫做多語言聲道(multilingual channel)和16個數(shù)據(jù)流,信息工程系,42,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2 AAC壓縮比為11:1，即每個聲道的數(shù)據(jù)率為(44.1×16 )/11=64 kbit/s，而

31、5個聲道的總數(shù)據(jù)率為320 kbit/s的情況下，很難區(qū)分還原后的聲音與原始聲音之間的差別與MPEG的LagerⅡ相比，MPEG-2 AAC的壓縮率可提高1倍，而且質(zhì)量更高，與MPEG的LagerⅢ相比，在質(zhì)量相同的條件下數(shù)據(jù)率是它的70％。,信息工程系,43,2024/3/14,8.2 MPEG音頻壓縮技術,MPEG-2 AAC的配置開發(fā)MPEG-2 AAC標準采用的方法與開發(fā)MPEG Audio標準采用的方法不同。后者采用的方

32、法是對整個系統(tǒng)進行標準化，而前者采用的方法是模塊化的方法，把整個AAC系統(tǒng)分解成一系列模塊，用標準化的AAC工具(advanced audio coding tools)對模塊進行定義AAC標準定義了三種配置：基本配置、低復雜性配置和可變采樣率配置：,信息工程系,44,2024/3/14,8.3美國HDTV AC-3音頻壓縮技術,1. 杜比 AC-3環(huán)繞聲系統(tǒng)AC（ Audio Coding ）-3是一種播放高音質(zhì)和效果的環(huán)繞聲系

33、統(tǒng)杜比 AC-3系統(tǒng)利用心理聲學原理對音頻信號進行壓縮編碼其取樣頻率有32KHz、 44.1KHz、 48KHz對音頻聲道采用獨立方式編碼，將每個聲道的頻率范圍擴展到 20Hz~20kHz全頻域杜比 AC-3的基本聲道有 5個，即前方左、右、中聲道，后方環(huán)繞左和環(huán)繞右聲道，另外還有一個超重低音聲道,共有 6個聲道。其中超重低音聲道的最高頻率為 120Hz，不能算一個完整的聲道，因此又稱為0.1聲道，這樣加起來便稱為 5.1聲道,

34、信息工程系,45,2024/3/14,8.3美國HDTV AC-3音頻壓縮技術,杜比 AC-3環(huán)繞聲播放系統(tǒng),信息工程系,46,2024/3/14,8.3美國HDTV AC-3音頻壓縮技術,其特點有： (1)全音頻聲道。 AC-3系統(tǒng)播放的音質(zhì)清晰，聲場動態(tài)范圍廣，聲象重現(xiàn)逼真，具有真實現(xiàn)場感 (2)立體環(huán)繞聲。 AC-3系統(tǒng)具有左和右后方環(huán)繞聲道，其環(huán)繞包圍感很強，烘托現(xiàn)場氣氛逼真,可使視聽者進入出神入化的境界

35、 (3)聲道之間分離度高從家庭影院的應用和發(fā)展來看，杜比 AC-3環(huán)繞聲系統(tǒng)將可能成為主流 (1)美國已確定杜比 AC-3環(huán)繞聲系統(tǒng)為 HDTV(高清晰度電視)音頻信號的編碼和解碼標準 (2)數(shù)字視盤機(DVD)的音頻也采用 AC-3音頻標準 (3)美國幾乎所有著名的電影公司制作的影片都按照 AC-3系統(tǒng)錄制 (4)目前世界著名的電子公司生產(chǎn)出的 DVD機，A／V放大器都帶有 AC-3解碼器,信息

36、工程系,47,2024/3/14,8.3美國HDTV AC-3音頻壓縮技術,2. 三種典型杜比環(huán)繞聲目前家庭影院流行的款式是杜比定向邏輯環(huán)繞聲系統(tǒng)(Dolby Pro-Logic Surround)、家庭用 THX系統(tǒng)( Home-THX)和杜比 AC-3環(huán)繞聲系統(tǒng),信息工程系,48,2024/3/14,8.3美國HDTV AC-3音頻壓縮技術,3.美國HDTV AC-3編碼,信息工程系,49,2024/3/14,8.3美國HDT

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)字音頻技術

文檔簡介

溫馨提示

最新文檔

評論

數(shù)字音頻技術

文檔簡介

溫馨提示

最新文檔

評論

免費下載