

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第4章 限失真信源編碼,4.1 連續(xù)信源的熵和互信息 4.2 信息率失真理論 4.3 標量量化編碼 4.4 矢量量化編碼 4.5 語音壓縮編碼 4.6 圖像壓縮編碼,4.1 連續(xù)信源的熵和互信息,前面研究的信源都是取值為有限或可數的離散信源,這些信源輸出的消息屬于時間離散、取值有限或可數的隨機序列,其統計特性可以用聯合概率分布來描述。而實際某些信源的輸出常常是時間和取值都連續(xù)的消息。例如,語音信號、電視信號等都是時間的連續(xù)
2、波形,而且,在某一固定時刻,它們的可能取值也是連續(xù)的,這樣的信源稱為隨機波形信源。,隨機波形信源輸出的消息是隨機的,因此,可用隨機過程來描述。用隨機過程描述其輸出消息的信源稱為隨機波形信源。若信源輸出用平穩(wěn)連續(xù)型隨機序列來描述,則此信源稱為連續(xù)平穩(wěn)信源。連續(xù)平穩(wěn)信源也可分為連續(xù)平穩(wěn)無記憶信源和連續(xù)平穩(wěn)有記憶信源。平穩(wěn)連續(xù)型隨機序列中每個自由度上的變量是連續(xù)隨機變量。用連續(xù)隨機變量描述其輸出消息的信源稱為連續(xù)信源。下面討論它們的信息測度。
3、,連續(xù)信源基本的數學模型為,其中 R是全實數集,是連續(xù)變量X的取值范圍,p(x)為x的概率密度。 定義連續(xù)信源的熵(差熵)為,(4―1),式(4―1)定義的連續(xù)信源的熵并不是實際信源輸出的絕對熵,連續(xù)信源的絕對熵應該再加上一項無限大的常數項。因為連續(xù)信源的可能取值有無限多個,若其取值是等概率分布的,那么,信源不確定性為無限大。當確知輸出為某值后,所獲得的信息量也將為無限大??梢姡琱(X)已不能代表信源的平均不確定性
4、大小,也不能代表連續(xù)信源輸出的信息量。,同理,可定義兩個連續(xù)變量X,Y的聯合熵和條件熵:,(4―2),(4―3),(4―4),這樣定義的差熵具有可加性、凸狀性和極值性,不存在非負性和變換不變性等。 設基本連續(xù)信道如圖4―1所示。其輸入和輸出都是單個連續(xù)型隨機變量的信道??捎媚P蛖X,p(y|x),Y}來描述單符號連續(xù)信道。X是輸入連續(xù)型隨機變量,X取值區(qū)間為[a,b]或實數域 R;Y是信道輸出連續(xù)型隨機變量,取
5、值區(qū)間為[a′,b′]或實數域 R;信道的傳遞概率密度函數為p(y|x),并滿足:,(4―5),信道輸入X滿足:,(4―6),(4―7),信宿接收Y滿足:,定義X和Y之間的平均互信息量為,(4―8),(4―9),(4―10),連續(xù)信道的平均互信息量和離散信道下平均互信息量的關系式完全類似,且保留了離散信道平均互信息量的所有含義和性質??梢?,將差熵定義為連續(xù)信源的熵是有重要實際意義的。 單符號連續(xù)信道的信息傳輸率
6、: R=I(X;Y), 比特/自由度 (4―11) 多維連續(xù)信道平均互信息等相關內容可參見有關文獻。,4.2 信息率失真理論,4.2.1 失真函數 由于只涉及信源編碼問題,所以可以將信道編碼和譯碼看成是信道的一部分。這樣信宿收到消息的失真(或誤差)只是由信源編碼帶來的。從直觀感覺可知,若允許失真越大,信息傳輸率可越小;若允許失真越小,信息傳輸率需越大。所以信息傳輸
7、率與信源編碼所引起的失真(或誤差)是有關的。,為了定量地描述信息傳輸率和失真的關系,可以略去廣義的無擾信道,所謂廣義無擾信道,是指把信道編碼、信道、信道譯碼這三部分看成一個沒有任何干擾的廣義信道。另一方面用虛擬手法拿信道來表示失真信源編碼的作用,把信源編碼和信源譯碼等價成一個信道,由于是失真編碼,所以信道不是一一對應的,用信道傳遞概率描述編、譯碼前后關系,這樣通信系統可簡化為如圖4―2所示。,圖 4―2,設離散無記憶信源:,信源符號通過
8、信道傳輸到接收端,則接收端接收變量為,對應于一對(u,v),定義一個非負函數:d(ui,vj)≥0, i=1,2,…,n;j=1,2,…,m (4―12) 稱此函數為失真函數(或稱單個符號失真度)。它用來測度信源發(fā)出一個符號ui,而接收端收到一個符號vj時所引起的誤差或失真。,由于信源U有n個符號,而接收變量V有m個符號,所以d(ui,vj)就有n×m個,這n×m個非負的函數可以排成矩陣形式
9、,即:,(4―13),稱它為失真矩陣D,它是n×m階矩陣。,失真函數可有多種形式,但應盡可能符合信宿的主觀特性,即主觀上的失真感覺應與d(ui,vj)的值相對應。D越大,所感覺到的失真也越大,而且最好成正比。當ui=vj時,d應等于零,表示沒有失真,當ui≠vj時,d為正值。常用失真函數有: 均方失真:,絕對失真:,相對失真:,(4―14),(4―15),(4―16),誤碼失真:,(4―17),式中:
10、x——信源輸出消息; y——信宿收到消息。,均方失真和絕對失真只與(x-y)有關,而不是分別與x及y有關,在數學處理上比較方便;相對失真與主觀特性比較匹配,因為主觀感覺往往與客觀量的對數成正比,但其數學處理困難得多。其實選擇一個與主觀特性完全匹配的失真函數已非常困難了,更不用說還要便于數學處理了。前三種失真函數適用于連續(xù)信源,最后一種失真函數適用于離散信源。誤碼失真函數表明,當接收符號與發(fā)送符號相同時,就不存在
11、失真和錯誤,即失真度為零;當接收符號與發(fā)送符號不同時,就存在失真。,而且認為只要發(fā)送符號與接收符號不同,由此引起的失真都相同,即失真度為常數。如果常數值為1,則稱為漢明失真。離散對稱信源的漢明失真矩陣 D為一方陣,且對角線上的元素為零:,(4―18),【例4―1】 二元對稱信源,信源U={0,1},接收變量V={0,1},在漢明失真定義下,失真函數為: d(0,0)=d(1,1)=0, d(0,1)=d (1,
12、0)=1 它表示當信源發(fā)送符號0(或符號1)而信宿接收到符號0(或符號1)時,則認為無失真或無錯誤存在;反之,若發(fā)送信源符號0(或符號1)而信宿接收符號1(或符號0)時,則認為有錯誤,并認為這兩種錯誤的后果是等同的。其失真矩陣為,【例4―2】 設信源U={0,1},接收變量V={0,1,2},定義失真函數為d(0,0)=d(1,1)=0,d(0,1)=d(1,0)=1,d(0,2)=d(1,2)=0.5,則失真矩陣 D為,
13、【例4―3】 信源U={0,1,2},接收變量V={0,1,2},失真函數為d(ui,vj)=(ui-vj) 2,求失真矩陣。由失真定義得: d(0,0)=d(1,1)=d(2,2)=0 d(0,1)=d(1,0)=d(1,2)=d(2,1)=1 d(0,2)=d(2,0)=4 所以失真矩陣 D為,4.2.2 平
14、均失真 因為信源U和信宿接收量V都是隨機變量,因此單個符號失真度d(ui,vj)也是隨機變量。定義傳輸一個符號引起的失真為平均失真,即信源平均失真:,(4―19),式中: ui——信源輸出符號,i=1,2,…,n; p(ui)——信源輸出符號ui的概率; vj——信宿接收符號,j=1,2,…,m; p(vj|ui)——廣義無擾信道傳遞概率。,單個符號
15、的失真度d(ui,vj)描述了某個信源符號通過傳輸后失真的大小。對于不同的信源符號和不同的接收符號,其值是不同的。但平均失真度已對信源和信道進行了統計平均,所以此值是描述某一信源在某一廣義無擾信道(或稱為試驗信道)傳輸下的失真大小,是從總體上描述整個系統失真情況的。從單個符號失真度出發(fā),可以定義長度為K的信源序列的失真函數和平均失真度。信源序列失真度(失真函數):,(4―20),式中: S——信源的一個輸出序列;
16、 Y——信宿的一個接收序列; sl——信源輸出序列中的一個符號; yl——信宿接收序列中的一個符號。,式(4―20)表明,信源序列的失真度等于序列中對應單個信源符號失真度之和。N維信源符號序列的平均失真度:,(4―21),則單個信源符號平均失真度:,(4―22),當信源與信道都是無記憶時,N維信源序列平均失真度為,(4―23),式中
17、: ——信源序列中第l個分量平均失真度。 此時單個信源符號平均失真度:,(4―24),若平均失真度 不大于所允許的失真D,即:,(4―25),稱式(4―25)為保真度準則。 N維信源序列的保真度準則是:平均失真度 不大于允許失真ND,即:,(4―26),1.離散信源的信息率失真函數 在信源給定,又定義了失真函數以后,總希望在滿足一定失真的情況
18、下,使信源傳輸給信宿的信息傳輸率R盡可能地小?;蛘哒f,在滿足保真度準則下,尋找信源必須傳輸給信宿的信息率R的下限值,這個下限值與D有關。從接收端來看,就是在滿足保真度準則下,尋找再現信源消息所必須獲得的最低平均信息量。而接收端獲得的平均信息量可用平均互信息量I(U;V)來表示,這就變成了在滿足保真度準則的條件下 ,,尋找平均互信息量I(U;V)的最小值。BD是所有滿足保真度準則的試驗信道集合,可以在D失真許可的試
19、驗信道集合BD中尋找某一個信道p(vj|ui),使I(U;V)取最小值。由于平均互信息量I(u;v)是p(vj|ui)的U型凸函數,所以在BD集合中,極小值存在。這個最小值就是在 條件下,信源必須傳輸的最小平均信息量。即,(4―27),式中:BD——所有滿足保真度準則的試驗信道的集合。,稱R(D)為信息率失真函數(或率失真函數),其單位為奈特/信源符號或比特/信源符號。
20、 N維信源符號序列的信息率失真函數RN(D):,(4―28),式中: x——信源的一個輸出序列; y——信宿的一個接收序列; ——N維信源符號序列的平均失真度。,2.連續(xù)信源的信息率失真函數 定義連續(xù)信源平均失真度為,(4―29),式中: d(u,v)——連續(xù)信源失真函數; p(u)——連續(xù)信源u的概率密度;
21、 p(v|u)——信道傳遞概率密度。,根據連續(xù)信源平均失真度的定義,可求得平均互信息I(U;V)=h(V)-h(huán)(V|U),則連續(xù)信源的信息率失真函數:,(4―30),式中: BD——滿足 ≤D的所有廣義無擾信道集合; inf——指下確界。,3.保真度準則下的信源編碼定理 定理4―1 (限失真信源編碼定理) 設R(D)為離散無記憶信源X的信息率失真函數,
22、R為信宿傳輸率,則當信息率R>R(D),只要信源序列長度L足夠長,一定存在一種編碼方法,其譯碼失真小于或等于D+ε,ε為任意小的正數;反之,若R0,每一個信源符號的平均碼長滿足如下公式:,(4―31),該定理指出,在失真限度內使信息率任意接近R(D)的編碼方法存在,然而,若信息率小于R(D),平均失真一定會超過失真限度D。 對于連續(xù)平穩(wěn)無記憶信源,雖然無法進行無失真編碼,但在限失真情況下,有與該定理一樣
23、的編碼定理。該定理說明最佳編碼是存在的,但對于如何進行編碼卻一無所知,因而就不能像無損編碼那樣從證明過程中引出概率匹配的編碼方法,一般只能從優(yōu)化的思路去求最佳編碼。,這個定理證明了允許失真D確定后,總存在一種編碼方法,使信息傳輸率R大于R(D)且可任意接近R(D),而平均失真小于允許失真D。反之,若R<R(D),那么該編碼的平均失真將大于D。如果用二進制符號進行編碼的話,在允許一定失真D的情況下,平均每個信源符號所需的二元碼符號
24、的下限值就是 R(D)。由此可見,信息率失真函數R(D)確實是在允許失真度為D的情況下信源信息壓縮的下限值。當信源給定后,無失真信源壓縮的極限值是信源熵H(U);有失真信源壓縮的極限值是信息率失真函數H(D)。,在給定某D后,一般R(D)<H(U)。 同樣,該定理只是一個存在定理。至于如何尋找最佳壓縮編碼方法,定理中并沒有給出。在實際應用中,該定理主要存在以下兩大類問題。
25、 第一類問題是,符合實際信源的R(D)函數的計算相當困難。首先,需要對實際信源的統計特性有確切的數學描述。其次,需要對符合主客觀實際的失真給予正確的度量,否則不能求得符合主客觀實際的R(D)函數。 ,例如,通常采用均方誤差來表示信源的平均失真度。但對于圖像信源來說,均方誤差較小的編碼方法,人們視覺感到失真較大。所以,人們仍采用主觀觀察來評價編碼方法的好壞。因此,如何定義符合主客觀實際情況的失真測度就是件較困難的事。第三,即便對實際信
26、源有了確切的數學描述,又有符合主客觀實際情況的失真測度,而信息率失真函數R(D)的計算還是比較困難的。,第二類問題是,即便求得了符合實際的信息率失真函數,還需研究采用何種實用的最佳編碼方法才能達到R(D)。 目前,這兩方面工作都有進展。尤其是對實際信源的各種壓縮方法,如對語音信號、電視信號和遙感圖像等信源的各種壓縮方法有了較大進展。相信隨著數據壓縮技術的發(fā)展,限失真編碼理論中存在的問題將會得到解決。,4.
27、3 標量量化編碼,連續(xù)信源限失真編碼的主要方法是量化,就是把連續(xù)的樣值離散化為某些量化級數,所以量化也可稱為數字化。量化后的信號也可稱為數字信號,這種轉換必將引入失真,量化時必須使這些失真最小。常用的量化方法有標量量化和矢量量化兩種,所謂標量量化是指每次只量化一個模擬樣本值,故又叫做零記憶量化。,4.3.1 均勻量化 標量量化中最簡單的方法是均勻量化,也叫做線性量化。設量化器輸入為x,對應實數值域空間為R
28、,量化器輸出為y,對應的實數值域空間為Rc,x和y的關系為 y=Q(x) (4―32),設Rc對應取值范圍[a0,an],a0可為負無限。an可為正無限。所謂均勻量化就是將區(qū)間[a0,an]分割為n個相等距離且互不重疊的子區(qū)間[ai,ai+1],取每個小區(qū)間的中點值作為量化值yi,即ai≤x≤ai+1時,yi=(ai+1+ai)/2,若x的概率分布函
29、數為p(x),則:,均勻量化的量化誤差:,(4―33),(4―34),量化器均方誤差:,量化器輸入方差:,(4―35),(4―36),量化器的信噪比SNR(Signal Noise Rate):,量化器的工作區(qū)域有三個。,1.正常量化區(qū) 當輸入x∈[a0,an]時,量化器能得到正常的量化輸出。 2.限幅區(qū) 當xan時,量化器分別輸出常量a0+
30、Δ/2和an-Δ/2。量化器此時處于限幅或過載工作狀態(tài),將會產生較大的失真。,3.空載區(qū) 當-Δ/2<x-ai<Δ/2時,將有兩種情況: (1)當輸入x=ai時,由于某種因素,使得x稍高于ai,則量化器輸出上一級量化值yi+1;當輸入x稍低于ai時;則輸出下一級量化值yi-1,這時的誤差為±Δ,量化器輸出在兩個量化級間往返跳動,形成一個矩形波輸出,結果將產生點狀噪聲
31、。 (2)輸入x在ai之上或之下,量化輸出分別為恒定值yi=ai+Δ/2或yi-1=ai-Δ/2。,4.3.2 最優(yōu)量化 將樣本值量化總要帶來誤差,因此,人們在設計量化器時,總希望其誤差越小越好,即尋求最優(yōu)量化誤差。所謂最優(yōu)量化就是使量化器的均方誤差σ2e最小或信噪比SNR最大的量化。根據信息熵的理論可以推斷,量化誤差最小的最優(yōu)量化器,對量化器輸入區(qū)間的分割應該是非均勻的。由于最優(yōu)量化
32、與p(x)有關,因而區(qū)間分割也與p(x)有關,尤其當N足夠大時,可以近似認為在各個子區(qū)間[ai,ai+1]上的概率分布p(x)為一常數,也就是說,在各子區(qū)間上可被視為均勻分布,即:,p(x)≈p(yi),x∈[ai,ai+1] (4―37) 因此,如果輸入x的概率分布在 R上是均勻分布,其量化和最優(yōu)量化是比較容易實現和討論的,但對于一般標量量化的最優(yōu)設計就不這樣容易了。下面介紹MaxLivod兩人提出的標量量化器的設計算法。
33、,最優(yōu)量化就是使量化器的均方誤差σ2e為最小,將式(4―35)分別對ai和yi求導,并令其為零,即,(4―38),(4―39),則,(4―40),(4―41),這里求出的ai和yi的值,就是最優(yōu)量化時的值??梢奱i的最佳位置是輸出yi-1和yi的中點,yi最佳位置在ai和ai+1區(qū)間的概率中心。一般情況下,ai和yi是互相制約、相互依賴的,不容易求出解析解,所以只能用遞推公式獲得近似解。MaxLivod采用的迭代方法如下:
34、 (1)任取y0; (2)由,計算a1;,(3)根據公式(4―40)計算y1; (4)重復步驟(2)、(3),分別計算出a2,y2,a3,y3,…,直至最后求得yn-1; (5)檢驗yn是否為[an-1,an]的概率中心,即式 是否成立,或在允許的一定誤差范圍內成立; (6)若步驟(5)滿
35、足,則過程結束,否則,重新選y0,重復上述操作步驟。,4.4 矢量量化編碼,要想得到性能好的編碼,僅采用標量量化是不可能的。在最佳編碼中,如將離散信源的多個符號進行聯合編碼可提高效率,這對連續(xù)信源也是如此。當把多個信源符號聯合起來形成多維矢量,再對矢量進行標量量化時,自由度將更大,同樣的失真下,量化級數可進一步減少,碼率可進一步壓縮。這種量化叫做矢量量化。,實驗證明,即使各信源符號相互獨立,多維量化通常也可壓縮信息率。因而矢量量化
36、引起人們的興趣而成為當前連續(xù)信源編碼的一個熱點??墒钱斁S數較大時,矢量量化尚無解析方法,只能求助于數值計算;而且聯合概率密度也不易測定,還需采用諸如訓練序列的方法。一般來說,高維矢量的聯合是很復雜的,雖已有不少方法,但其實現尚有不少困難,有待進一步研究。,設矢量量化器輸入集為 X={X1,X2,…,XN},Xj∈X,Xj=(xj1,xj2,…,xjk), X∈R k(k維歐幾里德空間),把R k劃分成J=2 n個互不相交的子空間R1,
37、R2,…,RJ,求出每個子空間的質心Yi,所有的 Yi構成 Y={Y1,Y2,…,YJ},Y為量化器的輸出空間,也叫碼書(或碼本),Yi叫碼字或碼矢,J叫碼書的長度。,對J階K維的矢量量化,實質上是判斷輸入Xj∈ Rk屬于哪個子空間Ri,然后輸出該子空間代表碼字 Yi,即: Yi=Q(Xj), 1≤i≤J,1≤j≤N (4―42) 這里 Yi就是Xj的編碼。,實際編碼時,在發(fā)送端只需記錄代表碼字Yi的
38、下標i,所以編碼過程是把X映射到I={1,2,…,J};而譯碼過程是在接收端依據收到的I代碼,查找碼書Y,獲得碼字Yi,用來代替Xj。由于總的碼字個數J一般遠小于總的輸入信號N×K,所以矢量量化的壓縮能力非常大。,傳輸或存儲一個矢量所需比特為lbJ(一般 J=2n),它是一個K維矢量,就是K個輸入信號,所以每個輸入信號的平均比特只有l(wèi)bJ/K,稱之為壓縮比。適當選取碼書長度J和碼字維數K,可以獲得很大壓縮比。矢量量
39、化中碼書的碼字越多,維數越大,失真就越小。只要適當地選擇碼字數量,就能控制失真量不超過某一給定值,因此碼書控制著矢量的大小。矢量量化時每輸入一個 Xj,都要和J個碼字 Yi逐一比較,搜索與其最接近的碼字 Yi。由于兩者均為K維矢量,所以工作量很大。矢量量化是定長碼,容易處理。,矢量量化由碼書 Y和劃分Ri的條件惟一確定。當碼書確定后,通過最近鄰域準則可以惟一確定區(qū)域分割。因此,最佳量化器的設計也就是最佳碼書Y的設計。前面,在討論一維標量
40、的最佳設計時,引入了MaxLivod的迭代算法,1980年Linde、Buzo和Gray將此算法推廣到了多維空間,稱作LBG算法。因LBG算法由于理論上的嚴密性和實現的簡便性以及較好的設計效果而得到了廣泛的應用,并成為各種改進算法的基礎。有關LBG算法等知識請參閱有關文獻。,4.5 語音壓縮編碼,對語音信號的壓縮,人們有較強的興趣,因為電話還是當前主要的通信手段之一,業(yè)務量也很大,尤其在移動通信中,由于無線頻帶有限,更需以低比
41、特率傳送。眾所周知,語音壓縮編碼可劃分為波形編碼、參量編碼和混合編碼三大類型。波形編碼的目的是在接收端恢復發(fā)端原語音的波形,并以波形的保真度即自然度為主要度量指標。參量編碼不同于波形編碼,它主要跟蹤波形產生的過程,,并且僅傳送反映波形變化的主要參量,在接收端根據語音產生過程,利用這些參量恢復語音。它又稱為聲碼器,其主要度量指標是可懂度?;旌暇幋a則介于波形編碼與參量編碼之間,即在參量編碼的基礎上,引入了波形編碼的特征,以達到改善自然度的目
42、的,因此,它一般也稱混合編碼為軟聲碼器。由于語音信源是屬于連續(xù)的限失真信源,可以根據R(D)函數理論探討波形編碼的理論壓縮極限。,由信息論可知,若要語音基本達到公用網入網信噪比標準,且大于26dB,那么理論壓縮倍數大約為3.4,若進一步考慮到實際語音分布和主觀因素影響后,大約為4倍左右。對于參量編碼,度量其質量的指標不再是保真度,而是可懂度。若不考慮講話人音質和情緒等因素,僅從可懂度出發(fā),在理論上,語音最低信息率大約為70~80 b/s
43、。它與目前常用的PCM語音64 kb/s相比,理論壓縮比大約為800~900倍。限于篇幅本節(jié)只討論語音壓縮編碼的基本原理。,4.5.1 波形編碼基本原理 自適應差分脈碼調制(ADPCM)是在差分脈碼調制(DPCM)的基礎上發(fā)展起來的。DPCM根據信號的過去樣值預測下一個樣值,并將預測誤差加以量化、編碼,而后進行傳輸,由于預測誤差的幅度變化范圍小于原信號的幅度變化范圍,因此在相同量化噪聲條件下,DPCM的量化
44、比特數小于PCM,從而達到語音壓縮編碼的目的。ADPCM與DPCM比較,兩者主要區(qū)別在于ADPCM中的量化器和預測器采用了自適應控制。同時,在譯碼器中多了一個同步編碼調整,其作用是為了在同步級連時不產生誤差積累。,20世紀80年代以來,32kb/sADPCM技術已日趨成熟,并接近PCM的質量,但卻節(jié)省一半的信道容量,因而受到重視。1984年CCITT提出G721建議,采用動態(tài)鎖定量化器,這是一種具有自適應速度控制32kb/s的自適應量化
45、器,并將它作為國際標準化的語音編碼方法。1986年又對G721建議進行了修正,稱G726建議,詳細內容請參見相關的文獻。,4.5.2 參量編碼 參量編碼的出發(fā)點在于跟蹤波形的產生過程,而不是傳輸波形本身。它傳遞的是反映這一變化過程的參量。根據線性預測原理,語音信號可用一系列預測變化的參量和其他與變化有關的參量來表征。在接收端,收到的這些語音參量通過一個時變數字濾波器,它根據發(fā)聲原理合成原來的語音。稱實現參量編
46、碼的編碼器為語音編碼器或聲碼器。所謂聲碼器,就是在充分研究音發(fā)音系統特點的基礎上,設法提取語音信號的要素。,這樣就可以只傳送這些要素而不再傳送語音信號的波形。在接收端利用這些要素重建語音信號,稱為合成語音。只要這些要素選擇得恰當,所需碼率就可很小而仍能保持良好的語音質量?,F在簡要地說明人的發(fā)音過程。當人發(fā)聲時,空氣由肺部排出,在聲帶間受壓而使聲帶振動,振動頻率由聲帶的張力和聲帶的厚度等因素所決定,因而因人、內容而異。壓出的氣流強弱決定聲
47、音的強度。該氣流經過由口腔等組成的聲道時而被調制,形成不同的音色。聲道包括口腔中的舌、齒、唇等,發(fā)鼻音時還要利用鼻腔。,以上均指發(fā)濁音和母音的情況。當發(fā)清音時,聲帶只有收縮和放開,不作周期性振動;發(fā)爆破音時,主要靠唇部動作,也屬于清音類型。 實際發(fā)聲過程當然要比上述過程復雜得多,最常用的簡化原理圖如圖4―3所示。,圖4―3 語音產生模型,圖4―3中,u(n)是波形產生的激勵參量,c(n)是輸出的語音。激勵分
48、為兩種:A路是發(fā)濁音或母音時的情況,可用周期性信號來代表,其周期大小和強度可隨時調整;B路是發(fā)清音時的情況,可用近似于白噪聲的隨機信號來代表。圖中的雙擲開關表示發(fā)音不同時可上、下轉換。濾波部分一般用線性濾波器來近似地代表聲音在聲道中被調制的過程。而線性時變?yōu)V波器的系數可以通過線性預測等技術獲得。在一般情況下需要有12個系數{ai}(i=1,2,…,12)。,此外,還有三個重要參量即音調(基音)周期P、清濁音判決u/v和代表語音強弱的增益
49、參量G??梢?,語音信號中所包含的主要信息就由這15個參量所決定。通過對每幀語音進行分析求出這15個參量,然后將它們量化、編碼傳送給收端。接收端用收到的這15個參量和發(fā)聲模型,綜合、復制出語音信號。這里線性時變?yōu)V波器的系數由收到的12個參量{ai},i=1,2,…,12控制,激勵器幅度受到增益G的控制。具體采用哪一類信號源則由收到的清濁音u/v來決定。發(fā)清音時,激勵為偽隨機的白噪聲源,發(fā)濁音時,激勵為基音周期控制的準周期脈沖源。采用這種編
50、碼方式進行語音有效傳輸的系統稱為線性預測器(LPC)。,線性預測分析仍是目前聲碼器技術的主流。近年來值得注意的有三個方面。首先是提高合成語音質量的措施,如采用余數激勵聲碼器RELP、多脈沖激勵聲碼器MELP以及聲道參數模型的改善等。其次是進一步降低速率,如采用變換技術,優(yōu)化編碼、矢量量化技術等等。顯然,這兩方面的技術都與復雜性成正比,所以用復雜性換取技術性是今后的一個方向。最后是參數的自適應特性。一般預測系數自適應范圍大致在30次/s至
51、400次/s,而對音調基音周期和增益的自適應范圍大致在100次/s至200次/s。,4.5.3 混合編碼 余數激勵聲碼器(RELPC)將余數低頻譜中的一小部分(基帶余數信號)所攜帶的激勵信息傳送給收端,它避免了清、濁音判決及基音提取??梢姡窃贚PC聲碼器基礎上發(fā)展起來的,從而是一種混合編碼的方法。在接收端,用高頻再生技術來恢復完整的余數信號,其實現方框圖如圖4―4所示。,圖4―4 RELPC原理方
52、框圖,圖中語音帶寬為ωH2,而余數信號的基帶帶寬是BH2,且它僅是全頻帶余數信號頻譜的一部分(1/L),采樣以原采樣率Fs的1/L進行采樣,然后對采樣信號進行編碼。下支路LPC分析提取參量并編碼,將兩路編碼合并后送入信道。在接收端,上支路經過譯碼,輸出基帶余數信號,對基帶余數信號進行高頻再生處理,然后該信號通過下端截止頻率為BH2的高通濾波器輸出,再與基帶余數信號相加產生全頻帶余數信號去激勵LPC合成器產生合成語音輸出。,可見,RELP
53、C方法在發(fā)送端用余數信號中低頻信息取代寬帶余數信號信息,而在接收端對基帶余數信號進行高頻再生處理,產生全頻帶余數信號去激勵LPC合成器。,4.6 圖像壓縮編碼,在20世紀90年代,計算機技術、微電子技術和通信技術得到迅猛發(fā)展。多媒體計算機、多媒體數據庫、多媒體通信、多媒體表現技術等多媒體研究領域也成為計算機和通信發(fā)展中的一個重要研究熱點。其中面臨最大的問題是數據量巨大的“爆炸”。文件、表格、工程圖紙等二值圖像的數據已較大。,但相
54、比之下,語音信號、靜止灰值圖像、彩色靜止圖像電視圖像、高清晰電視圖像等的數據量更是巨大。特別是高清晰電視圖像。一般電視圖像的數據量要比語音的數據量大上千倍。因此,研究有效的數據壓縮和解壓縮的技術成為重要的、關鍵的研究方向。信息率失真理論從理論上指出,解決這種問題的途徑是存在的、可能的。,4.6.1 靜止圖像壓縮編碼 新聞圖片、醫(yī)療圖片、衛(wèi)星圖片以及圖像文獻資料等均屬于靜止圖像。這類靜止圖片的壓縮,對傳輸和存儲
55、都具有重要的應用價值。靜止圖像壓縮編碼一般可劃分為無失真編碼與限失真編碼兩大類。對無失真編碼一般采用霍夫曼編碼或者算術編碼。限失真編碼主要有:幀內、幀間的預測編碼;二維變換編碼:KLT、DFT、DCT、HRT、SLT等等,以及子帶編碼、分層編碼、輪廓編碼、分形編碼、小波變換等等,但主要以預測編碼和正交變換編碼為主,JPEG標準是用于多個灰度及色度連續(xù)變化的靜止圖像編碼的國際標準。,4.6.2 活動圖像壓縮編碼
56、廣播電視、會議電視和可視電話等運動圖像信號,除幀內像素間有相關性而外,幀與幀之間也有很強的相關性,所以對這類信號的處理常用幀間預測技術。幀間預測不僅要利用本行的前幾個樣值和前幾行的相鄰取樣值,而且要利用上一幀或前幾幀的取樣值來估計當前幀內的像素值,因此幀間預測是一種三維預測方法。它在幀內預測的基礎上,再利用幀間的時間相關性進一步消除圖像信號的冗余度,提高壓縮比。,為了達到實時幀間預測,前幾幀的圖像數據必須儲存在幀存儲器(VRAM)中。超
57、大規(guī)模集成電路技術(VLSl)日趨成熟,使幀間預測技術變?yōu)楝F實,因此,幀間預測技術正在成為會議電視、可視電話、數字電視、HDTV的壓縮數據的主要方法之一。在介紹幀間預測技術之前,先研究一下電視圖像等幀間差值的統計特性。 er(i,j)=ur(i,j)-ur-1(i,j) (4―43),實際統計結果表明,該差值不大。對于變化緩慢的黑白圖像序列,如可視電話、會議電視的圖像信號
58、,如果對其進行256級量化,只有4%像素的幀間差值超過閾值3;對于亮度值變化較為劇烈的256級的彩色電視圖像序列,也只有7.5%像素的幀間差值越過閾值6??梢妿c幀之間,信號的相關性是很強的,即冗余度很大。這一統計特性就是幀間預測編碼的基礎。幀間差值從總體上來看雖然不大,但從活動的局部圖像像素或子塊間看,有時還是比較大的,因此根據具體情況可采用兩種幀間預測方法處理。,1.狹義幀間預測 狹義幀間預測就是用某點
59、前一幀的像素值ur-1(i,j)作為該點當前幀的像素值ur(i,j)的預測值。這種誤差為 e(i,j)=ur(i,j)-ur-1(i,j) (4―44),2.復合差值預測 當幀間某點的像素差值比較大,且圖況較為復雜時,顯然就不能簡單地傳輸鄰近兩幀間對應像素的幀間差值,而應按一定準則,先估計一個像素或一個圖像子塊的運動,然后根據預測出的運動位移確定對應像素
60、,從而獲得相鄰兩幀間的幀間差值。復合差值預測與狹義幀間預測相比,對活動圖像,其預測的幀間差值要小得多,且準確性高。在發(fā)送端稱為運動估計,在接收端則稱為運動補償,一般簡稱運動補償(MC)預測技術。根據參加運動估計的對象不同,有條件幀間修補法和運動補償預測兩種估計方法。,1)條件幀間修補法 幀間預測誤差為,(4―45),式中: e(i,j)——當前像素ur(i,j)幀間差值;
61、 ——第r幀中當前像素值; ——第r幀中當前像素ur(i,j)的預測值; ——前一幀中對應像素ur-1(i,j)復原值。,對電視圖像編碼Mounts、Pease等人提出的條件像素修補法規(guī)定:若幀間誤差e(i,j)超過閾值,則把這些像素存在緩沖存儲器中,并以恒定的傳輸速度傳送或者只傳送誤差e(i,j);對低于閾值的像素則不傳送,在接
62、收端用上一幀圖像的相應像素值來代替。這樣,一幅電視圖像只要傳送其中很少部分的像素,或只傳送幀間差值,所以能得到較高的壓縮比。,2)運動補償預測 運動補償預測技術正處于研究和發(fā)展中,重點是尋找一些簡單而又實用的幀內和幀間復合的自適應預測方法,但是至今沒有取得特別有效的方案。下面簡單介紹在國際標準化視頻編碼方案MPEG中,使用的運動補償技術。運動補償技術的基本原理是,運動補償技術對占整個畫面有較小的運動部分的圖像
63、,其壓縮數據效果特別好,如會議電視、可視電話等。用運動補償技術計算圖像中運動部分位移的兩個分量可使預測效果大大提高,運動補償法跟蹤畫面內的活動情況,先對其加以補償之后,再進行幀間預測。,運動補償預測方案的使用規(guī)則是,首先把圖像分割為靜止的和運動的兩部分。這里假設運動物體只作平移運動,即把物體的復雜運動化成一段段簡單的平移,使算法簡單易于實現。然后計算物體的位移值;接著用位移估值(即運動矢量)進行運動補償預測。最后對預測信息進行編碼。這項
64、技術的關鍵是運動矢量的計算。 從運動補償技術中已看到,如何把圖像分割成靜、動兩部分是運動補償預測的基礎,但這也是困難的。兩幀圖像間的運動估計是運動圖像處理的關鍵。,通常采用兩種較簡單的方法處理:一種方法是把圖像分成若干矩形子塊;另一種方法是像素遞歸法。第一種方法將分成的子塊分為動和不動兩種,然后估計運動子塊的位移,再進行預測傳輸;后一種方法則是對每個像素的位移進行遞歸估計。,4.6.3 視頻壓縮編碼
65、電視信號具有很強的相關性和巨大的數據量,因此電視信號需要進行數據壓縮,數字電視和高分辨率的電視(HDTV)將是21世紀人類使用的主要電視系統,這是由于數字電視比模擬電視具有很多突出優(yōu)點而決定的。,1.數字電視的特點 數字圖像的質量遠高于模擬電視圖像。例如,數字電視信號的抗噪聲干擾及克服非線性失真都明顯地優(yōu)于模擬電視信號,能克服高樓大廈對電波反射所造成的重影問題。數字電視信號經過多次中繼再生。數字電視廣播,
66、在廣闊范圍內具有同等優(yōu)良的圖像質量。數字電視可以實現模擬電視難于實現的復雜的電視信號處理和加工,如數字視頻特技效果。數字電視能克服全球各種模擬電視制式難于統一的問題,實現不同電視制式的自動轉換等。,數字電視信號易于實現計算機控制和自動化操作、管理,易于實現廣播電視與計算機網絡和電話網的三網合一,為多媒體信息的傳輸、存儲、同步、交互和融合創(chuàng)造條件。數字電視系統采用大規(guī)模數字集成電路,大大提高了電視設備的穩(wěn)定性、可靠性。電視信號數字化后也
67、存在幾個問題:數碼率太高,傳輸一路PCM數字電視信號所需要的帶寬要比傳輸一路模擬電視信號大10倍左右,信道利用很不經濟;由于數字電視的數據量龐大,對存儲器的容量、元件的速度、數字電路的集成度要求很高。因此,在經濟上、技術上實現全數字化的廣播電視尚有較大的難度。但經過最近10年的研究,基本上找到了解決問題的方法。,這些解決的方法是,采用業(yè)已成熟的帶寬壓縮編碼技術,如預測編碼法(如DPCM)、正交變換編碼法、自適應編碼等。但是人們還在探求更
68、有效的活動圖像的數據壓縮編碼技術。對于傳輸信道,已開始采用寬帶傳輸載體,如光纖等。目前,超高速、超大規(guī)模數字集成電路技術已很成熟,且其成本不斷降低。發(fā)達的西方國家已經在局部范圍里采用全數字電視廣播系統發(fā)送和接收數字電視信號,我國已于1998年試制成功了全數字電視接收機,可以預料在今后幾年內,全數字電視設備將取代目前的模擬電視系統。,2.數字電視系統的結構 數字電視系統的組成,如圖4―5所示。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 限失真信源編碼之第七章
- 第5章 無失真信源編碼
- 第5章 有失真信源編碼
- 信源編碼離散信源無失真編碼
- 離散信源無失真信源編碼
- 無失真信源編碼
- 第4章信源編碼與數據壓縮_tell
- 第4章信源編碼與數據壓縮_tell
- 限失真信源與信息率失真函數r(d)
- 實驗三 無失真信源編碼
- 限失真信源編碼定理和多用戶信息論第九講
- 分布式視頻編碼信源失真估計研究.pdf
- 限失真視頻編碼技術的研究和算法優(yōu)化.pdf
- 率失真代價函數在信源信道編碼中的應用.pdf
- 基于h.264的聯合信源信道率失真分析及優(yōu)化編碼研究
- 基于信源失真的率失真優(yōu)化算法研究與實現.pdf
- 無錯信源編碼的研究.pdf
- 向量高斯多終端信源編碼.pdf
- 分布式信源編碼研究.pdf
- 信源-信道聯合視頻編碼研究.pdf
評論
0/150
提交評論