基于子空間的語(yǔ)音增強(qiáng) 畢業(yè)論文_第1頁(yè)
已閱讀1頁(yè),還剩45頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  畢業(yè)設(shè)計(jì)(論文)任務(wù)書(shū)</p><p> 畢業(yè)設(shè)計(jì)(論文)題目:基于子空間語(yǔ)音增強(qiáng)算法的研究畢業(yè)設(shè)計(jì)(論文)要求及原始數(shù)據(jù)(資料):論文要求:第一周:看語(yǔ)音增強(qiáng)的原理,了解子空間語(yǔ)音增強(qiáng)的方法。第二周:熟悉子空間語(yǔ)音增強(qiáng)的步驟。第三周:用特征值分解法實(shí)現(xiàn)子空間分解的步驟。第四周:找Matlab程序?qū)崿F(xiàn)子空間語(yǔ)音增強(qiáng)。第五周:Matlab仿真,實(shí)現(xiàn)語(yǔ)音增強(qiáng)。第六周:了解論文整體結(jié)構(gòu),寫(xiě)出論文大

2、綱。第七周:寫(xiě)第一章緒論。第八周:寫(xiě)第二章語(yǔ)音增強(qiáng)基礎(chǔ)知識(shí)。第九,十周:寫(xiě)第三章子空間語(yǔ)音增強(qiáng)算法。第十一周:完成論文剩余部分。第十二周:完成論文初稿。第十三,十四周:對(duì)論文進(jìn)行有針對(duì)性的調(diào)整及修改。第十五,十六周:在老師的指導(dǎo)下,進(jìn)一步完善課題的體系結(jié)構(gòu),最終完稿。</p><p> 論文原始數(shù)據(jù):隨著語(yǔ)音技術(shù)研究的深入和實(shí)際應(yīng)用的增多,各種語(yǔ)音處理系統(tǒng)都面臨著進(jìn)一步提高性能的問(wèn)題。語(yǔ)音增強(qiáng)是其中的關(guān)鍵技術(shù)之一

3、。早在20世紀(jì)60年代語(yǔ)音增強(qiáng)這個(gè)課題就已引起人們的注意,此后40年人們一直鍥而不舍地進(jìn)行這方面的研究。隨著數(shù)字信號(hào)處理理論的成熟,70年代曾形成一個(gè)研究高潮,取得了一些基礎(chǔ)性成果,并使語(yǔ)音增強(qiáng)發(fā)展成為語(yǔ)音信號(hào)數(shù)字處理的一個(gè)重要分支。進(jìn)入80年代后,VLSI技術(shù)的發(fā)展為語(yǔ)音增強(qiáng)的實(shí)時(shí)實(shí)現(xiàn)提供了可能。近年來(lái)人們正在探索將人工智能、隱含馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等技術(shù)應(yīng)用于語(yǔ)音增強(qiáng),并取得了一定進(jìn)展。以及針對(duì)人的聽(tīng)覺(jué)感知系統(tǒng)的生理特性研究,語(yǔ)言

4、學(xué)中上下文聯(lián)想智能的研究等,都在進(jìn)一步推動(dòng)著語(yǔ)音增強(qiáng)的研究。就目前來(lái)說(shuō),語(yǔ)音增強(qiáng)的方法分為兩大類。第一類是時(shí)域方法,例如子空間的方法;另一類是頻域方法,例如減譜法、最小均方誤差(MMSE)估計(jì)和維納濾波法等。這兩類方法各有其優(yōu)點(diǎn)和缺點(diǎn):子空間的方法提供了一種在語(yǔ)音信號(hào)失真和殘留噪聲之間進(jìn)行控制的機(jī)制,但是計(jì)算量較大。另一方面,頻域方法的計(jì)算量較小,但是在信號(hào)失真和殘留噪聲的控制上還沒(méi)有一個(gè)理論機(jī)制;減譜法具有計(jì)算量小的特點(diǎn),而且<

5、/p><p> 畢業(yè)設(shè)計(jì)(論文)主要內(nèi)容:經(jīng)典的檢測(cè)理論中有一項(xiàng)信號(hào)子空間處理技術(shù)。在M類信號(hào)進(jìn)行檢測(cè)時(shí),構(gòu)造由M類信號(hào)張成的信號(hào)子空間,并在子空間中使用M個(gè)經(jīng)過(guò)KL變換后的分量實(shí)現(xiàn)對(duì)信號(hào)的檢測(cè)。譜估計(jì)和陣列信號(hào)處理大量使用了這種信號(hào)子空間處理技術(shù)。語(yǔ)音信號(hào)處理的大量實(shí)驗(yàn)表明,語(yǔ)音矢量的協(xié)方差矩陣有很多零特征值,這說(shuō)明干凈語(yǔ)音信號(hào)矢量的能量分布在它對(duì)應(yīng)空間的某個(gè)子集中。而語(yǔ)音信號(hào)處理中,噪聲方差通常都假設(shè)己知,且嚴(yán)格

6、正定。噪聲矢量存在于整個(gè)帶噪信號(hào)張成的空間中。因此帶噪語(yǔ)音信號(hào)的矢量空間可以認(rèn)為由一個(gè)信號(hào)加噪聲的子空間和一個(gè)純?cè)肼暤淖涌臻g構(gòu)成??梢岳眯盘?hào)子空間處理技術(shù),消除純?cè)肼曌涌臻g,并對(duì)語(yǔ)音信號(hào)進(jìn)行估計(jì),實(shí)現(xiàn)語(yǔ)音增強(qiáng)。子空間方法是通過(guò)空間分解,將整個(gè)空間劃分為兩個(gè)獨(dú)立子空間,即噪聲子空間和疊加噪聲的信號(hào)子空間,然后對(duì)噪聲子空間和信號(hào)子空間進(jìn)行處理以實(shí)現(xiàn)語(yǔ)音增強(qiáng)。具體章節(jié)安排如下:緒論。介紹本次課題研究的目的和意義,簡(jiǎn)述基于子空間語(yǔ)音增強(qiáng)算法研

7、究的發(fā)展歷程以及論文的整體結(jié)構(gòu)。第二章 語(yǔ)音增強(qiáng)的基礎(chǔ)知識(shí)。介紹語(yǔ)音增強(qiáng)方法分類,語(yǔ)音特性,噪聲分類及特點(diǎn)以及語(yǔ)音增強(qiáng)算法概述。第三章 子空間語(yǔ)音增強(qiáng)算法。</p><p> 主要參考文獻(xiàn)(資料):[1]張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003: 248-266.[2]張剛,張雪英,馬建芬.語(yǔ)音處理與編碼[M].北京:兵器工業(yè)出版社,2000:5

8、5-57.[3]王華奎,張立毅.?dāng)?shù)字信號(hào)處理理論及應(yīng)用[M].太原:太原理工大學(xué)出版社,2005:182-203.[4]Li Ye,Cui Huijuan,Tang Kun.Speech enhancement algorithm based on spectralsubtraction[J].Qinghua Daxue Xuebao/Journal of Tsinghua University, 2006(46):1685-1

9、687.[5]Martin Rainer.Speech enhancement based on minimum mean-square error estimationand supergaussian priors[J].IEEE Transactions on Speech and Audio Pr</p><p>  基于子空間語(yǔ)音增強(qiáng)算法的研究</p><p>&l

10、t;b>  摘 要</b></p><p>  基于子空間的語(yǔ)音增強(qiáng)是通過(guò)空間分解,將整個(gè)空間劃分為兩個(gè)獨(dú)立子空間,即噪聲子空間和疊加噪聲的信號(hào)子空間,然后對(duì)噪聲子空間和信號(hào)子空間進(jìn)行處理以實(shí)現(xiàn)語(yǔ)音增強(qiáng)。本文的主要內(nèi)容包括以下幾點(diǎn):</p><p>  (1)簡(jiǎn)要介紹了語(yǔ)音增強(qiáng)算法的目的、意義、國(guó)內(nèi)外發(fā)展?fàn)顩r,并給出了有關(guān)基礎(chǔ)知識(shí)。</p><p>

11、; ?。?)主要研究了基于時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)的子空間語(yǔ)音增強(qiáng)方法。從原理進(jìn)行分析,并分別進(jìn)行了實(shí)驗(yàn)仿真。結(jié)果表明:采用時(shí)域約束估計(jì)器(TDC)得到的增強(qiáng)語(yǔ)音增強(qiáng)效果優(yōu)于頻域約束估計(jì)器(SDC)。并且在輸入信噪比較小的情況下,采用時(shí)域約束估計(jì)器(TDC)得到的輸出信噪比,效果更好于頻域約束估計(jì)器(SDC)。</p><p>  關(guān)鍵詞:語(yǔ)音增強(qiáng),子空間,KL變換,特征值/奇異值分解&

12、lt;/p><p>  SUBSPACE BASED SPEECH ENHANCEMENT </p><p><b>  ALGORITHM</b></p><p><b>  ABSTRACT</b></p><p>  Speech enhancement based on subspace dec

13、omposition through space, the whole space is divided into two separate sub-space, ie the noise subspace and signal subspace noise adding, and then the noise subspace and signal subspace speech enhancement processing to a

14、chieve. The main contents include the following:</p><p>  (1) briefly introduced the purpose of speech enhancement algorithm, meaning, domestic and international development, and gives information on the bas

15、ics.</p><p>  (2) The main constraint based on time-domain estimator (TDC) and frequency domain constraint estimator (SDC) subspace speech enhancement. In principle, analysis and simulation experiments were

16、carried out. The results showed that: The time-domain constrained estimator (TDC) enhanced speech enhancement by frequency domain constraints better than the estimator (SDC). And the input SNR is relatively small, constr

17、ained by time domain estimator (TDC) of the output signal to noise ratio, the better es</p><p>  KEY WORDS: Speech enhancement, signal subspace, Karhuen-Loeve Transform(KIT), eigenvalue decomposition (EVD)&l

18、t;/p><p><b>  目 錄</b></p><p><b>  摘 要I</b></p><p>  ABSTRACTII</p><p><b>  第一章 緒論1</b></p><p>  1.1本次課題研究的目的和意義1</p

19、><p>  1.2國(guó)內(nèi)外研究現(xiàn)狀2</p><p>  1.3語(yǔ)音增強(qiáng)算法簡(jiǎn)介3</p><p>  1.4本論文的結(jié)構(gòu)安排4</p><p>  第二章 語(yǔ)音增強(qiáng)的基礎(chǔ)知識(shí)5</p><p>  2.1 語(yǔ)音增強(qiáng)方法分類5</p><p>  2.2 語(yǔ)音特性5</p>

20、<p>  2.3 噪聲分類及特點(diǎn)6</p><p>  2.4 語(yǔ)音增強(qiáng)算法概述7</p><p>  2.5 語(yǔ)音增強(qiáng)的新發(fā)展9</p><p>  第三章 子空間語(yǔ)音增強(qiáng)算法12</p><p>  3.1 信號(hào)子空間原理12</p><p>  3.1.1 語(yǔ)音信號(hào)的線性模型12<

21、/p><p>  3.1.2 信號(hào)與噪聲子空間13</p><p>  3.2 語(yǔ)音信號(hào)估計(jì)15</p><p>  3.2.1時(shí)域約束估計(jì)器15</p><p>  3.2.2頻域約束估計(jì)器17</p><p>  3.3 子空間語(yǔ)音增強(qiáng)方法19</p><p>  第四章 TDC和

22、SDC的語(yǔ)音增強(qiáng)實(shí)驗(yàn)仿真21</p><p>  4.1用時(shí)域約束估計(jì)器(TDC)的子空間語(yǔ)音增強(qiáng)方法進(jìn)行實(shí)驗(yàn)仿真21</p><p>  4.2用頻域約束估計(jì)器(SDC)的子空間語(yǔ)音增強(qiáng)方法進(jìn)行實(shí)驗(yàn)仿真24</p><p>  4.3 結(jié)果比較及分析27</p><p>  第五章 全文總結(jié)與工作展望29</p>&

23、lt;p>  5.1全文總結(jié)29</p><p>  5.2工作展望29</p><p>  參 考 文 獻(xiàn)31</p><p><b>  致 謝34</b></p><p><b>  緒論</b></p><p>  1.1本次課題研究的目的和意義<

24、/p><p>  實(shí)際環(huán)境中,語(yǔ)音總會(huì)受到外界環(huán)境噪聲的干擾,這些噪聲包括從周圍環(huán)境,傳輸媒介中引入的噪聲,電器設(shè)備的噪聲以及其他說(shuō)話人的干擾等等。環(huán)境噪聲會(huì)影響語(yǔ)音質(zhì)量,嚴(yán)重的情況下語(yǔ)音將完全淹沒(méi)到噪聲中,無(wú)法分辨。語(yǔ)音質(zhì)量的下降會(huì)使語(yǔ)音處理系統(tǒng)的性能急劇惡化。比如,語(yǔ)音識(shí)別系統(tǒng)在實(shí)驗(yàn)室環(huán)境中可取得相當(dāng)好的效果,但在噪聲環(huán)境中,尤其是在強(qiáng)噪聲環(huán)境中使用時(shí),系統(tǒng)的識(shí)別率將受到嚴(yán)重影響。低速語(yǔ)音編碼同樣會(huì)受到噪聲的影響

25、。由于語(yǔ)音生成模型是低速率語(yǔ)音編碼的基礎(chǔ),當(dāng)語(yǔ)音受到噪聲干擾時(shí),提取的模型參數(shù)將很不準(zhǔn)確,重建的語(yǔ)音質(zhì)量急劇惡化。此時(shí),采用語(yǔ)音增強(qiáng)技術(shù)進(jìn)行預(yù)處理,將有效的改善系統(tǒng)性能。</p><p>  語(yǔ)音增強(qiáng)的主要目標(biāo)是從帶噪語(yǔ)音信號(hào)中提取盡可能純凈的原始語(yǔ)音。然而,由于干擾通常都是隨機(jī)的,從帶噪語(yǔ)音中提取完全純凈的語(yǔ)音幾乎不可能。在這種情況下,語(yǔ)音增強(qiáng)的目的主要有兩個(gè):一是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪聲,使聽(tīng)者樂(lè)于接受,不

26、感覺(jué)疲勞;二是提高語(yǔ)音可懂度,方便聽(tīng)者理解。這兩個(gè)目的往往不能兼得,到目前為止還沒(méi)有哪種語(yǔ)音增強(qiáng)系統(tǒng)可以同時(shí)很好地改善語(yǔ)音質(zhì)量和可懂度兩個(gè)指標(biāo)。目前有一些對(duì)低信噪比帶噪語(yǔ)音進(jìn)行語(yǔ)音增強(qiáng)的方法,可以顯著的降低背景噪聲,改進(jìn)語(yǔ)音質(zhì)量,但并不能提高語(yǔ)音的可懂度,甚至略有下降。衡量語(yǔ)音增強(qiáng)的效果分別涉及語(yǔ)音的下觀度量和客觀度量?jī)蓚€(gè)方面,有主觀測(cè)試和客觀測(cè)試兩種方法可用。主觀測(cè)試方法包括平均意見(jiàn)得分(MOS)判斷韻字測(cè)試(DRT)和判斷滿意度測(cè)量

27、(DAM)等。客觀測(cè)試方法主要根據(jù)增強(qiáng)語(yǔ)音的時(shí)域波形或頻域語(yǔ)譜,給出客觀的數(shù)值度量。例如一種常用的方法是采用信噪比來(lái)度量,此時(shí)信噪比的定義是原始語(yǔ)音信號(hào)功率與歸一化后的增強(qiáng)語(yǔ)音和原始語(yǔ)音之差的功率比。同時(shí)采用Itakura距離來(lái)測(cè)試。</p><p>  語(yǔ)音增強(qiáng)不但與語(yǔ)音信號(hào)數(shù)字處理理論有關(guān),而且涉及到人的聽(tīng)覺(jué)感知和語(yǔ)音學(xué)。再者,噪聲來(lái)源眾多,隨應(yīng)用場(chǎng)合而異,它們的特性也各不相同。即使在實(shí)驗(yàn)室仿真條件下,也難以

28、找到一種通用的語(yǔ)音增強(qiáng)算法能適用各種噪聲環(huán)境。必須針對(duì)不同噪聲環(huán)境,采用不同的語(yǔ)音增強(qiáng)對(duì)策。</p><p>  1.2國(guó)內(nèi)外研究現(xiàn)狀</p><p>  語(yǔ)音增強(qiáng)是在噪聲環(huán)境下用以提高語(yǔ)音通信系統(tǒng)質(zhì)量的一個(gè)重要技術(shù)。隨著語(yǔ)音技術(shù)研究的深入和實(shí)際應(yīng)用的增多,各種語(yǔ)音處理系統(tǒng)都面臨著進(jìn)一步提高性能的問(wèn)題,語(yǔ)音增強(qiáng)是其中的關(guān)鍵技術(shù)之一,已有幾十年的研究發(fā)展歷史。其研究起與20世紀(jì)60年代,隨著

29、數(shù)字信號(hào)理論的成熟,在70年代曾形成一個(gè)理論高潮,取得了一些基礎(chǔ)性成果,并使語(yǔ)音增強(qiáng)發(fā)展成為語(yǔ)音信號(hào)處理的一個(gè)重要分支。</p><p>  1978年,Lim和Oppenheim提出了基于維納濾波的語(yǔ)音增強(qiáng)方法。</p><p>  1979年,Boll提出了譜相減方法來(lái)抑制噪聲。</p><p>  1980年,Maulay和Malpss提出了軟判決噪聲抑制方法

30、。</p><p>  1984年,Ephraim和Malah提出了基于MMSE短時(shí)幅度譜估計(jì)的語(yǔ)音增強(qiáng)方法。</p><p>  1987年,Paliwal把卡爾曼濾波引入語(yǔ)音增強(qiáng)領(lǐng)域。</p><p>  1995年.Ephraim提出了基于信號(hào)子空間分解的語(yǔ)音增強(qiáng)方法。</p><p>  近年來(lái),基于子空間的語(yǔ)音增強(qiáng)技術(shù)受到許多研究者

31、的重視,該方法可減少信號(hào)的失真和人為噪聲的引入。子空間技術(shù)將帶噪語(yǔ)音信號(hào)看成向量空間的一部分,并將此向量空間劃分成兩個(gè)相互正交的子空間:信號(hào)子空間和噪聲了空間。去除噪聲子空間的信號(hào)分量可以提高帶噪信號(hào)的語(yǔ)音質(zhì)量,進(jìn)一步從信號(hào)子空間中估計(jì)出高質(zhì)量的語(yǔ)音信號(hào)。</p><p>  Ephraim and Van-Trees提出了一套有效的子空間語(yǔ)音增強(qiáng)系統(tǒng),利用特征值分解(EVD)和KL變換分解來(lái)進(jìn)行信號(hào)空間的劃分,

32、并針對(duì)白噪聲背景下的帶噪語(yǔ)音,提出了有效的時(shí)域和頻域的線性估計(jì)算法。后來(lái)的學(xué)者將該方法擴(kuò)展到對(duì)于含有色噪聲的語(yǔ)音增強(qiáng)處理上。Rezayee和Gazor基于噪聲能量譜的近似對(duì)角化提出了一種時(shí)域的次優(yōu)估計(jì)算法;Hu和Loizou提出聯(lián)合對(duì)角化的方法來(lái)處理有色噪聲;Lev-Ari和Ephraim利用預(yù)白化方法擴(kuò)展了其早期的算法來(lái)進(jìn)行有色噪聲背景下的語(yǔ)音增強(qiáng)。</p><p>  隨著語(yǔ)音技術(shù)研究的深入和實(shí)際應(yīng)用的增多,

33、各種語(yǔ)音處理系統(tǒng)都面臨著進(jìn)一步提高性能的問(wèn)題。語(yǔ)音增強(qiáng)是其中的關(guān)鍵技術(shù)之一。早在20世紀(jì)60年代語(yǔ)音增強(qiáng)這個(gè)課題就已引起人們的注意,此后40年人們一直鍥而不舍地進(jìn)行這方面的研究。隨著數(shù)字信號(hào)處理理論的成熟,70年代曾形成一個(gè)研究高潮,取得了一些基礎(chǔ)性成果,并使語(yǔ)音增強(qiáng)發(fā)展成為語(yǔ)音信號(hào)數(shù)字處理的一個(gè)重要分支。進(jìn)入80年代后,VLSI技術(shù)的發(fā)展為語(yǔ)音增強(qiáng)的實(shí)時(shí)實(shí)現(xiàn)提供了可能。近年來(lái)人們正在探索將人工智能、隱含馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等技術(shù)應(yīng)用

34、于語(yǔ)音增強(qiáng),并取得了一定進(jìn)展。以及針對(duì)人的聽(tīng)覺(jué)感知系統(tǒng)的生理特性研究,語(yǔ)言學(xué)中上下文聯(lián)想智能的研究等,都在進(jìn)一步推動(dòng)著語(yǔ)音增強(qiáng)的研究。</p><p>  就目前來(lái)說(shuō),語(yǔ)音增強(qiáng)的方法分為兩大類。第一類是時(shí)域方法,例如子空間的方法;另一類是頻域方法,例如減譜法、最小均方誤差(MMSE)估計(jì)和維納濾波法等。這兩類方法各有其優(yōu)點(diǎn)和缺點(diǎn):子空間的方法提供了一種在語(yǔ)音信號(hào)失真和殘留噪聲之間進(jìn)行控制的機(jī)制,但是計(jì)算量較大。另

35、一方面,頻域方法的計(jì)算量較小,但是在信號(hào)失真和殘留噪聲的控制上還沒(méi)有一個(gè)理論機(jī)制;減譜法具有計(jì)算量小的特點(diǎn),而且在語(yǔ)音信號(hào)失真和殘留噪聲的控制方面提供了簡(jiǎn)單的控制機(jī)制。但是因?yàn)樵谔幚淼慕Y(jié)果中存在音樂(lè)噪聲,因此達(dá)不到令人滿意的效果;MMSE 和維納濾波的方法的計(jì)算量都比較適中,但是沒(méi)有提供在語(yǔ)音信號(hào)的失真和殘留噪聲之間進(jìn)行控制的機(jī)制。</p><p>  1.3語(yǔ)音增強(qiáng)算法簡(jiǎn)介</p><p&g

36、t;  由于噪聲來(lái)源眾多,隨應(yīng)用場(chǎng)合而異,它們的特性也各不相同,難以找到一種通用的語(yǔ)音增強(qiáng)算法適用于各種噪聲環(huán)境。而且語(yǔ)音增強(qiáng)不但與語(yǔ)音信號(hào)數(shù)字處理理論有關(guān),還涉及到人的聽(tīng)覺(jué)感知和語(yǔ)音學(xué),所以必須針對(duì)不同的噪聲,采取不同的語(yǔ)音增強(qiáng)對(duì)策。幾十年來(lái)人們?cè)谡Z(yǔ)音增強(qiáng)方面做了很多不懈的探索,總結(jié)出適應(yīng)不同情況的各種增強(qiáng)方法。</p><p>  語(yǔ)音增強(qiáng)算法可從信號(hào)輸入的通道數(shù)上分為單通道的語(yǔ)音增強(qiáng)算法與多通道的語(yǔ)音增強(qiáng)算

37、法。單通道語(yǔ)音系統(tǒng)在實(shí)際應(yīng)用中較為常見(jiàn),如電話,手機(jī)等。這種情況下語(yǔ)音與噪聲同時(shí)存在一個(gè)通道中,語(yǔ)音信息與噪聲信息必須從同一個(gè)信號(hào)中得出。一般這種語(yǔ)音系統(tǒng)下要求噪聲要比較平穩(wěn),以便在非語(yǔ)音段對(duì)噪聲進(jìn)行估計(jì),再依據(jù)估計(jì)出來(lái)的噪聲對(duì)帶噪聲的語(yǔ)音段進(jìn)行處理。如果語(yǔ)音系統(tǒng)是一個(gè)多通道的語(yǔ)音系統(tǒng),各個(gè)通道之間存在著某些相關(guān)的特性,這些相關(guān)特性對(duì)語(yǔ)音增強(qiáng)的處理十分有利。如在自適應(yīng)噪聲對(duì)消法的語(yǔ)音增強(qiáng)方法中,采用了兩個(gè)話筒作為輸入,一個(gè)采集帶噪的語(yǔ)音

38、信號(hào),另一個(gè)用來(lái)采集噪聲。從噪聲通道所采集的噪聲直接當(dāng)作帶噪語(yǔ)音中的噪聲,并將它從帶噪聲語(yǔ)音信號(hào)中減去就可得到純凈的語(yǔ)音。另一種多通道的語(yǔ)音增強(qiáng)算法是采用陣列信號(hào),這種方法采用多個(gè)以一定方式排列的采集設(shè)備接收信號(hào)。由于不同獨(dú)立的信號(hào)源與各個(gè)采集設(shè)備之間的距離不同,最后在各個(gè)接收設(shè)備中的合成信號(hào)也會(huì)不同,再根據(jù)這些信號(hào)將各個(gè)獨(dú)立信號(hào)分離出來(lái)。</p><p>  1.4本論文的結(jié)構(gòu)安排</p><

39、;p>  介紹子空間語(yǔ)音增強(qiáng)的目的和意義以及發(fā)展現(xiàn)狀</p><p>  介紹語(yǔ)音增強(qiáng)的基礎(chǔ)知識(shí),包括介紹:語(yǔ)音增強(qiáng)方法分類,語(yǔ)音特性,噪聲分類及特點(diǎn),子空間語(yǔ)音增強(qiáng)概述,語(yǔ)音增強(qiáng)的新發(fā)展。</p><p>  介紹子空間語(yǔ)音增強(qiáng)算法,包括介紹:信號(hào)子空間原理,語(yǔ)音信號(hào)估計(jì),子空間語(yǔ)音增強(qiáng)方法,子空間與維納濾波相結(jié)合的語(yǔ)音增強(qiáng)方法,子空間和掩蔽效應(yīng)相結(jié)合的語(yǔ)音增強(qiáng)方法</p&g

40、t;<p>  介紹算法實(shí)現(xiàn)及仿真結(jié)果</p><p><b>  總結(jié)與展望</b></p><p><b>  語(yǔ)音增強(qiáng)的基礎(chǔ)知識(shí)</b></p><p>  2.1 語(yǔ)音增強(qiáng)方法分類</p><p><b>  1.參數(shù)方法</b></p>&

41、lt;p>  此類方法主要依賴于使用的語(yǔ)音生成模型(例如AR模型),需要提取模型參數(shù)(如基音周期、LPC系數(shù)),常常使用迭代方法。采用濾波器模型典型的有梳狀濾波器、維納濾波器、卡爾曼濾波器等。</p><p><b>  2.非參數(shù)方法</b></p><p>  該方法不需要從帶噪信號(hào)中估計(jì)模型參數(shù),因此這種方法的應(yīng)用范圍較廣。但由于沒(méi)有利用可能的語(yǔ)音統(tǒng)計(jì)信息

42、,故結(jié)果一般不是最優(yōu)化的。這類方法包括譜減法、自適應(yīng)濾波法等。</p><p><b>  3.統(tǒng)計(jì)方法</b></p><p>  該方法較充分的利用了語(yǔ)音和噪音的統(tǒng)計(jì)特性,一般要建立模型庫(kù),需要訓(xùn)練過(guò)程獲得初始統(tǒng)計(jì)參數(shù),它與語(yǔ)音識(shí)別系統(tǒng)的聯(lián)系很密切。如最小均方誤差估計(jì)MMSE、聽(tīng)覺(jué)掩蔽效應(yīng)等。</p><p><b>  4.其它

43、方法</b></p><p>  如小波變換、離散余弦變換(DCT)、人工神經(jīng)網(wǎng)絡(luò)等。這些方法不像前三類方法那樣成熟,可以概括地稱為非主流方法。實(shí)際使用中常常根據(jù)具體的環(huán)境噪聲和語(yǔ)音特性將不同方法結(jié)合起來(lái)應(yīng)用,通過(guò)方法互補(bǔ)取得更好的語(yǔ)音增強(qiáng)效果。 </p><p><b>  2.2 語(yǔ)音特性</b></p><p>  1.語(yǔ)音是

44、時(shí)變的、非平穩(wěn)的隨機(jī)過(guò)程</p><p>  人類發(fā)音系統(tǒng)生理結(jié)構(gòu)的變化速度是有一定限度的,在一段時(shí)間內(nèi)(10-30 ms),人的聲帶和聲道形狀是相對(duì)穩(wěn)定的,因而語(yǔ)音的短時(shí)譜具有相對(duì)穩(wěn)定性,所以可利用短時(shí)譜的這種平穩(wěn)性來(lái)分析語(yǔ)音。</p><p>  2.語(yǔ)音可分為濁音和清音兩大類</p><p>  濁音在時(shí)域上呈現(xiàn)出明顯的周期性。在頻域上有共振峰結(jié)構(gòu),而且能量大

45、部分集中在較低頻段內(nèi);而清音段沒(méi)有明顯的時(shí)域和頻域特征,類似于白噪聲。在語(yǔ)音增強(qiáng)研究中,可利用濁音的周期性特征,采用梳狀濾波器提取語(yǔ)音分量或者抑制非語(yǔ)音信號(hào),而清音則難以與寬帶噪聲區(qū)分。</p><p>  3.語(yǔ)音信號(hào)可以用統(tǒng)計(jì)分析特性來(lái)描述</p><p>  由于語(yǔ)音是非平穩(wěn)的隨機(jī)過(guò)程,所以長(zhǎng)時(shí)間的時(shí)域統(tǒng)計(jì)特性在語(yǔ)音增強(qiáng)的研究中意義不大。語(yǔ)音的短時(shí)譜幅度的統(tǒng)計(jì)特性是時(shí)變的,只有當(dāng)分析

46、幀長(zhǎng)趨于無(wú)窮大時(shí),才能近似認(rèn)為其具有高斯分布。高斯分布模型是根據(jù)中心極限定理得到的,將高斯模型應(yīng)用于有限幀長(zhǎng)只是一種近似的描述。在寬帶噪聲污染的語(yǔ)音增強(qiáng)中,可將這種假設(shè)作為分析的前提。</p><p>  4.語(yǔ)音感知對(duì)語(yǔ)音增強(qiáng)研究有重要作用</p><p>  人耳對(duì)語(yǔ)音的感知主要是通過(guò)語(yǔ)音信號(hào)頻譜分量幅度獲得的,人耳對(duì)頻率高低的感受近似與該頻率的對(duì)數(shù)值成正比。共振峰對(duì)語(yǔ)音的感知十分重要

47、,特別是第二共振峰比第一共振峰更為重要。</p><p>  2.3 噪聲分類及特點(diǎn)</p><p>  根據(jù)與輸入語(yǔ)音信號(hào)的關(guān)系,噪聲可分為加性噪聲和非加性噪聲兩類。考慮到加性噪聲更普遍且易于分析問(wèn)題,并且對(duì)于部分非加性噪聲,如乘積性噪聲或卷積性噪聲,可以通過(guò)同態(tài)變換而成為加性噪聲。</p><p>  加性噪聲大致可分為周期性噪聲、沖激噪聲和寬帶噪聲:</

48、p><p><b>  1.周期性噪聲</b></p><p>  周期性噪聲的特點(diǎn)是有許多離散的窄譜峰,它往往來(lái)源于發(fā)動(dòng)機(jī)等周期運(yùn)轉(zhuǎn)的機(jī)械,如50或60Hz交流聲會(huì)引起周期性噪聲。周期性噪聲引起的問(wèn)題可以通過(guò)功率譜發(fā)現(xiàn),并通過(guò)濾波或變換技術(shù)將其去掉。</p><p><b>  2.沖激噪聲</b></p>&

49、lt;p>  沖激噪聲表現(xiàn)為時(shí)域波形中突然出現(xiàn)的窄脈沖,它通常是放電的結(jié)果。消除這種噪聲可根據(jù)帶噪語(yǔ)音信號(hào)幅度的平均值確定閾值,當(dāng)信號(hào)幅度超過(guò)這一閾值時(shí)判為沖激噪聲,然后進(jìn)行消除。</p><p><b>  3.寬帶噪聲</b></p><p>  寬帶噪聲的來(lái)源很多,如熱噪聲、氣流(如風(fēng)、呼吸)噪聲及各種隨機(jī)噪聲源等,量化噪聲也可視為寬帶噪聲。由于寬帶噪聲與

50、語(yǔ)音信號(hào)在時(shí)域和頻域上完全重疊,因而消除它最為困難,這種噪聲只有在語(yǔ)音間歇期才單獨(dú)存在。對(duì)于平穩(wěn)的寬帶噪聲,通常認(rèn)為是白色高斯噪聲;不具有白色頻譜的噪聲,可以先進(jìn)行白化處理。對(duì)于非平穩(wěn)的寬帶噪聲,情況就更為復(fù)雜一些。</p><p><b>  4.同聲道語(yǔ)音干擾</b></p><p>  在實(shí)際生活中經(jīng)常遇到多人同時(shí)說(shuō)話的情況,此時(shí)不需要的語(yǔ)音就形成了同聲道干擾。

51、人耳可以根據(jù)需要分辨出其中某個(gè)人的聲音,這種能力稱為“雞尾酒會(huì)效應(yīng)”。這種能力來(lái)源于人的雙耳效應(yīng)和人類語(yǔ)音中包含的“聲紋”特征,這是人體內(nèi)部語(yǔ)音理解機(jī)理的一種感知能力表現(xiàn)。通常情況下語(yǔ)音經(jīng)雙耳輸入,人們根據(jù)兩路輸入的不同時(shí)延特性進(jìn)行分離。同時(shí)由于人的發(fā)音器官生理構(gòu)造的差異,每個(gè)人都有自身獨(dú)特的“聲紋”,因此,即使雙耳效應(yīng)不顯著,人耳也可以借助聲紋對(duì)信號(hào)進(jìn)行分離。</p><p><b>  5.背景噪聲

52、</b></p><p>  背景噪聲破壞了信號(hào)原有的聲學(xué)特征及模型參數(shù),因此減弱了不同語(yǔ)音間的差別,使語(yǔ)音質(zhì)量下降,可懂度降低。強(qiáng)噪聲會(huì)使人產(chǎn)生聽(tīng)覺(jué)疲勞,從而影響人耳的聽(tīng)覺(jué)特性。同時(shí),較強(qiáng)的背景噪聲也會(huì)使講話人的發(fā)音方式發(fā)生改變,即使發(fā)相同的語(yǔ)音,其語(yǔ)音的特征參數(shù)也會(huì)與安靜環(huán)境下的發(fā)音有所不同。這種效應(yīng)稱為“Lombard”效應(yīng)。</p><p>  2.4 語(yǔ)音增強(qiáng)算法概述

53、</p><p>  語(yǔ)音增強(qiáng)一般都作為預(yù)處理或前端處理模塊存在于語(yǔ)音處理系統(tǒng)中。由于噪聲特性各異,語(yǔ)音增強(qiáng)的方法也各不相同。近40年來(lái),人們研究了各種語(yǔ)音增強(qiáng)算法,盡管語(yǔ)音增強(qiáng)在理論上并沒(méi)有完全解決,還有待發(fā)展,但某些算法己證實(shí)是有效果的口傳統(tǒng)的方法大體可以分為四類:噪聲對(duì)消法、諧波增強(qiáng)法、基于參數(shù)估計(jì)的語(yǔ)音再合成和基于短時(shí)譜估計(jì)的增強(qiáng)算法.</p><p><b>  1.噪

54、聲對(duì)消法</b></p><p>  噪聲對(duì)消法的基本原理是從帶噪語(yǔ)音中減去噪聲,這一原理顯而易見(jiàn),但問(wèn)題是如何得到噪聲的復(fù)制品。如果可以用兩個(gè)話筒(或多個(gè)話筒)的采集系統(tǒng),一個(gè)采集帶噪語(yǔ)音,另一個(gè)(或多個(gè))采集噪聲,則這一任務(wù)比較容易解決。將帶噪語(yǔ)音序列和噪聲序列分別經(jīng)過(guò)傅里葉變換得到的頻譜分量相減,然后加上帶噪語(yǔ)音頻譜分量的相位,再經(jīng)過(guò)傅里葉反變換恢復(fù)為時(shí)域信號(hào)。在強(qiáng)背景噪聲時(shí),這種方法可以得到很

55、好的消除噪聲效果。如果采集到的噪聲足夠“逼真”,甚至可以在時(shí)域上直接與帶噪語(yǔ)音相減。</p><p>  噪聲對(duì)消法可以用于平穩(wěn)噪聲相消,也可以用十準(zhǔn)平穩(wěn)噪聲。采用噪聲對(duì)消時(shí),兩個(gè)話筒之間必須要有相當(dāng)?shù)木嚯x度,但采集到的兩路信號(hào)之間不可避免地會(huì)有時(shí)間差,因此實(shí)時(shí)采集到的兩路信號(hào)中所包含的噪聲段是不相同的,回聲及其他可變衰減特性也將影響所采集噪聲的“純凈”性,因而采集到的噪聲必須經(jīng)過(guò)數(shù)字濾波器,以得到盡可能接近帶噪

56、語(yǔ)音中的噪聲。通常,這需要采用自適應(yīng)濾波器,使相減噪聲與帶噪語(yǔ)音中的噪聲一致,其原理類似于回波抵消器。</p><p><b>  2.諧波增強(qiáng)法</b></p><p>  語(yǔ)音信號(hào)的濁音段有明顯的周期性,利用這一特點(diǎn),可以采用自適應(yīng)梳狀濾波器來(lái)提取語(yǔ)音分量,抑制噪聲。</p><p>  梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對(duì)語(yǔ)音進(jìn)行傅里葉變換后可

57、以鑒別出需要提取的各次諧波分量,然后經(jīng)傅里葉變換恢復(fù)為時(shí)域信號(hào)。梳狀濾波器不但可以增強(qiáng)語(yǔ)音信號(hào),也可以用于抑制各種噪聲干擾,包括消除同聲道的其他語(yǔ)音的干擾。</p><p>  3.基于短時(shí)譜估計(jì)的增強(qiáng)算法</p><p>  語(yǔ)音是非平穩(wěn)隨機(jī)過(guò)程,但在10-30ms的分析幀內(nèi)可以近似看成平穩(wěn)的,如果能從帶噪語(yǔ)音的短時(shí)譜中估計(jì)出“純凈”語(yǔ)音的短時(shí)譜,即可達(dá)到增強(qiáng)的目的。很多的語(yǔ)音增強(qiáng)系統(tǒng)都

58、是根據(jù)語(yǔ)音短時(shí)譜和噪聲譜的區(qū)別,采用短時(shí)譜估計(jì)方法從帶噪信號(hào)中估計(jì)原始語(yǔ)音。由于噪聲也是隨機(jī)過(guò)程,因此這種估計(jì)只能建立在統(tǒng)計(jì)模型基礎(chǔ)上。</p><p>  4.基于語(yǔ)音生成模型的增強(qiáng)算法</p><p>  眾所周知,語(yǔ)音的發(fā)聲過(guò)程可以簡(jiǎn)化為激勵(lì)源作用于一個(gè)線性時(shí)變?yōu)V波器,激勵(lì)源可以分濁音和清音兩類,濁音由氣流通過(guò)聲帶產(chǎn)生。時(shí)變?yōu)V波器則是聲道的模型。通常認(rèn)為聲道模型是一個(gè)全極點(diǎn)濾波器,濾

59、波器參數(shù)可以通過(guò)線性預(yù)測(cè)分析得到,但若考慮到鼻腔的共鳴作用,采用零極點(diǎn)模型更為合適。顯然,如果能夠知道激勵(lì)參數(shù)和聲道濾波器參數(shù),就能利用語(yǔ)音生成模型合成得到“純凈”語(yǔ)音,這種方法的關(guān)鍵在于如何從帶噪語(yǔ)音中準(zhǔn)確地估計(jì)語(yǔ)音模型的參數(shù)(包括激勵(lì)參數(shù)和聲道參數(shù)),這種增強(qiáng)方法稱為分析-合成法。</p><p>  2.5 語(yǔ)音增強(qiáng)的新發(fā)展</p><p>  除了這些傳統(tǒng)的方法外,近些年也出現(xiàn)了許

60、多新的語(yǔ)音增強(qiáng)算法,比如基于神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型和聽(tīng)覺(jué)感知模型等的語(yǔ)音增強(qiáng)算法。</p><p>  1. 基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)</p><p>  語(yǔ)音增強(qiáng)在一定意義上也是一種說(shuō)話人區(qū)分問(wèn)題,只不過(guò)區(qū)分的是背景中的噪聲,因此可以利用神經(jīng)網(wǎng)絡(luò)等技術(shù)來(lái)實(shí)現(xiàn)語(yǔ)音的增強(qiáng)。經(jīng)過(guò)多年的發(fā)展,人們已提出了一系列應(yīng)用于語(yǔ)音增強(qiáng)的神經(jīng)網(wǎng)絡(luò)方法。例如20世紀(jì)80年代中期Tamura和Waibel等人就

61、利用了四層的全連接BP網(wǎng)來(lái)從各種平穩(wěn)和非平穩(wěn)噪聲中提取語(yǔ)音。</p><p>  神經(jīng)網(wǎng)絡(luò)在語(yǔ)音增強(qiáng)中的應(yīng)用主要有以下兩個(gè)方面:</p><p>  時(shí)域?yàn)V波:時(shí)域?yàn)V波的方法基于測(cè)試語(yǔ)音和噪聲環(huán)境的分布和訓(xùn)練時(shí)相同,且分布保持不變的假設(shè),需要利用帶噪語(yǔ)音和干凈的目標(biāo)語(yǔ)音分別進(jìn)行訓(xùn)練,得到合適的預(yù)測(cè)神經(jīng)元模型。為得到語(yǔ)音的最大似然估計(jì),在擴(kuò)展的卡爾曼濾波過(guò)程中,使用訓(xùn)練得到的預(yù)測(cè)神經(jīng)元模型,

62、將噪聲抑制。</p><p>  變換域?yàn)V波:變換域分類使用帶噪語(yǔ)音和干凈的目標(biāo)語(yǔ)音在變換域中對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。變換域根據(jù)需要可以選擇為頻譜域、倒譜域、Mel倒譜域等。SNR或其他一些測(cè)度也可以作為網(wǎng)絡(luò)的輸入。這種方法的前提是SNR估計(jì)是正確的,巨語(yǔ)音、噪聲的統(tǒng)計(jì)分布是特定的。利用訓(xùn)練得到的神經(jīng)元,構(gòu)造可以對(duì)語(yǔ)音和噪聲進(jìn)行分類的分類器,即可實(shí)現(xiàn)語(yǔ)音增強(qiáng)。</p><p>  2. 基于H

63、MM的語(yǔ)音增強(qiáng)</p><p>  為了更好地描述信號(hào)的非平穩(wěn)性,可以采用基于狀態(tài)空間的變換方法,對(duì)不同的語(yǔ)音和噪聲信號(hào)建立不同的模型。目前主要有兩種轉(zhuǎn)換方法,一種是構(gòu)造分類器,利用分類器對(duì)當(dāng)前信號(hào)極性最佳匹配。另一種方法就是利用隱馬爾可夫模型(HMM)使用這種方法,HMM的各個(gè)狀態(tài)可以對(duì)語(yǔ)音、噪聲信號(hào)有所不同的區(qū)域進(jìn)行充分的建模,另外,由于要準(zhǔn)確地將噪聲估計(jì)出來(lái),必須保證在只有噪聲信號(hào)的情況下HMM也可以正確地

64、進(jìn)行分類。此時(shí),利用HMM可以對(duì)狀態(tài)轉(zhuǎn)移概率進(jìn)行建模,將可能為噪聲的信號(hào)部分濾除就可以做到語(yǔ)音增強(qiáng)?;贖MM的方法也可以和擴(kuò)展的卡爾曼濾波器聯(lián)合使用。</p><p>  3. 基于聽(tīng)覺(jué)感知的語(yǔ)音增強(qiáng)</p><p>  研究人員發(fā)現(xiàn),無(wú)論在多么惡劣的環(huán)境下,人耳總能在極大的程度上對(duì)語(yǔ)音信號(hào)中的噪聲進(jìn)行抑制,以提取到感興趣的信息。而語(yǔ)音增強(qiáng)的效果最終也是通過(guò)人的主觀感受體現(xiàn)的,因此隨著對(duì)

65、人聽(tīng)覺(jué)系統(tǒng)生理的研究深入,基于聽(tīng)覺(jué)感知的語(yǔ)音增強(qiáng)算法得到了長(zhǎng)足的發(fā)展。</p><p>  人耳的聽(tīng)覺(jué)主要特性:</p><p>  (1) 人耳對(duì)語(yǔ)音的感知是通過(guò)語(yǔ)音信號(hào)中各個(gè)頻譜分量幅度獲取的,它對(duì)各頻譜分量的相位不敏感。</p><p>  (2) 人耳對(duì)頻譜分量強(qiáng)度的感受是頻率和能量譜的二元函數(shù),響度與頻譜幅度的對(duì)數(shù)成正比。</p><p

66、>  (3) 人耳對(duì)頻率高低的感受與頻率的對(duì)數(shù)值近似成正比關(guān)系。</p><p>  (4) 人耳有掩蔽效應(yīng),即強(qiáng)信號(hào)對(duì)弱信號(hào)有掩蓋的抑制作用。掩蔽的程度滿足聲音強(qiáng)度與頻率的二元函數(shù)關(guān)系,對(duì)頻率臨近分量的掩蔽要比頻差大的分量有效得多。</p><p>  (5) 短時(shí)譜中的共振峰對(duì)語(yǔ)音感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對(duì)語(yǔ)音信號(hào)進(jìn)行一定程度的高通濾波不會(huì)對(duì)可懂度

67、造成影響。</p><p>  (6) 人耳在多人同時(shí)說(shuō)話時(shí)可以分辨出需要聆聽(tīng)的聲音。</p><p>  近年來(lái)許多語(yǔ)音增強(qiáng)算法都利用了聽(tīng)覺(jué)特性,例如模仿噪聲掩蔽效應(yīng),當(dāng)信號(hào)能量低于噪聲能量時(shí),令所有濾波器的輸出等于噪聲電平。或者將語(yǔ)音譜分成符合人耳聽(tīng)覺(jué)特性的子帶(利用Bark子波變換等),在每個(gè)子帶中分別估計(jì)噪聲特性和濾波以增強(qiáng)語(yǔ)音。</p><p>  4.

68、基于多分辨率分析的語(yǔ)音增強(qiáng)</p><p>  假設(shè)輸入信號(hào)受白噪聲干擾,此時(shí),其產(chǎn)生的Lipschitz指數(shù)是負(fù)的?;诙喾直媛史治隹芍?,根據(jù)連續(xù)尺度上子波變換的極大性可以區(qū)分信號(hào)的屬J勝。如果子波變換模極大值處的幅度隨尺度s減小而急劇增大,則表明所對(duì)應(yīng)的Lipschitz指數(shù)是負(fù)的,它由噪聲產(chǎn)生,應(yīng)予消除。在信號(hào)具有正Lipschitz指數(shù)處,噪聲加入的是負(fù)Lipschitz。此時(shí)信號(hào)與噪聲的和可能為負(fù)數(shù)。如

69、果帶噪信號(hào)極大值處的幅度比噪聲要大,則在大尺度上信號(hào)產(chǎn)生的模極大值就可以從噪聲產(chǎn)生的模極大值中區(qū)分出來(lái),當(dāng)尺度減小時(shí),它們的幅度增長(zhǎng)很少。</p><p>  在輸入信號(hào)的子波變換域中,對(duì)微分過(guò)零點(diǎn)處的信號(hào)刪除其隨尺度減少而幅度平均增長(zhǎng)的所有極大點(diǎn),或者在當(dāng)前尺度上終止的極大點(diǎn),也可以實(shí)現(xiàn)降噪的目的。</p><p>  隨著信號(hào)處理理論的發(fā)展,其他各種利用語(yǔ)音分類知識(shí)的有限迭代算法、變換

70、域去噪算法,如小波去噪(小波域內(nèi)區(qū)分污染語(yǔ)音的清濁音,分別用門限進(jìn)行不同的處理,然后將去噪后的小波系數(shù)反變換)等新技術(shù)正在逐步應(yīng)用到語(yǔ)音信號(hào)處理中。</p><p>  除了上面提及的語(yǔ)音增強(qiáng)算法外,基于子空間的語(yǔ)音增強(qiáng)算法近年來(lái)有了很大發(fā)展,在提高帶噪語(yǔ)音的語(yǔ)音質(zhì)量和可懂度方面表現(xiàn)出很大的優(yōu)越性。子空間語(yǔ)音增強(qiáng)算法極大地避免了人為附加噪聲的產(chǎn)生,比如在短時(shí)譜估計(jì)算法中不可避免的“音樂(lè)噪聲’,。子空間增強(qiáng)算法是將

71、語(yǔ)音信號(hào)看成K維向量空間,并將帶噪信號(hào)分解為不相關(guān)的信號(hào)空間和噪聲空間,以此消除噪聲。這種方法主要利用基于特征值分解的KL變換對(duì)語(yǔ)音信號(hào)進(jìn)行分解,通過(guò)對(duì)信號(hào)失真誤差和殘留噪聲兩種判別函數(shù)的控制以平衡語(yǔ)音質(zhì)量和可懂度。KL變換是最小均方誤差意義下的最優(yōu)變換。我們已經(jīng)對(duì)“基于子空間的增強(qiáng)算法”進(jìn)行了仿真實(shí)驗(yàn),結(jié)果表明此方法要明顯優(yōu)于短時(shí)幅度譜分析的方法。主要表現(xiàn)在對(duì)語(yǔ)音的破壞性小,巨幾乎不會(huì)造成其它算法容易產(chǎn)生的“音樂(lè)噪聲”。</p&

72、gt;<p>  由于子空間算法具有上述提到的優(yōu)點(diǎn),因此我們采用子空間技術(shù)進(jìn)行語(yǔ)音增強(qiáng)。本文對(duì)基于子空間的語(yǔ)音增強(qiáng)算法進(jìn)行了系統(tǒng)和深入的研究。</p><p><b>  子空間語(yǔ)音增強(qiáng)算法</b></p><p>  經(jīng)典的檢測(cè)理論中有一項(xiàng)信號(hào)子空間處理技術(shù)。在M類信號(hào)進(jìn)行檢測(cè)時(shí),構(gòu)造由M類信號(hào)張成的信號(hào)子空間,并在子空間中使用M個(gè)經(jīng)過(guò)KL變換后的分量

73、實(shí)現(xiàn)對(duì)信號(hào)的檢測(cè)。譜估計(jì)和陣列信號(hào)處理大量使用了這種信號(hào)子空間處理技術(shù)。</p><p>  語(yǔ)音信號(hào)處理的大量實(shí)驗(yàn)表明,語(yǔ)音矢量的協(xié)方差矩陣有很多零特征值,這說(shuō)明干凈語(yǔ)音信號(hào)矢量的能量分布在它對(duì)應(yīng)空間的某個(gè)子集中。而語(yǔ)音信號(hào)處理中,噪聲方差通常都假設(shè)己知,且嚴(yán)格正定。噪聲矢量存在于整個(gè)帶噪信號(hào)張成的空間中。因此帶噪語(yǔ)音信號(hào)的矢量空間可以認(rèn)為由一個(gè)信號(hào)加噪聲的子空間和一個(gè)純?cè)肼暤淖涌臻g構(gòu)成??梢岳眯盘?hào)子空間處理

74、技術(shù),消除純?cè)肼曌涌臻g,并對(duì)語(yǔ)音信號(hào)進(jìn)行估計(jì),實(shí)現(xiàn)語(yǔ)音增強(qiáng)。子空間方法是通過(guò)空間分解,將整個(gè)空間劃分為兩個(gè)獨(dú)立子空間,即噪聲子空間和疊加噪聲的信號(hào)子空間,然后對(duì)噪聲子空間和信號(hào)子空間進(jìn)行處理以實(shí)現(xiàn)語(yǔ)音增強(qiáng)。</p><p>  3.1 信號(hào)子空間原理</p><p>  在信號(hào)與噪聲子空間分解算法中先對(duì)信號(hào)進(jìn)行一些假設(shè):</p><p>  1. 噪聲與語(yǔ)音信號(hào)都是

75、零均值的隨機(jī)過(guò)程。</p><p>  2. 認(rèn)為語(yǔ)音信號(hào)在短時(shí)內(nèi)是平穩(wěn)的。</p><p>  3. 噪聲與語(yǔ)音信號(hào)是正交的。</p><p>  4. 噪聲是一個(gè)隨機(jī)的白噪聲。</p><p>  5. 所有信號(hào)的相關(guān)矩陣是各態(tài)歷經(jīng)的,即可以用時(shí)間平均來(lái)代替統(tǒng)計(jì)平均。</p><p>  3.1.1 語(yǔ)音信號(hào)的線性

76、模型</p><p>  設(shè)語(yǔ)音信號(hào)s通過(guò)一無(wú)失真通道,受到加性噪聲n的污染。則帶噪語(yǔ)音 y 可以用下式表示:</p><p><b>  (3-1)</b></p><p>  這里,,,信號(hào)觀測(cè)的長(zhǎng)度為K ,因此向量s,n, y 可以視為空間的一部分。</p><p>  語(yǔ)音增強(qiáng)系統(tǒng)就是要利用這一單通道的帶噪信號(hào)恢

77、復(fù)出原始純凈語(yǔ)音。設(shè)信號(hào)與噪聲都假定為零均值的隨機(jī)過(guò)程。幀長(zhǎng)為K 的純凈語(yǔ)音信號(hào)其線性模型如下式所示:</p><p><b>  (3-2)</b></p><p>  其中,是零均值隨機(jī)變量序列,是 K 維基向量,且線性獨(dú)立,即矩陣V 的秩等于M 。</p><p>  3.1.2 信號(hào)與噪聲子空間</p><p>

78、  設(shè)K維帶噪語(yǔ)音向量表示為:</p><p><b>  (3-3)</b></p><p><b>  其協(xié)方差矩陣為:</b></p><p><b>  (3-4)</b></p><p>  這里,是噪聲向量的協(xié)方差矩陣。在白噪聲的情況下,即。對(duì)進(jìn)行特征值分解,即。這

79、里是特征向量組成的正交矩陣。為的特征值矩陣。由于矩陣的所有特征值全為,則矩陣的特征向量即為矩陣和的特征向量。矩陣的秩為M ,則具有M個(gè)正的特征值和K-M個(gè)零特征值。不失一般性,假定的 M個(gè)正特征值是,其相應(yīng)的特征向量為。為方便起見(jiàn),假定以降序排列,即。特征值分解(3-4)式中的三個(gè)協(xié)方差矩陣,可得:</p><p><b>  (3-5)</b></p><p>  

80、因此矩陣的特征值分解由下式給出:</p><p>  (3-6) </p><p><b>  (3-7)</b></p><p><b>  (3-8)</b></p><p>  矩陣的特征值分解由下式給出:</p><p><

81、b>  (3-9)</b></p><p><b>  (3-10)</b></p><p><b>  (3-11)</b></p><p>  和其對(duì)應(yīng)的特征向量分別稱為矩陣的主特征值和主特征向量。令,為 K × M維矩陣,由矩陣的主特征向量組成,即:</p><p>

82、;<b>  (3-12)</b></p><p>  由于矩陣U是矩陣的特征向量矩陣,因而U 是正交矩陣,所以有:</p><p><b>  (3-13)</b></p><p>  容易看出矩陣是冪矩陣和哈密頓矩陣,根據(jù)正交投影矩陣的定義,這是一個(gè)正交投影矩陣,它將信號(hào)投影到由的列向量所張成的子空間中。因此即為投影到

83、該子空間的正交投影矩陣,而且有spanU = spanV,我們稱這一子空間為信號(hào)子空間。與其互補(bǔ)的正交子空間是由矩陣的列向量所張成的子空間即為噪聲子空間,是投影到噪聲子空間的正交投影矩陣。</p><p>  根據(jù)(3-13)式,帶噪語(yǔ)音向量z可以分解為:</p><p><b>  (3-14)</b></p><p>  這里認(rèn)是向量 y

84、到信號(hào)子空間的正交投影,是向量y到噪聲子空間的正交投影。此處兩個(gè)投影的系數(shù)向量和分別來(lái)自即向量 y 的KL變換。在這里,由于有:</p><p><b>  (3-15)</b></p><p><b>  (3-16)</b></p><p><b>  (3-17)</b></p>

85、<p>  即向量中的語(yǔ)音信號(hào)能量為零,在估計(jì)純凈語(yǔ)音信號(hào)時(shí),此向量可以被去除掉。</p><p>  3.2 語(yǔ)音信號(hào)估計(jì)</p><p>  子空間語(yǔ)音增強(qiáng)算法是從帶噪語(yǔ)音中估計(jì)出純凈語(yǔ)音信號(hào),有兩種線性估計(jì)器。時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)。</p><p>  3.2.1時(shí)域約束估計(jì)器</p><p> 

86、 時(shí)域約束估計(jì)器(TDC)是一種線性估計(jì)器,約束每一幀的噪聲殘差能量在一門限值下使得信號(hào)失真最小。在加性噪聲干擾的信號(hào)模型中,假設(shè)語(yǔ)音信號(hào)和噪聲信號(hào)互不相關(guān),設(shè)帶噪語(yǔ)音為:</p><p><b>  (3-18)</b></p><p>  其中,Y ,S 和 N 分別為 k 維帶噪語(yǔ)音矢量、純凈語(yǔ)音矢量和噪聲信號(hào)矢量,令,和分別表示Y ,S 和 N 的協(xié)方差矩陣,

87、令是純凈語(yǔ)音Y的線性估計(jì), H 為k×k維線性估計(jì)矩陣。則估計(jì)值與真實(shí)值的誤差由下式給出:</p><p><b>  (3-19)</b></p><p>  其中,和分別表示語(yǔ)音信號(hào)的失真和增強(qiáng)后殘留的噪聲,相應(yīng)的能量分別為:</p><p><b>  (3-20)</b></p><p

88、><b>  (3-21)</b></p><p>  求解下面時(shí)域約束條件(TDC)下的方程,就可以得到優(yōu)化的線性估計(jì)器:</p><p><b>  (3-22)</b></p><p>  這里。在可接受的噪聲殘差水平下,該估計(jì)矩陣能夠最小化語(yǔ)音信號(hào)失真。</p><p>  對(duì)于參數(shù)α

89、>1的情況,依然可得到最優(yōu)估計(jì)器H=I滿足式(3-22)的約束方程,并給出最小的信號(hào)失真,但是殘留噪聲最大。對(duì)于(3-22)式的約束最優(yōu)化問(wèn)題可以用Lagrange乘子法來(lái)解決,滿足如下的Lagrang梯度方程:</p><p><b>  (3-23)</b></p><p><b>  (3-24)</b></p><

90、;p>  由梯度可以求得最優(yōu)估計(jì)器為:</p><p><b>  (3-25)</b></p><p><b>  在白噪聲的情況下:</b></p><p><b>  (3-26)</b></p><p>  這里μ 是Lagrange算子,由(3-24)式得:&l

91、t;/p><p><b>  (3-27)</b></p><p>  將(3-21)式和(3-26)式代入(3-27),可得參數(shù)μ必須滿足的條件,即參數(shù)μ和α 的關(guān)系為:</p><p><b>  (3-28)</b></p><p>  因此,由(3-26)式和(3-28)式可以看出,最優(yōu)估計(jì)矩陣

92、實(shí)際上是一個(gè)具有可調(diào)噪聲輸入水平的Wiener濾波器。</p><p>  對(duì)(3-26)式中的協(xié)方差矩陣應(yīng)用特征值分解,即,可將最優(yōu)估計(jì)器改寫(xiě)如下:</p><p><b>  (3-29)</b></p><p><b>  (3-30)</b></p><p><b>  可得:

93、 </b></p><p><b>  (3-31)</b></p><p><b>  其中:</b></p><p><b>  (3-32)</b></p><p>  根據(jù)和式(3-31),可通過(guò)對(duì)帶噪信號(hào)進(jìn)行KL變換:即左乘矩陣,再將變換的結(jié)果乘以一個(gè)增益

94、矩陣G ,然后對(duì)所得結(jié)果進(jìn)行 KL 逆變換即左乘矩陣U,最后可得到增強(qiáng)的語(yǔ)音信號(hào)。</p><p>  從而,純凈語(yǔ)音的估計(jì)為:</p><p><b>  (3-33)</b></p><p>  3.2.2頻域約束估計(jì)器</p><p>  頻域約束估計(jì)器(SDC)是一種線性估計(jì)器,該估計(jì)器保持每一頻譜分量處的噪聲殘

95、差能量在一給定門限值下使得信號(hào)失真最小??梢宰寶埐钚盘?hào)的頻譜與語(yǔ)音頻譜相似,這樣得到的殘差信號(hào)可以被語(yǔ)音信號(hào)所掩蔽。假設(shè)殘差信號(hào)的第K個(gè)頻譜分量為,當(dāng) k =1M時(shí),約束的能量小于或等于 ,其中 ;當(dāng) k=M+1,,K時(shí),噪聲子空間中的信號(hào)能量為零,因此的能量為零。</p><p>  由上述可得求頻域約束估計(jì)器(SDC)的最優(yōu)化方法,即:</p><p><b>  (3-34

96、)</b></p><p><b>  (3-35)</b></p><p><b>  (3-36)</b></p><p>  采用類似于時(shí)域約束的優(yōu)化過(guò)程,可以證明最優(yōu)估計(jì)矩陣H滿足下面的梯度方程:</p><p><b>  (3-37)</b></p

97、><p>  其中, ,是Lagrange算子的對(duì)角矩陣。定義</p><p>  ,將的特征值分解代入(3-37)式,可得:</p><p><b>  (3-38)</b></p><p>  如果Q是對(duì)角矩陣,對(duì)角線上元素為:</p><p><b>  (3-39)</b>

98、;</p><p>  則殘差信號(hào)頻譜能量的估計(jì)值為:</p><p><b>  (3-40)</b></p><p>  如果(3-35)式中的等號(hào)成立,則:</p><p><b>  (3-41)</b></p><p><b>  (3-42)</b

99、></p><p>  當(dāng)時(shí),根據(jù)和式(3-41)與式(3-42),就可以得到最優(yōu)估計(jì)矩陣。由于估計(jì)矩陣是線性的,且已知輸入、輸出信號(hào)的頻譜,因此其增益可由的值確定。其中,輸入噪聲為白噪聲,其頻譜為,輸出殘差噪聲的非零頻譜為。理論上的選擇可以和信號(hào)與噪聲相獨(dú)立。在這種情況下信號(hào)和噪聲的二階統(tǒng)計(jì)量只在KL變換中影響估計(jì)器的性能。可以按下式選?。?lt;/p><p><b>  (

100、3-43)</b></p><p>  其中,是一個(gè)經(jīng)驗(yàn)常數(shù)。和Y相似,v的值也確定了噪聲抑制程度和信號(hào)失真程度。當(dāng)v增大時(shí),殘差噪聲下降,而信號(hào)失真增大。</p><p>  從而,純凈語(yǔ)音的估計(jì)為:</p><p><b>  (3-44)</b></p><p>  3.3 子空間語(yǔ)音增強(qiáng)方法</

101、p><p>  子空間語(yǔ)音增強(qiáng)算法就是通過(guò)含噪語(yǔ)音分解為語(yǔ)音子空間和噪聲子空間,并</p><p>  將含噪聲語(yǔ)音投影到語(yǔ)音子空間中,以該投影作為語(yǔ)音信號(hào)的估計(jì)值。本文采用了時(shí)域估計(jì)約束器和頻域約束估計(jì)器的方法。并且假定語(yǔ)音信號(hào)僅僅位于信號(hào)子空間中,因此,僅用信號(hào)子空間中的語(yǔ)音信號(hào)分量來(lái)估計(jì)原始的語(yǔ)音信號(hào)。</p><p>  這里我們討論如何應(yīng)用子空間增強(qiáng)算法從帶噪

102、語(yǔ)音中估計(jì)出純凈語(yǔ)音信號(hào),采用兩種線性估計(jì)器。一種為時(shí)域約束估計(jì)器,該線性估計(jì)器約束每一幀的噪聲殘差能量在一門限值下使得信號(hào)的失真最小;一種為頻域約束估計(jì)器,該線性估計(jì)器保持每一頻譜分量處的噪聲殘差能量在一給定門限值下使得信號(hào)失真最小。</p><p>  時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)增強(qiáng)方法原理</p><p>  時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)

103、的子空間語(yǔ)音增強(qiáng)方法原理圖為:</p><p>  圖3.1 子空間語(yǔ)音增強(qiáng)原理圖</p><p>  時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)增強(qiáng)方法具體步驟:</p><p>  步驟1:帶噪語(yǔ)音進(jìn)行KL變換,得到子空間域中的帶噪語(yǔ)音的特征向量U和特 </p><p><b>  征值。</b></p

104、><p>  步驟2:估計(jì)噪聲特征值,一般取帶噪語(yǔ)音前3000點(diǎn)求其方差的平均值作</p><p>  為噪聲的特征值估計(jì)值。</p><p>  步驟3:帶噪語(yǔ)音特征值減去噪聲特征值,得純凈語(yǔ)音特征值,由(3-32) </p><p>  得到時(shí)域約束估計(jì)器(TDC)增益G,由(3-43)可以得到頻域約束估計(jì)器 </p><

105、p><b>  (SDC)增益G。</b></p><p>  步驟4:由KL逆變換可得最優(yōu)估計(jì)器。由可得純凈語(yǔ)音的估計(jì)</p><p><b>  。</b></p><p>  TDC和SDC的語(yǔ)音增強(qiáng)實(shí)驗(yàn)仿真</p><p>  根據(jù)時(shí)域(頻域)約束條件,推導(dǎo)出語(yǔ)音信號(hào)失真最小情況下的線

106、性最優(yōu)估計(jì)器。由于采用了不同的約束條件,使得使用時(shí)域和頻域兩種不同的約束條件語(yǔ)音增強(qiáng)的效果會(huì)有差別。所以用MATLAB對(duì)高斯白噪聲背景下的時(shí)域約束估計(jì)器(TDC)和頻域約束估計(jì)器(SDC)的子空間語(yǔ)音增強(qiáng)方法進(jìn)行實(shí)驗(yàn)仿真,并對(duì)結(jié)果進(jìn)行比較分析。</p><p>  4.1用時(shí)域約束估計(jì)器(TDC)的子空間語(yǔ)音增強(qiáng)方法進(jìn)行實(shí)驗(yàn)仿真</p><p><b>  實(shí)驗(yàn)所用數(shù)據(jù):<

107、/b></p><p>  語(yǔ)音為錄制的,內(nèi)容為“畢業(yè)論文”(.wav)格式語(yǔ)音,噪聲為高斯白噪聲,語(yǔ)音信號(hào)的幀長(zhǎng)為80,幀疊為50%,計(jì)算Toeplitz協(xié)方差矩陣時(shí)用到的前后相鄰的幀數(shù)為4。</p><p>  2. 仿真所選標(biāo)準(zhǔn):波形圖,信噪比。</p><p>  3. 仿真結(jié)果如下:</p><p> ?。?)對(duì)SNR=0的帶

108、噪語(yǔ)音,采用時(shí)域約束估計(jì)器(TDC)的算法得到增強(qiáng)后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.1 SNR=0的帶噪語(yǔ)音TDC實(shí)驗(yàn)仿真結(jié)果</p><p>  語(yǔ)音增強(qiáng)前后SNR的比較:</p><p>  SNR before =-0.0494</p><p>  S

109、NR after = 9.8197</p><p> ?。?)對(duì)SNR=5的帶噪語(yǔ)音,采用時(shí)域約束估計(jì)器(TDC)的算法得到增強(qiáng)后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.2 SNR=5的帶噪語(yǔ)音TDC實(shí)驗(yàn)仿真結(jié)果</p><p>  語(yǔ)音增強(qiáng)前后SNR的比較:</p><

110、;p>  SNR before =4.9602</p><p>  SNR after =13.2505</p><p> ?。?)對(duì)SNR=10的帶噪語(yǔ)音,采用時(shí)域約束估計(jì)器(TDC)的算法得到增強(qiáng)后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.3 SNR=10的帶噪語(yǔ)音TDC實(shí)驗(yàn)仿真結(jié)

111、果</p><p>  語(yǔ)音增強(qiáng)前后SNR的比較:</p><p>  SNR before =9.9850</p><p>  SNR after =16.6114</p><p> ?。?)對(duì)SNR=15的帶噪語(yǔ)音,采用時(shí)域約束估計(jì)器(TDC)的算法得到增強(qiáng)后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5

112、,u=4;</p><p>  圖4.4 SNR=15的帶噪語(yǔ)音TDC實(shí)驗(yàn)仿真結(jié)果</p><p>  語(yǔ)音增強(qiáng)前后SNR的比較:</p><p>  SNR_before =15.0329</p><p>  SNR_after =19.5112</p><p> ?。?)對(duì)SNR=20的帶噪語(yǔ)音,采用時(shí)域約束估計(jì)器

113、(TDC)的算法得到增強(qiáng)后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.5 SNR=20的帶噪語(yǔ)音TDC實(shí)驗(yàn)仿真結(jié)果</p><p>  語(yǔ)音增強(qiáng)前后SNR的比較:</p><p>  SNR before =20.0011</p><p>  SNR after =21

114、.5044</p><p>  4.2用頻域約束估計(jì)器(SDC)的子空間語(yǔ)音增強(qiáng)方法進(jìn)行實(shí)驗(yàn)仿真</p><p><b>  1.實(shí)驗(yàn)所用數(shù)據(jù):</b></p><p>  語(yǔ)音為錄制的,內(nèi)容為“畢業(yè)論文”(.wav)格式語(yǔ)音,噪聲為5dB的高斯白噪聲,語(yǔ)音信號(hào)的幀長(zhǎng)為80,幀疊為50%,計(jì)算Toeplitz協(xié)方差矩陣時(shí)用到的前后相鄰的幀數(shù)為2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論