基于bss和svm的語(yǔ)音識(shí)別技術(shù)研究_第1頁(yè)
已閱讀1頁(yè),還剩56頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  獨(dú)創(chuàng)性(或創(chuàng)新性)聲明</p><p>  本人聲明所呈交的論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的研究成</p><p>  果。盡我所知,除了文中特別加以標(biāo)注和致謝中所羅列的內(nèi)容以外,論文中不包含其</p><p>  他人已經(jīng)發(fā)表或撰寫(xiě)過(guò)的研究成果;也不包含為獲得桂林電子科技大學(xué)或其它教育機(jī)</p><p>

2、  構(gòu)的學(xué)位或證書(shū)而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均已</p><p>  在論文中做了明確的說(shuō)明并表示了謝意。</p><p>  申請(qǐng)學(xué)位論文與資料若有不實(shí)之處,本人承擔(dān)一切相關(guān)責(zé)任。</p><p><b>  本人簽名:</b></p><p><b>  日期:</b&g

3、t;</p><p>  關(guān)于論文使用授權(quán)的說(shuō)明</p><p>  本人完全了解桂林電子科技大學(xué)有關(guān)保留和使用學(xué)位論文的規(guī)定,即:研究生在</p><p>  校攻讀學(xué)位期間論文工作的知識(shí)產(chǎn)權(quán)單位屬桂林電子科技大學(xué)。本人保證畢業(yè)離校</p><p>  后,發(fā)表論文或使用論文工作成果時(shí)署名單位仍然為桂林電子科技大學(xué)。學(xué)校有權(quán)保</p&

4、gt;<p>  留送交論文的復(fù)印件,允許查閱和借閱論文;學(xué)??梢怨颊撐牡娜炕虿糠謨?nèi)容,</p><p>  可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)</p><p><b>  定)</b></p><p>  本學(xué)位論文屬于保密在_____年解密后適用本授權(quán)書(shū)。</p>&l

5、t;p><b>  本人簽名:</b></p><p><b>  導(dǎo)師簽名:</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  日期:</b></p><p><b>  日期:</b><

6、/p><p><b>  摘 要</b></p><p><b>  摘 要</b></p><p>  隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,目前語(yǔ)音識(shí)別技術(shù)的研究已有了實(shí)質(zhì)性的突破。</p><p>  本文在已有的研究成果上,對(duì)以 SVM 為聲學(xué)模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)進(jìn)行了相</p><p

7、>  關(guān)的改進(jìn):針對(duì)連續(xù)語(yǔ)音識(shí)別單元對(duì)系統(tǒng)性能有著直接影響的問(wèn)題,選取了音節(jié)作為</p><p>  識(shí)別單元并通過(guò)動(dòng)態(tài)循環(huán)雙門(mén)限起止點(diǎn)前后向搜索方法基本實(shí)現(xiàn)了每個(gè)獨(dú)立音節(jié)能</p><p>  夠被完整的切分出來(lái);同時(shí)為了使 SVM 模型獲得較好的訓(xùn)練數(shù)據(jù),在 SVM 模型訓(xùn)</p><p>  練前利用 VQ 對(duì)高維語(yǔ)音參數(shù)進(jìn)行聚類即碼本設(shè)計(jì),并在 VQ

8、中引入 SAHKC 方法對(duì)</p><p>  語(yǔ)音信號(hào)的 MFCC 參數(shù)聚類,比傳統(tǒng)的 K-means 方法的聚類效果更優(yōu)越。</p><p>  由于實(shí)際環(huán)境中存在的各種噪聲會(huì)導(dǎo)致訓(xùn)練環(huán)境和識(shí)別環(huán)境不匹配,使得大多在</p><p>  實(shí)驗(yàn)室中具有較高識(shí)別率的語(yǔ)音識(shí)別系統(tǒng)在噪聲環(huán)境下的性能急劇下降。常規(guī)的消噪</p><p>  技術(shù)雖

9、然對(duì)噪聲的抑制有一定的作用,但是存在一定的局限性。針對(duì)此種情況,本文</p><p>  在語(yǔ)音識(shí)別系統(tǒng)的前端采用了盲分離技術(shù)(BSS)與卡爾曼濾波器相結(jié)合的方法對(duì)含噪</p><p>  語(yǔ)音進(jìn)行消噪處理,使噪聲與目標(biāo)語(yǔ)音信號(hào)自動(dòng)分離,以得到較為純凈的目標(biāo)語(yǔ)音信</p><p><b>  號(hào)。</b></p><p>

10、;  最后在 MATLAB 平臺(tái)上進(jìn)行仿真實(shí)驗(yàn)分析,從三個(gè)方面即碼本設(shè)計(jì)及容量、盲</p><p>  分離和卡爾曼濾波器構(gòu)建的消噪方法以及 SVM 核函數(shù)對(duì) VQ-SVM 語(yǔ)音識(shí)別系統(tǒng)進(jìn)</p><p>  行了相關(guān)實(shí)驗(yàn),并將改進(jìn)的 VQ-SVM 模型與原有的 SVM 模型在特定人和非特定人測(cè)</p><p>  試集下進(jìn)行實(shí)驗(yàn)對(duì)比分析,驗(yàn)證了改進(jìn)的碼本設(shè)計(jì)算法和

11、抗噪方法對(duì)系統(tǒng)性能有一定</p><p><b>  的提高。</b></p><p>  關(guān)鍵詞:語(yǔ)音識(shí)別;SVM;SAHKC;盲分離(BSS)</p><p><b>  - I -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p&g

12、t;<b>  Abstract</b></p><p><b>  Abstract</b></p><p>  With the rapid development of computer technology, the research of speech</p><p>  recognition technolo

13、gy has a substantial breakthrough.</p><p>  In this paper, aimming at the existing research results, some improvements are made</p><p>  for the continuous speech recognition system with the aco

14、ustic model based SVM. For the</p><p>  issue of the unit of continuous speech recognition has a direct impact on system</p><p>  performance, the syllable is selected as a recognition unit. Eac

15、h individual syllable out of a</p><p>  complete segmentation can be achieved by dynamic loop of beginning and ending points</p><p>  search to before and after method. Meanwhile, in order to ob

16、tain better training data for</p><p>  SVM model, before using the SVM model, high-dimensional speech parameters are</p><p>  clustered by VQ. SAHKC method is introduced for clustering the MFCC

17、parameters of</p><p>  speech and is more effect than the traditional K-means method.</p><p>  Because in a real environment, noise will lead a dismatch of the training environment</p>&l

18、t;p>  and recognition environment, and there is a sharp decline for the recognition rate of the</p><p>  most speech recognition system from laboratory to noisy environment. Even conventional</p>&

19、lt;p>  noise cancellation technology is useful for noise suppression, but also there are some</p><p>  limitations. In such cases, the combination technology of Blind signal separation</p><p>

20、;  technology and Kalman filter which denoises for speech in noisy environment is used in</p><p>  the front-end speech recognition system for automatically separating the noise and target</p><p&g

21、t;  speech signal to obtain a more pure target speech signal.</p><p>  Finally, simulation is made on the Matlab platform. In the three aspects, the</p><p>  simulation experiments of speech rec

22、ognition system based the VQ and SVM model are</p><p>  made, that is codebook capacity and design, the anti-noise technology constructed by blind</p><p>  source separation and Kalman filter SV

23、M kernel function. And the comparative of</p><p>  experiments of the improved VQ-SVM model and original SVM model in different of test</p><p>  sets which are particual and non-specific persons

24、 test sets are made, the simulation results</p><p>  of the improved algorithm of codebook design and the anti-noise method indicate that</p><p>  system performance can be increased.</p>

25、<p>  Key words: Speech Recognition;SVM;SAHKC;Blind Signal Separation(BSS)</p><p><b>  - II -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  目 錄</b>&

26、lt;/p><p><b>  目 錄</b></p><p><b>  摘要</b></p><p><b>  Abstract</b></p><p><b>  目 錄</b></p><p><b>  第一章 緒

27、論</b></p><p><b>  I</b></p><p><b>  II</b></p><p><b>  III</b></p><p><b>  1</b></p><p>  1.1 研究背景與意義

28、......................................................................................................1</p><p>  1.2 語(yǔ)音識(shí)別研究的發(fā)展?fàn)顩r...............................................................................

29、.......2</p><p>  1.3 本論文的主要工作和內(nèi)容安排..............................................................................4</p><p>  第二章 語(yǔ)音識(shí)別系統(tǒng)的基本原理</p><p><b>  6</b></p>

30、<p>  2.1 語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu)......................................................................................6</p><p>  2.2 預(yù)處理.............................................................................

31、.........................................6</p><p>  2.3 語(yǔ)音識(shí)別單元的確定...............................................................................................8</p><p>  2.4 語(yǔ)音特征參數(shù)確定...........

32、.......................................................................................8</p><p>  2.5 語(yǔ)音識(shí)別模型...................................................................................................

33、......10</p><p>  2.5.1 常用聲學(xué)模型..............................................................................................10</p><p>  2.5.2 支持向量機(jī)...............................................

34、.................................................... 11</p><p>  2.5.3 矢量量化......................................................................................................17</p><p>  2.5.3

35、.1 VQ 的基本理論............................................................................... 17</p><p>  2.5.3.2 VQ 失真測(cè)度................................................................................... 18<

36、;/p><p>  2.5.3.3 碼本設(shè)計(jì).........................................................................................18</p><p>  2.6 本章小結(jié)..................................................................

37、...............................................19</p><p>  第三章 語(yǔ)音在噪聲環(huán)境下的消噪處理</p><p><b>  20</b></p><p>  3.1 盲分離(BSS)基本概念................................................

38、..........................................20</p><p>  3.1.1 盲分離基本模型...........................................................................................20</p><p>  3.1.2 盲分離的不確定性..........

39、.............................................................................21</p><p>  3.1.3 盲分離預(yù)處理...............................................................................................21</p>

40、;<p>  3.2 FastICA 算法.......................................................................................................... 23</p><p>  3.3 噪聲環(huán)境下的噪聲消除..............................................

41、...........................................24</p><p>  3.3.1 盲分離消噪...................................................................................................24</p><p>  3.3.2 實(shí)驗(yàn)結(jié)果及分析....

42、.......................................................................................26</p><p>  3.4 本章小結(jié)....................................................................................................

43、............31</p><p><b>  - III -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  目錄</b></p><p>  第四章 語(yǔ)音識(shí)別系統(tǒng)的 MATLAB 實(shí)現(xiàn)</p><p>&l

44、t;b>  32</b></p><p>  4.1 語(yǔ)音庫(kù)簡(jiǎn)介.............................................................................................................32</p><p>  4.2 特征參數(shù)提取.......................

45、.................................................................................32</p><p>  4.2.1 語(yǔ)音信號(hào)預(yù)處理...........................................................................................32</p&g

46、t;<p>  4.2.2 音節(jié)切分與 MFCC 特征提取......................................................................33</p><p>  4.3 VQ 的碼本優(yōu)化算法...........................................................................

47、................... 37</p><p>  4.4 基于 SVM 的語(yǔ)音訓(xùn)練與識(shí)別.............................................................................. 40</p><p>  4.5 實(shí)驗(yàn)分析及結(jié)論.........................................

48、............................................................42</p><p>  4.6 本章小結(jié)................................................................................................................44</p>&

49、lt;p><b>  第五章 總結(jié)與展望</b></p><p><b>  參考文獻(xiàn)</b></p><p><b>  致 謝</b></p><p>  作者在攻讀碩士期間主要研究成果</p><p><b>  萬(wàn)方數(shù)據(jù)</b></p&

50、gt;<p><b>  - IV -</b></p><p><b>  46</b></p><p><b>  47</b></p><p><b>  50</b></p><p><b>  51</b><

51、;/p><p><b>  第一章 緒論</b></p><p><b>  第一章 緒論</b></p><p>  §1.1 研究背景與意義</p><p>  語(yǔ)音是對(duì)講話聲音的抽象表示,是語(yǔ)言的載體,是人類社會(huì)特有的信息系統(tǒng)和用</p><p>  于社會(huì)交際的

52、工具符號(hào)。所謂的語(yǔ)音識(shí)別[1]就是能夠讓機(jī)器聽(tīng)明白人所說(shuō)的話,其作</p><p>  為一門(mén)交叉學(xué)科,與人工智能、計(jì)算機(jī)科學(xué)、數(shù)字信號(hào)處理等學(xué)科領(lǐng)域有著緊密的關(guān)</p><p>  系。根據(jù)語(yǔ)音識(shí)別技術(shù)的屬性,可將基本功能歸為兩大類,一是根據(jù)人本身的聲紋特</p><p>  征來(lái)進(jìn)行身份判別認(rèn)證;二是根據(jù)人發(fā)出特定的語(yǔ)音指令來(lái)進(jìn)行命令控制。隨著計(jì)算</p&

53、gt;<p>  機(jī)科學(xué)技術(shù)、數(shù)字信號(hào)處理以及聲學(xué)技術(shù)的發(fā)展,使語(yǔ)音識(shí)別能夠由理論的研究逐步</p><p>  轉(zhuǎn)化為硬件實(shí)現(xiàn),近年來(lái)也得到了相當(dāng)廣泛的應(yīng)用,其主要的應(yīng)用市場(chǎng)可以包括以下</p><p><b>  幾個(gè)方面[2]:</b></p><p><b>  (1)桌面應(yīng)用</b></p&g

54、t;<p>  語(yǔ)音識(shí)別技術(shù)集成應(yīng)用在 PC 機(jī)上,不僅可以用來(lái)進(jìn)行身份認(rèn)證和編輯文本,還</p><p>  可以通過(guò)聽(tīng)取和響應(yīng)用戶講述的命令來(lái)運(yùn)行程序并與操作系統(tǒng)實(shí)現(xiàn)交互。</p><p><b>  (2)嵌入式應(yīng)用</b></p><p>  嵌入式應(yīng)用的范疇很廣,如手持或移動(dòng)通訊設(shè)備及家用電器的語(yǔ)音控制和內(nèi)容輸</

55、p><p><b>  入等。</b></p><p><b>  (3)電話系統(tǒng)應(yīng)用</b></p><p>  語(yǔ)音識(shí)別技術(shù)應(yīng)用于企業(yè)自動(dòng)語(yǔ)音服務(wù),為企業(yè)提供一種智能化的并且相對(duì)安全</p><p>  的自動(dòng)服務(wù)方式,主要包括企業(yè)的用戶服務(wù)中心(Call-Center)、電話銀行、股票交易、<

56、;/p><p>  電子商務(wù)等應(yīng)用領(lǐng)域。</p><p><b>  (4)Web 應(yīng)用</b></p><p>  語(yǔ)音識(shí)別技術(shù)與 Web 應(yīng)用相結(jié)合成為了一個(gè)新的發(fā)展方向,例如語(yǔ)音瀏覽器、</p><p>  基于 Web Services 的語(yǔ)音遠(yuǎn)程控制、語(yǔ)音搜索引擎、網(wǎng)上語(yǔ)音聊天室以及語(yǔ)音網(wǎng)游等 。</p>

57、;<p>  (5)行業(yè)特殊應(yīng)用領(lǐng)域</p><p>  語(yǔ)音識(shí)別技術(shù)可以為有關(guān)部門(mén)提供應(yīng)用方案,節(jié)省大量的人力,提高工作效率。</p><p>  從語(yǔ)音識(shí)別技術(shù)開(kāi)始出現(xiàn)以來(lái),已經(jīng)發(fā)展了近 60 年。目前比較成熟的有矢量量</p><p>  化(Vector Quantitation,VQ)、隱馬爾科夫(Hidden Markov Model,HM

58、M)等模型構(gòu)建</p><p>  的識(shí)別系統(tǒng),這些模型在促進(jìn)語(yǔ)音識(shí)別技術(shù)的發(fā)展起了很好的作用,然而也存在著一</p><p>  定的局限性,如 HMM 等模型雖然有很強(qiáng)的動(dòng)態(tài)時(shí)序建模功能力,但存在分類決策能</p><p>  力差等缺點(diǎn)。而近年發(fā)展起來(lái)的支持向量機(jī)(Support Vector Machine ,SVM)能夠較</p><p

59、>  好的解決小樣本、非線性和局部極小點(diǎn)等問(wèn)題,同時(shí)應(yīng)用于語(yǔ)音識(shí)別時(shí)能夠有效的解</p><p>  決傳統(tǒng)分類器的過(guò)學(xué)習(xí)、泛化能力差等問(wèn)題,但是在普通語(yǔ)音條件下,直接利用 SVM</p><p><b>  - 1 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p> 

60、 基于 BSS 和 SVM 的語(yǔ)音識(shí)別技術(shù)研究</p><p>  建模存在著特征參數(shù)的維數(shù)很高,運(yùn)算量和內(nèi)存需求都非常大等問(wèn)題。因此針對(duì)如</p><p>  何處理大規(guī)模樣本集的訓(xùn)練問(wèn)題,本文采用了 VQ 與 SVM 結(jié)合的方式。</p><p>  同時(shí)有研究表明語(yǔ)音識(shí)別系統(tǒng)在無(wú)噪聲或干擾的實(shí)驗(yàn)室環(huán)境下,識(shí)別率已經(jīng)超過(guò)</p><p>

61、  了 95%,但由于實(shí)際環(huán)境中背景噪聲的存在,特別是干擾聲音的存在,例如其他說(shuō)話</p><p>  人的話音、機(jī)械噪聲等,這些噪聲有時(shí)很強(qiáng),使得目標(biāo)語(yǔ)音受到污染,最終導(dǎo)致自動(dòng)</p><p>  語(yǔ)音識(shí)別系統(tǒng)識(shí)別性能大大降低。消除語(yǔ)音信號(hào)中的干擾噪聲一直是語(yǔ)音識(shí)別處理中</p><p>  的難點(diǎn),而傳統(tǒng)的濾波器消噪方法在處理短時(shí)瞬態(tài)信號(hào)、含有寬帶噪聲信號(hào)時(shí)并不

62、是</p><p>  很理想,目前比較流行的小波消噪法也能取得較好的效果,但是其計(jì)算量比較大,同</p><p>  時(shí)在高信噪比的時(shí)候有一定的局限性。這就需要尋找一種可靠的方法進(jìn)行語(yǔ)音降噪處</p><p>  理。基于這樣一種狀況,本文采用了一種有效的技術(shù)用于語(yǔ)音的消噪處理。</p><p>  §1.2 語(yǔ)音識(shí)別研究的發(fā)展?fàn)?/p>

63、況</p><p>  從對(duì)利用機(jī)械裝置實(shí)現(xiàn)人類語(yǔ)言的好奇以及期望人機(jī)間能夠自動(dòng)完成簡(jiǎn)單的任</p><p>  務(wù),到研究自動(dòng)語(yǔ)音識(shí)別(和語(yǔ)音合成)已經(jīng)經(jīng)歷了 60 多年。最早始于 20 世紀(jì) 30 年</p><p>  代研究的語(yǔ)音識(shí)別系統(tǒng)是說(shuō)話人辨認(rèn),而主要依靠人耳的聽(tīng)辨進(jìn)行性能分析。在經(jīng)過(guò)</p><p>  二十多年的發(fā)展后,在

64、50 年代最早的 10 個(gè)英語(yǔ)數(shù)字識(shí)別系統(tǒng)首次由 Bell 實(shí)驗(yàn)室研</p><p>  制成功,其識(shí)別方法是根據(jù)語(yǔ)音的共振峰提取出若干特征參數(shù)來(lái)建立語(yǔ)音參考模</p><p>  型,再比較未知語(yǔ)音與語(yǔ)音參考模型的相關(guān)度來(lái)進(jìn)行識(shí)別, 該系統(tǒng)得到 98%的</p><p>  正確率。同時(shí)隨著計(jì)算機(jī)應(yīng)用的發(fā)展,語(yǔ)音識(shí)別研究工作逐步取得了實(shí)質(zhì)性進(jìn)步。</p>

65、;<p>  60 年代,動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)和線性預(yù)測(cè)分析技術(shù)(Linear Pr-</p><p>  ediction,LP) [3]被提出,有效的解決了在對(duì)語(yǔ)音信號(hào)的參數(shù)序列進(jìn)行比較時(shí)出現(xiàn)的時(shí)</p><p>  長(zhǎng)不等的難題以及特征提取問(wèn)題;尤其是 LP 技術(shù),其較好地解決了語(yǔ)音信號(hào)產(chǎn)生模</p><p>

66、  型的問(wèn)題,且對(duì)語(yǔ)音識(shí)別技術(shù)的發(fā)展產(chǎn)生了深遠(yuǎn)影響。</p><p>  70 年代,語(yǔ)音識(shí)別技術(shù)取得了一系列具有里程碑意義的成績(jī)。在 70 年代初期,</p><p>  動(dòng)態(tài)規(guī)劃方法、線性預(yù)測(cè)技術(shù)等基礎(chǔ)研究在理論上得到進(jìn)一步的發(fā)展。孤立詞和孤立</p><p>  語(yǔ)句的語(yǔ)音識(shí)別在實(shí)踐中成為了可行的有用技術(shù),而被提出的 VQ 技術(shù)在語(yǔ)音編碼中</p>

67、<p>  取得了成功,同時(shí)由普林斯頓大學(xué)的萊尼鮑姆與高級(jí)研究計(jì)劃局(ARPA)共同研發(fā)的</p><p>  HMM 也獲得了初步效果。在這一時(shí)期,IBM 和 AT&T Bell 這兩個(gè)實(shí)驗(yàn)室對(duì)語(yǔ)音識(shí)別</p><p>  系統(tǒng)的商業(yè)化發(fā)展形成了兩個(gè)不同的方向:其中 IBM 的目的[4]是設(shè)計(jì)一個(gè)能夠?qū)⒄f(shuō)</p><p>  話人的語(yǔ)句轉(zhuǎn)換成

68、可以在屏幕上顯示或在報(bào)紙上被打印出的句子或詞的聲控打字機(jī),</p><p>  其技術(shù)的重點(diǎn)是識(shí)別詞匯量的大小和從統(tǒng)計(jì)意義上來(lái)說(shuō)的在語(yǔ)音信號(hào)中可能出現(xiàn)的</p><p>  語(yǔ)法規(guī)則的語(yǔ)言模型結(jié)構(gòu),這為之后引進(jìn)的 N-gram 語(yǔ)言模型奠定了基礎(chǔ),目前 N-gram</p><p>  語(yǔ)言模型已成為大詞匯量語(yǔ)音識(shí)別系統(tǒng)不可缺少的一部分;AT&T Bell

69、為了給公眾提</p><p>  供自動(dòng)電話服務(wù),例如語(yǔ)音撥號(hào)以及指揮和控制電話呼叫路由,對(duì)能夠處理各類口音</p><p><b>  - 2 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  第一章 緒論</b></p>&

70、lt;p>  的非特定說(shuō)話人系統(tǒng)進(jìn)行了研究,在研究的同時(shí)為了給各類說(shuō)話人的文字和語(yǔ)音創(chuàng)建</p><p>  參考模型,產(chǎn)生了一系列語(yǔ)音聚類算法。在這一時(shí)期語(yǔ)音的抗噪技術(shù)也逐漸被人重視 ,</p><p>  1978 年在最小均方準(zhǔn)則下采用維納濾波方法進(jìn)行抗噪,1979 年 Boll 提出了譜減法即</p><p>  從帶噪語(yǔ)音的功率譜中減去噪聲功率譜來(lái)抑

71、制噪聲。</p><p>  80 年代,由于大規(guī)模集成電路技術(shù)與語(yǔ)音理論技術(shù)的飛速發(fā)展,語(yǔ)音信號(hào)處理</p><p>  技術(shù)產(chǎn)品化出現(xiàn)了熱潮。語(yǔ)音識(shí)別研究進(jìn)一步走向深入,連續(xù)詞語(yǔ)識(shí)別研究取代孤立</p><p>  詞語(yǔ)識(shí)別研究,成為這一時(shí)期研究的熱點(diǎn)[5]。</p><p>  80 年代語(yǔ)音識(shí)別研究的特點(diǎn)是從基于模板的直觀方法朝著更加

72、嚴(yán)格的統(tǒng)計(jì)模型</p><p>  方法進(jìn)行轉(zhuǎn)變,尤其是轉(zhuǎn)向研究 HMM 的理論、方法和實(shí)現(xiàn)問(wèn)題。盡管在 60 年代 HMM</p><p>  就被提出,并于 70 年代在語(yǔ)音識(shí)別系統(tǒng)中使用,由于其數(shù)學(xué)模型艱澀難以被理解,</p><p>  直到 80 年代中期其理論和方法被廣泛發(fā)表以后才被更多研究者了解和認(rèn)識(shí)。美國(guó)卡</p><p> 

73、 內(nèi)基-梅隆大學(xué)于 1988 年以 HMM 模型建立的非特定人和大詞匯量的連續(xù)語(yǔ)音識(shí)別系</p><p>  統(tǒng)即 SPHINX 系統(tǒng)被認(rèn)為是語(yǔ)音識(shí)別歷史的一個(gè)里程碑。由于 HMM 理論的成熟、計(jì)</p><p>  算簡(jiǎn)便、性能高效的特點(diǎn),HMM 成為了語(yǔ)音識(shí)別的首選方法。在過(guò)去二十多年里,</p><p>  作為語(yǔ)音識(shí)別基礎(chǔ)模型的 HMM,隨著其技術(shù)不斷的改進(jìn)

74、與創(chuàng)新,其普及程度與使用</p><p><b>  程度一直保持不變。</b></p><p>  另一技術(shù)即人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)于 80 年代末被引入到</p><p>  語(yǔ)音識(shí)別系統(tǒng)。實(shí)際上 ANN 最早于 50 年代就開(kāi)始被研究了,但是初步成效未能顯</p><

75、p>  示,隨著基礎(chǔ)理論的深入研究,也得到了較大的發(fā)展。其實(shí)質(zhì)上是在模擬了人類神</p><p>  經(jīng)活動(dòng)基礎(chǔ)上的一個(gè)具有自適應(yīng)性、并行處理等優(yōu)點(diǎn)的自適應(yīng)非線性動(dòng)力學(xué)系</p><p>  統(tǒng)。用于語(yǔ)音識(shí)別的 ANN 在早期的嘗試過(guò)程中,主要集中在簡(jiǎn)單的任務(wù)上,例</p><p>  如識(shí)別幾個(gè)音素或少量詞(孤立數(shù)字),其效果比較好 [6]。神經(jīng)網(wǎng)絡(luò)模型雖然

76、有很</p><p>  強(qiáng)的模式分類能力,但有網(wǎng)絡(luò)結(jié)構(gòu)難以確定、容易過(guò)學(xué)習(xí)以及泛化能力差等缺點(diǎn)。</p><p>  90 年代,模式識(shí)別領(lǐng)域發(fā)生了巨大革新。傳統(tǒng)上遵循貝葉斯框架和數(shù)據(jù)要求分</p><p>  布估計(jì)的模式識(shí)別問(wèn)題轉(zhuǎn)化為一個(gè)具有最小經(jīng)驗(yàn)識(shí)別誤差的優(yōu)化問(wèn)題[7]。對(duì)于語(yǔ)音信</p><p>  號(hào)無(wú)法準(zhǔn)確選擇或定義的識(shí)別分布

77、函數(shù)造成了范式的根本性變化,同時(shí)貝葉斯決策理</p><p>  論在這種情況下將不適用。畢竟,一個(gè)識(shí)別器的設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)最小識(shí)別誤差而不是</p><p>  通過(guò)貝葉斯準(zhǔn)則使分布函數(shù)對(duì)已知的數(shù)據(jù)集進(jìn)行最佳擬合。隨后分類或經(jīng)驗(yàn)誤差最小</p><p>  化概念催生了大量的技術(shù),其中包括分類訓(xùn)練和基于內(nèi)核的方法,例如已成為研究的</p><p&

78、gt;  熱門(mén)課題的 SVM[8][9]。</p><p>  90 年代以來(lái),語(yǔ)音信號(hào)處理在實(shí)用化方面也已經(jīng)取得了許多實(shí)質(zhì)性進(jìn)展,而與</p><p>  此同時(shí),各個(gè)應(yīng)用學(xué)科的不斷進(jìn)行交錯(cuò)發(fā)展,語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域也越來(lái)越廣闊,例</p><p>  如車(chē)載語(yǔ)音識(shí)別系統(tǒng)、移動(dòng)互聯(lián)網(wǎng)語(yǔ)音識(shí)別等。隨著信號(hào)特征的提取和優(yōu)化技術(shù)、聲</p><p>

79、;  學(xué)模型的細(xì)化、自然語(yǔ)音理解領(lǐng)域中語(yǔ)言模型的建立和解碼搜索算法技術(shù)的不斷成</p><p>  熟,出現(xiàn)了比較成功的大詞匯量、連續(xù)語(yǔ)音識(shí)別系統(tǒng),例如 IBM 的 Via Voice 系 列 、</p><p><b>  - 3 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p

80、>  基于 BSS 和 SVM 的語(yǔ)音識(shí)別技術(shù)研究</p><p>  Microsoft 的 Whisper 等,這些系統(tǒng)大多基于 HMM 的聲學(xué)模型。而隨著中國(guó)在國(guó)際上</p><p>  地位的提升,漢語(yǔ)語(yǔ)音識(shí)別也越來(lái)越受到國(guó)外的關(guān)注,目前代表著漢語(yǔ)識(shí)別最高水平</p><p>  的兩個(gè)系統(tǒng)分別為 IBM 推出的 Via Voice 和 Microso

81、ft 發(fā)布的中文識(shí)別引擎。</p><p>  在抗噪方面也有了新的發(fā)展,即軟判決法和 MMSE 短時(shí)譜估計(jì)也被用于抑制噪</p><p>  聲,1987 年 pailwal 和 Basu 將卡爾曼濾波用于語(yǔ)音識(shí)別領(lǐng)域[10],小波去噪也被廣泛</p><p>  采用。目前語(yǔ)音識(shí)別消噪處理方法主要有以下幾方面[11]:第一是尋找穩(wěn)健的語(yǔ)音參數(shù) ;</p&g

82、t;<p>  第二是語(yǔ)音增強(qiáng)方法,即在語(yǔ)音識(shí)別系統(tǒng)前端進(jìn)行預(yù)處理來(lái)提高輸入信號(hào)的信噪比;</p><p>  第三是基于模型的噪聲補(bǔ)償方法。</p><p>  我國(guó)的語(yǔ)音識(shí)別研究相對(duì)于國(guó)外起步較晚,最早始于 1958 年,由中國(guó)科學(xué)院聲</p><p>  學(xué)所利用電子管電路識(shí)別 10 個(gè)元音。俞鐵城教授在 1977 年發(fā)表了國(guó)內(nèi)的第一篇語(yǔ)音<

83、;/p><p>  識(shí)別的論文。在 1979 年首個(gè)語(yǔ)音技術(shù)中心由方棣棠教授和吳文虎教授創(chuàng)建。1986 年</p><p>  我國(guó)高科技發(fā)展計(jì)劃(863 計(jì)劃)啟動(dòng),語(yǔ)音識(shí)別作為智能計(jì)算機(jī)系統(tǒng)研究的一個(gè)重要</p><p>  組成部分而被專門(mén)列為研究課題。各個(gè)研究機(jī)構(gòu)和高校紛紛投身到這一領(lǐng)域,在經(jīng)過(guò)</p><p>  了二十多年的發(fā)展后,已

84、經(jīng)取得了豐碩的成果。其中的非特定人、大詞匯連續(xù)語(yǔ)音識(shí)</p><p>  別的研究獲得了巨大的突破,其準(zhǔn)確率與國(guó)外最高水平相近。</p><p>  §1.3 本論文的主要工作和內(nèi)容安排</p><p>  本文主要工作是把盲分離算法與卡爾曼濾波器結(jié)合應(yīng)用在以 SVM 為語(yǔ)音模型的</p><p>  語(yǔ)音識(shí)別系統(tǒng)前端,目的是消除混

85、雜在語(yǔ)音中的干擾噪聲,提取出目標(biāo)語(yǔ)音信號(hào)以用</p><p>  于后端的語(yǔ)音識(shí)別系統(tǒng)。并針對(duì)在普通語(yǔ)音條件下,直接建立 SVM 語(yǔ)音模型存在著</p><p>  特征參數(shù)的維數(shù)很高、運(yùn)算量和內(nèi)存需求非常大等問(wèn)題,在研究 VQ 模型的 K-means</p><p>  聚類算法的基礎(chǔ)上提出新的 SAHKC 算法,并與 SVM 結(jié)合用于語(yǔ)音的訓(xùn)練與識(shí)別,</

86、p><p>  較好的處理了大規(guī)模樣本集問(wèn)題。</p><p>  本論文的主要內(nèi)容安排如下:</p><p>  第一章主要介紹了課題研究背景與意義,國(guó)內(nèi)外研究的發(fā)展?fàn)顩r及文章結(jié)構(gòu)安</p><p><b>  排;</b></p><p>  第二章對(duì)語(yǔ)音識(shí)別系統(tǒng)的整體結(jié)構(gòu)進(jìn)行了闡述,主要是論述了

87、識(shí)別單元、特征參</p><p>  數(shù)以及聲學(xué)模型的確定;</p><p>  第三章對(duì)在噪聲環(huán)境下的語(yǔ)音識(shí)別進(jìn)行了研究,提出了一個(gè)通過(guò)盲源分離技術(shù)和</p><p>  卡爾曼濾波器結(jié)合的算法進(jìn)行語(yǔ)音識(shí)別系統(tǒng)消噪。通過(guò)實(shí)驗(yàn)在噪聲環(huán)境下對(duì)系統(tǒng)進(jìn)行</p><p>  了檢測(cè),最后驗(yàn)證了此算法的可行性;</p><p>

88、;  第四章是詳細(xì)介紹了本文語(yǔ)音識(shí)別系統(tǒng)的主要算法及其改進(jìn),主要有音節(jié)切分算</p><p>  法、碼本優(yōu)化算法、SVM 模型的訓(xùn)練與識(shí)別算法,并從以下幾個(gè)方面對(duì)該系統(tǒng)的性</p><p>  能影響進(jìn)行了實(shí)驗(yàn)驗(yàn)證分析,即碼本設(shè)計(jì)及容量、語(yǔ)音在噪聲環(huán)境下通過(guò)消噪處理后</p><p><b>  - 4 -</b></p>&l

89、t;p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  第一章 緒論</b></p><p>  的識(shí)別性能以及不同核函數(shù)對(duì) SVM 構(gòu)建的語(yǔ)音識(shí)別的影響,并將本文改進(jìn)的</p><p>  VQ/SVM 與原有的 SVM 識(shí)別模型在不同測(cè)試集中進(jìn)行了性能對(duì)比分析;</p><p>

90、  第五章是總結(jié)與前景展望。</p><p><b>  - 5 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p>  基于 BSS 和 SVM 的語(yǔ)音識(shí)別技術(shù)研究</p><p>  第二章 語(yǔ)音識(shí)別系統(tǒng)的基本原理</p><p>  語(yǔ)音識(shí)別[12

91、]就是一門(mén)研究讓機(jī)器能夠聽(tīng)懂人類語(yǔ)言的學(xué)問(wèn),其與語(yǔ)音合成相結(jié)合</p><p>  就構(gòu)成了一個(gè)完整的“人機(jī)對(duì)話通信系統(tǒng)”;通常存在兩種方式,一種是將口述語(yǔ)言</p><p>  轉(zhuǎn)換成相應(yīng)的文字,另一種是根據(jù)口述語(yǔ)言所包含的意思做出正確的指示。</p><p>  §2.1 語(yǔ)音識(shí)別系統(tǒng)的基本結(jié)構(gòu)</p><p>  一個(gè)完整的連

92、續(xù)語(yǔ)音識(shí)別系統(tǒng)可分為訓(xùn)練與識(shí)別兩部分:訓(xùn)練就是建模的過(guò)程,</p><p>  預(yù)先分析出語(yǔ)音特征參數(shù),制作出語(yǔ)音模板并存放在語(yǔ)音參數(shù)庫(kù)中;識(shí)別就是將待識(shí)</p><p>  別的語(yǔ)音經(jīng)過(guò)與訓(xùn)練時(shí)相同的分析,得到語(yǔ)音參數(shù)并與庫(kù)中的參數(shù)模板進(jìn)行比較,同</p><p>  時(shí)采用判決方法找出最接近語(yǔ)音特征的模板,從而得出識(shí)別結(jié)果。語(yǔ)音識(shí)別系統(tǒng)的基</p>

93、<p><b>  本構(gòu)成如下圖所示:</b></p><p><b>  語(yǔ)</b></p><p><b>  法</b></p><p><b>  識(shí)</b></p><p><b>  別</b></p&g

94、t;<p><b>  語(yǔ)</b></p><p><b>  音</b></p><p><b>  特征參數(shù)</b></p><p><b>  提 取</b></p><p><b>  模式匹配</b></

95、p><p><b>  判</b></p><p><b>  別</b></p><p><b>  識(shí)</b></p><p><b>  輸</b></p><p><b>  別</b></p>

96、<p><b>  出</b></p><p><b>  訓(xùn)</b></p><p><b>  練</b></p><p><b>  模</b></p><p><b>  板</b></p><

97、;p>  圖 2.1 語(yǔ)音識(shí)別系統(tǒng)結(jié)構(gòu)圖</p><p>  由上可以看出語(yǔ)音識(shí)別系統(tǒng)主要由三部分組成,即特征提取、聲學(xué)模型和語(yǔ)言模</p><p>  型。語(yǔ)言模型是指在匹配搜索時(shí)用于字詞和路徑約束的語(yǔ)言規(guī)則,一般在中小詞匯量</p><p>  連續(xù)語(yǔ)音識(shí)別中可以不考慮語(yǔ)言模型,因此本文不對(duì)該模型進(jìn)行討論。而對(duì)于連續(xù)語(yǔ)</p><p&g

98、t;  音識(shí)別來(lái)說(shuō),識(shí)別單元的選取也將對(duì)識(shí)別性能有著一定的影響,因此本章主要解決三</p><p><b>  個(gè)問(wèn)題:</b></p><p>  (1)識(shí)別單元的確定;</p><p> ?。?)特征參數(shù)的確定;</p><p>  (3)聲學(xué)模型的確定;</p><p><b> 

99、 §2.2 預(yù)處理</b></p><p>  語(yǔ)音信號(hào)在被分析及處理前先需要進(jìn)行預(yù)處理[13],即采樣、預(yù)加重、分幀和加窗 :</p><p><b>  1.采樣</b></p><p>  采樣是將連續(xù)的語(yǔ)音模擬信號(hào)離散化的過(guò)程,一般地為了使完整的語(yǔ)音信息不被</p><p>  丟失,信號(hào)的

100、采樣頻率須高于該語(yǔ)音信號(hào)的最高頻率成分的 2 倍。由于人類的語(yǔ)音信</p><p><b>  - 6 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p>  第二章 語(yǔ)音識(shí)別系統(tǒng)的基本概述</p><p>  號(hào)的頻帶大約是 300~3400HZ,因此通常情況下,采樣頻率至少

101、要大于或等于 8000Hz。</p><p>  采樣過(guò)后的量化就是用有限的電平去表示模擬采樣值的過(guò)程,當(dāng)用計(jì)算機(jī)來(lái)錄制語(yǔ)音</p><p>  時(shí)通常由計(jì)算機(jī)的聲卡自動(dòng)完成以上過(guò)程的。</p><p><b>  2.預(yù)加重</b></p><p>  由于語(yǔ)音信號(hào)的平均功率譜受聲門(mén)激勵(lì)和口鼻輻射影響,高頻端大約在 8

102、00Hz</p><p>  以上按 6dB/倍頻程跌落,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的</p><p>  難求,為此要在預(yù)處理中進(jìn)行預(yù)加重處理,目的是提升語(yǔ)音信號(hào)的高頻成分,使語(yǔ)音</p><p>  信號(hào)的頻譜變得平坦和降低尖銳噪聲的影響。一般是將語(yǔ)音信號(hào)通過(guò)一個(gè)一階的數(shù)字</p><p><b>  濾波

103、器:</b></p><p>  H (Z )?? 1???? z??1</p><p><b>  (2-2-1)</b></p><p>  式中?? 為預(yù)加重系數(shù),值接近于 1。</p><p><b>  3.分幀</b></p><p>  由于人在發(fā)音

104、時(shí)發(fā)聲器官的運(yùn)動(dòng)存在一定的慣性,在很短的時(shí)間內(nèi)發(fā)聲器官的狀</p><p>  態(tài)可被視為不變的,因此語(yǔ)音信號(hào)被認(rèn)為具有短時(shí)平穩(wěn)特性,則可通過(guò)對(duì)其進(jìn)行短時(shí)</p><p>  處理即分幀使之具有短時(shí)平穩(wěn)性。通常取 10ms-30ms 的信號(hào)采樣量化值作為一幀,</p><p>  同時(shí)為了連續(xù)性,幀之間需要 30%-50%的重疊。</p><p&

105、gt;<b>  第K幀</b></p><p><b>  第K+1幀</b></p><p><b>  第K+2幀</b></p><p><b>  幀</b></p><p><b>  移</b></p>&

106、lt;p><b>  幀</b></p><p><b>  長(zhǎng)</b></p><p><b>  圖 2.2</b></p><p><b>  幀長(zhǎng)與幀移</b></p><p><b>  4.加窗</b></p&

107、gt;<p>  通常采用一個(gè)長(zhǎng)度有限的窗函數(shù)來(lái)截取語(yǔ)音信號(hào)形成分析幀,窗函數(shù) w(n) 將需</p><p>  處理區(qū)域之外的樣點(diǎn)置零,來(lái)獲得當(dāng)前語(yǔ)音幀。設(shè)定幀長(zhǎng)度為 N ,對(duì)已取出的一幀語(yǔ)</p><p>  音 s(n) 進(jìn)行加窗處理,就是用一定的窗函數(shù) w(n) 來(lái)乘以 s(n) ,得到加窗后的語(yǔ)音</p><p><b>  sw

108、 (n) :</b></p><p>  sw (n)?? s(n)?? w(n)</p><p>  常用的窗函數(shù)為矩形窗和漢明窗等。</p><p><b>  矩形窗:</b></p><p>  0?≤ n?≤ (N??1)</p><p><b>  (2-2-2)

109、</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p><b>  漢明窗:</b></p><p>  ?1 0?≤ n?≤ N??1</p><p><b>  其他</b></p><p>  ?0.54?? 0.46

110、cos[2? n ( N??1)] 0?≤ n?≤ N??1</p><p><b>  其他</b></p><p><b>  - 7 -</b></p><p><b>  (2-2-3)</b></p><p><b>  (2-2-4)</b>&

111、lt;/p><p>  基于 BSS 和 SVM 的語(yǔ)音識(shí)別技術(shù)研究</p><p>  經(jīng)過(guò)上面介紹的預(yù)處理,采樣后的語(yǔ)音信號(hào)就被分割成一幀一幀的短時(shí)語(yǔ)音信</p><p>  號(hào),然后再把每一個(gè)短時(shí)語(yǔ)音幀看成平穩(wěn)的隨機(jī)信號(hào),利用數(shù)字信號(hào)處理技術(shù)來(lái)提取</p><p><b>  語(yǔ)音特征參數(shù)。</b></p>

112、<p>  §2.3 語(yǔ)音識(shí)別單元的確定</p><p>  在語(yǔ)音識(shí)別中,通常需要判別輸入的語(yǔ)音信號(hào)哪些是語(yǔ)音部分,哪些是非語(yǔ)音部</p><p>  分。而在漢語(yǔ)連續(xù)語(yǔ)音識(shí)別中,由于語(yǔ)音中短語(yǔ)的數(shù)量過(guò)大,對(duì)整個(gè)短語(yǔ)進(jìn)行整體識(shí)</p><p>  別顯然是不可能實(shí)現(xiàn)的,需要將輸入的語(yǔ)流切分成較小的組成部分,并且使識(shí)別單元</p>

113、<p>  滿足以下特征:第一,在識(shí)別率不受影響的情況下選取的最小單元數(shù)要滿足訓(xùn)練所需</p><p>  求的,即可訓(xùn)練性;第二,針對(duì)不同的人、不同的口音時(shí)識(shí)別單元能夠容易被提取且</p><p>  提取的一致性好,即良好的檢測(cè)性;第三,選取的單元具有較強(qiáng)魯棒性,即當(dāng)單元的</p><p>  提取有誤差時(shí)不對(duì)系統(tǒng)的識(shí)別率有明顯影響。漢語(yǔ)識(shí)別單元的

114、選取可以有多種形式</p><p>  [14]:詞或短語(yǔ)、音節(jié)(漢語(yǔ)中的字)、聲韻母以及音素等。</p><p>  以詞或短語(yǔ)作為基元,由于詞與語(yǔ)義理解相關(guān),其切分比較困難;且當(dāng)詞匯量較</p><p>  大時(shí),基元的數(shù)量非常龐大,訓(xùn)練時(shí)的工作量和運(yùn)算量巨大。</p><p>  當(dāng)采用聲韻母作為識(shí)別基元時(shí),除需要用到能量與過(guò)零率參數(shù)外

115、,還需用到語(yǔ)言</p><p>  學(xué)知識(shí),盡管聲韻母模型的單元數(shù)量較少,漢語(yǔ)普通話中總計(jì)有 21 個(gè)聲母和 38 個(gè)韻</p><p>  母;但是根據(jù)聲學(xué)角度來(lái)看,由于聲韻母之間的協(xié)同發(fā)音會(huì)導(dǎo)致很難確定聲韻母之間</p><p>  的邊界,同時(shí)在不同的發(fā)音方式下,同一基元的檢測(cè)一致性較差。</p><p>  而將音素作為識(shí)別單元是無(wú)意

116、義的,因?yàn)闈h語(yǔ)的音素除聲母外都是不穩(wěn)定的,同</p><p>  時(shí)韻母中的各音素,是許多過(guò)度性的音素串,切分它比較困難。</p><p>  音節(jié)是漢語(yǔ)普通話發(fā)音的最小單位。從語(yǔ)音心理學(xué)的角度來(lái)看,音節(jié)也是基本的</p><p>  語(yǔ)音感知單位,每個(gè)漢語(yǔ)音節(jié)內(nèi)部結(jié)構(gòu)緊密。由聲母、韻母和聲調(diào)組成的有調(diào)音節(jié)約</p><p>  為 1282

117、 個(gè),如果不考慮聲調(diào),則僅有 412 個(gè)音節(jié)。盡管總的基元數(shù)量較大,但是音</p><p>  節(jié)之間協(xié)同發(fā)音現(xiàn)象沒(méi)有音素和聲韻母那樣嚴(yán)重,相對(duì)來(lái)說(shuō),比較容易確定音節(jié)之間</p><p><b>  的邊界。</b></p><p>  針對(duì)以上常用的識(shí)別單元,從詞匯量、系統(tǒng)的計(jì)算復(fù)雜度、存儲(chǔ)量以及單元的穩(wěn)</p><p&g

118、t;  定性等因素考慮,音節(jié)的切分是最容易的,因此本文研究的語(yǔ)音識(shí)別單元是音節(jié)單元 。</p><p>  §2.4 語(yǔ)音特征參數(shù)確定</p><p>  特征提取主要是利用信號(hào)處理技術(shù)來(lái)處理輸入的語(yǔ)音信號(hào),選擇可利用的特征子</p><p>  集以便在經(jīng)驗(yàn)?zāi)P椭惺褂玫倪^(guò)程,其方式是重要的且不是唯一的。同時(shí)提取出的特征</p><p&

119、gt;  參數(shù)應(yīng)滿足一下特點(diǎn):(1)能夠充分體現(xiàn)不同識(shí)別單元之間的差異;(2)對(duì)同一識(shí)別單</p><p>  元在不同的發(fā)音方式下的差異不明顯,表現(xiàn)出很強(qiáng)的惰性; (3)對(duì)噪聲具有很強(qiáng)的魯</p><p><b>  - 8 -</b></p><p><b>  萬(wàn)方數(shù)據(jù)</b></p><p>

120、;  第二章 語(yǔ)音識(shí)別系統(tǒng)的基本概述</p><p>  棒性;(4)特征的計(jì)算量盡可能小。在目前的語(yǔ)言識(shí)別系統(tǒng)中常用兩種特征參數(shù),分</p><p>  別是線性預(yù)測(cè)倒譜系數(shù)(Linear prediction cepstrum coefficient,LPCC)和梅爾頻率倒譜</p><p>  系數(shù)(Mel frequency cepstrum coeffic

121、ient,MFCC)。</p><p>  LPCC 是基于人的發(fā)聲機(jī)理,考慮了語(yǔ)音樣點(diǎn)之間的相關(guān)性,利用線性預(yù)測(cè)的方</p><p>  法,由語(yǔ)音信號(hào)聲道系統(tǒng)函數(shù)的全極點(diǎn)模型導(dǎo)出的。LPCC 參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,</p><p>  易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力較差,抗噪聲性</p><p>  能較差。

122、MFCC 不同于 LPCC,它是語(yǔ)音識(shí)別中另一個(gè)常用的語(yǔ)音特征參量,其計(jì)算</p><p>  是基于語(yǔ)音信號(hào)的濾波器組分析。語(yǔ)音信號(hào)濾波器組分析的理論依據(jù)是基于人對(duì)語(yǔ)音</p><p>  感知的兩個(gè)基本事實(shí)。首先,人的大腦皮層對(duì)單個(gè)音調(diào)的感知強(qiáng)度近似與該音調(diào)頻率</p><p>  的對(duì)數(shù)成正比。其次,對(duì)于復(fù)雜的語(yǔ)音信號(hào),人耳不能有效的區(qū)分某一中心頻率附近<

123、;/p><p>  一定帶寬內(nèi)語(yǔ)音信號(hào)的所有頻率分量。只有當(dāng)這個(gè)語(yǔ)音信號(hào)的某一成分落在一定的帶</p><p>  寬之外,才能被人耳有效的區(qū)分開(kāi)。這個(gè)帶寬稱為臨界帶寬。Mel 頻率表達(dá)了一種常</p><p>  用的從語(yǔ)音頻率到感知頻率的對(duì)應(yīng)關(guān)系,其表達(dá)式為:</p><p>  Mel( f )?? 2595?? log10 (1?? f

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論