版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、<p> 獨創(chuàng)性(或創(chuàng)新性)聲明</p><p> 本人聲明所呈交的論文是我個人在導(dǎo)師指導(dǎo)下進行的研究工作及取得的研究成</p><p> 果。盡我所知,除了文中特別加以標注和致謝中所羅列的內(nèi)容以外,論文中不包含其</p><p> 他人已經(jīng)發(fā)表或撰寫過的研究成果;也不包含為獲得桂林電子科技大學或其它教育機</p><p>
2、 構(gòu)的學位或證書而使用過的材料。與我一同工作的同志對本研究所做的任何貢獻均已</p><p> 在論文中做了明確的說明并表示了謝意。</p><p> 申請學位論文與資料若有不實之處,本人承擔一切相關(guān)責任。</p><p><b> 本人簽名:</b></p><p><b> 日期:</b&g
3、t;</p><p> 關(guān)于論文使用授權(quán)的說明</p><p> 本人完全了解桂林電子科技大學有關(guān)保留和使用學位論文的規(guī)定,即:研究生在</p><p> 校攻讀學位期間論文工作的知識產(chǎn)權(quán)單位屬桂林電子科技大學。本人保證畢業(yè)離校</p><p> 后,發(fā)表論文或使用論文工作成果時署名單位仍然為桂林電子科技大學。學校有權(quán)保</p&
4、gt;<p> 留送交論文的復(fù)印件,允許查閱和借閱論文;學??梢怨颊撐牡娜炕虿糠謨?nèi)容,</p><p> 可以允許采用影印、縮印或其它復(fù)制手段保存論文。(保密的論文在解密后遵守此規(guī)</p><p><b> 定)</b></p><p> 本學位論文屬于保密在_____年解密后適用本授權(quán)書。</p>&l
5、t;p><b> 本人簽名:</b></p><p><b> 導(dǎo)師簽名:</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 日期:</b></p><p><b> 日期:</b><
6、/p><p><b> 摘 要</b></p><p><b> 摘 要</b></p><p> 隨著計算機技術(shù)的飛速發(fā)展,目前語音識別技術(shù)的研究已有了實質(zhì)性的突破。</p><p> 本文在已有的研究成果上,對以 SVM 為聲學模型的連續(xù)語音識別系統(tǒng)進行了相</p><p
7、> 關(guān)的改進:針對連續(xù)語音識別單元對系統(tǒng)性能有著直接影響的問題,選取了音節(jié)作為</p><p> 識別單元并通過動態(tài)循環(huán)雙門限起止點前后向搜索方法基本實現(xiàn)了每個獨立音節(jié)能</p><p> 夠被完整的切分出來;同時為了使 SVM 模型獲得較好的訓(xùn)練數(shù)據(jù),在 SVM 模型訓(xùn)</p><p> 練前利用 VQ 對高維語音參數(shù)進行聚類即碼本設(shè)計,并在 VQ
8、中引入 SAHKC 方法對</p><p> 語音信號的 MFCC 參數(shù)聚類,比傳統(tǒng)的 K-means 方法的聚類效果更優(yōu)越。</p><p> 由于實際環(huán)境中存在的各種噪聲會導(dǎo)致訓(xùn)練環(huán)境和識別環(huán)境不匹配,使得大多在</p><p> 實驗室中具有較高識別率的語音識別系統(tǒng)在噪聲環(huán)境下的性能急劇下降。常規(guī)的消噪</p><p> 技術(shù)雖
9、然對噪聲的抑制有一定的作用,但是存在一定的局限性。針對此種情況,本文</p><p> 在語音識別系統(tǒng)的前端采用了盲分離技術(shù)(BSS)與卡爾曼濾波器相結(jié)合的方法對含噪</p><p> 語音進行消噪處理,使噪聲與目標語音信號自動分離,以得到較為純凈的目標語音信</p><p><b> 號。</b></p><p>
10、; 最后在 MATLAB 平臺上進行仿真實驗分析,從三個方面即碼本設(shè)計及容量、盲</p><p> 分離和卡爾曼濾波器構(gòu)建的消噪方法以及 SVM 核函數(shù)對 VQ-SVM 語音識別系統(tǒng)進</p><p> 行了相關(guān)實驗,并將改進的 VQ-SVM 模型與原有的 SVM 模型在特定人和非特定人測</p><p> 試集下進行實驗對比分析,驗證了改進的碼本設(shè)計算法和
11、抗噪方法對系統(tǒng)性能有一定</p><p><b> 的提高。</b></p><p> 關(guān)鍵詞:語音識別;SVM;SAHKC;盲分離(BSS)</p><p><b> - I -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p&g
12、t;<b> Abstract</b></p><p><b> Abstract</b></p><p> With the rapid development of computer technology, the research of speech</p><p> recognition technolo
13、gy has a substantial breakthrough.</p><p> In this paper, aimming at the existing research results, some improvements are made</p><p> for the continuous speech recognition system with the aco
14、ustic model based SVM. For the</p><p> issue of the unit of continuous speech recognition has a direct impact on system</p><p> performance, the syllable is selected as a recognition unit. Eac
15、h individual syllable out of a</p><p> complete segmentation can be achieved by dynamic loop of beginning and ending points</p><p> search to before and after method. Meanwhile, in order to ob
16、tain better training data for</p><p> SVM model, before using the SVM model, high-dimensional speech parameters are</p><p> clustered by VQ. SAHKC method is introduced for clustering the MFCC
17、parameters of</p><p> speech and is more effect than the traditional K-means method.</p><p> Because in a real environment, noise will lead a dismatch of the training environment</p>&l
18、t;p> and recognition environment, and there is a sharp decline for the recognition rate of the</p><p> most speech recognition system from laboratory to noisy environment. Even conventional</p>&
19、lt;p> noise cancellation technology is useful for noise suppression, but also there are some</p><p> limitations. In such cases, the combination technology of Blind signal separation</p><p>
20、; technology and Kalman filter which denoises for speech in noisy environment is used in</p><p> the front-end speech recognition system for automatically separating the noise and target</p><p&g
21、t; speech signal to obtain a more pure target speech signal.</p><p> Finally, simulation is made on the Matlab platform. In the three aspects, the</p><p> simulation experiments of speech rec
22、ognition system based the VQ and SVM model are</p><p> made, that is codebook capacity and design, the anti-noise technology constructed by blind</p><p> source separation and Kalman filter SV
23、M kernel function. And the comparative of</p><p> experiments of the improved VQ-SVM model and original SVM model in different of test</p><p> sets which are particual and non-specific persons
24、 test sets are made, the simulation results</p><p> of the improved algorithm of codebook design and the anti-noise method indicate that</p><p> system performance can be increased.</p>
25、<p> Key words: Speech Recognition;SVM;SAHKC;Blind Signal Separation(BSS)</p><p><b> - II -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 目 錄</b>&
26、lt;/p><p><b> 目 錄</b></p><p><b> 摘要</b></p><p><b> Abstract</b></p><p><b> 目 錄</b></p><p><b> 第一章 緒
27、論</b></p><p><b> I</b></p><p><b> II</b></p><p><b> III</b></p><p><b> 1</b></p><p> 1.1 研究背景與意義
28、......................................................................................................1</p><p> 1.2 語音識別研究的發(fā)展狀況...............................................................................
29、.......2</p><p> 1.3 本論文的主要工作和內(nèi)容安排..............................................................................4</p><p> 第二章 語音識別系統(tǒng)的基本原理</p><p><b> 6</b></p>
30、<p> 2.1 語音識別系統(tǒng)的基本結(jié)構(gòu)......................................................................................6</p><p> 2.2 預(yù)處理.............................................................................
31、.........................................6</p><p> 2.3 語音識別單元的確定...............................................................................................8</p><p> 2.4 語音特征參數(shù)確定...........
32、.......................................................................................8</p><p> 2.5 語音識別模型...................................................................................................
33、......10</p><p> 2.5.1 常用聲學模型..............................................................................................10</p><p> 2.5.2 支持向量機...............................................
34、.................................................... 11</p><p> 2.5.3 矢量量化......................................................................................................17</p><p> 2.5.3
35、.1 VQ 的基本理論............................................................................... 17</p><p> 2.5.3.2 VQ 失真測度................................................................................... 18<
36、;/p><p> 2.5.3.3 碼本設(shè)計.........................................................................................18</p><p> 2.6 本章小結(jié)..................................................................
37、...............................................19</p><p> 第三章 語音在噪聲環(huán)境下的消噪處理</p><p><b> 20</b></p><p> 3.1 盲分離(BSS)基本概念................................................
38、..........................................20</p><p> 3.1.1 盲分離基本模型...........................................................................................20</p><p> 3.1.2 盲分離的不確定性..........
39、.............................................................................21</p><p> 3.1.3 盲分離預(yù)處理...............................................................................................21</p>
40、;<p> 3.2 FastICA 算法.......................................................................................................... 23</p><p> 3.3 噪聲環(huán)境下的噪聲消除..............................................
41、...........................................24</p><p> 3.3.1 盲分離消噪...................................................................................................24</p><p> 3.3.2 實驗結(jié)果及分析....
42、.......................................................................................26</p><p> 3.4 本章小結(jié)....................................................................................................
43、............31</p><p><b> - III -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 目錄</b></p><p> 第四章 語音識別系統(tǒng)的 MATLAB 實現(xiàn)</p><p>&l
44、t;b> 32</b></p><p> 4.1 語音庫簡介.............................................................................................................32</p><p> 4.2 特征參數(shù)提取.......................
45、.................................................................................32</p><p> 4.2.1 語音信號預(yù)處理...........................................................................................32</p&g
46、t;<p> 4.2.2 音節(jié)切分與 MFCC 特征提取......................................................................33</p><p> 4.3 VQ 的碼本優(yōu)化算法...........................................................................
47、................... 37</p><p> 4.4 基于 SVM 的語音訓(xùn)練與識別.............................................................................. 40</p><p> 4.5 實驗分析及結(jié)論.........................................
48、............................................................42</p><p> 4.6 本章小結(jié)................................................................................................................44</p>&
49、lt;p><b> 第五章 總結(jié)與展望</b></p><p><b> 參考文獻</b></p><p><b> 致 謝</b></p><p> 作者在攻讀碩士期間主要研究成果</p><p><b> 萬方數(shù)據(jù)</b></p&
50、gt;<p><b> - IV -</b></p><p><b> 46</b></p><p><b> 47</b></p><p><b> 50</b></p><p><b> 51</b><
51、;/p><p><b> 第一章 緒論</b></p><p><b> 第一章 緒論</b></p><p> §1.1 研究背景與意義</p><p> 語音是對講話聲音的抽象表示,是語言的載體,是人類社會特有的信息系統(tǒng)和用</p><p> 于社會交際的
52、工具符號。所謂的語音識別[1]就是能夠讓機器聽明白人所說的話,其作</p><p> 為一門交叉學科,與人工智能、計算機科學、數(shù)字信號處理等學科領(lǐng)域有著緊密的關(guān)</p><p> 系。根據(jù)語音識別技術(shù)的屬性,可將基本功能歸為兩大類,一是根據(jù)人本身的聲紋特</p><p> 征來進行身份判別認證;二是根據(jù)人發(fā)出特定的語音指令來進行命令控制。隨著計算</p&
53、gt;<p> 機科學技術(shù)、數(shù)字信號處理以及聲學技術(shù)的發(fā)展,使語音識別能夠由理論的研究逐步</p><p> 轉(zhuǎn)化為硬件實現(xiàn),近年來也得到了相當廣泛的應(yīng)用,其主要的應(yīng)用市場可以包括以下</p><p><b> 幾個方面[2]:</b></p><p><b> (1)桌面應(yīng)用</b></p&g
54、t;<p> 語音識別技術(shù)集成應(yīng)用在 PC 機上,不僅可以用來進行身份認證和編輯文本,還</p><p> 可以通過聽取和響應(yīng)用戶講述的命令來運行程序并與操作系統(tǒng)實現(xiàn)交互。</p><p><b> (2)嵌入式應(yīng)用</b></p><p> 嵌入式應(yīng)用的范疇很廣,如手持或移動通訊設(shè)備及家用電器的語音控制和內(nèi)容輸</
55、p><p><b> 入等。</b></p><p><b> (3)電話系統(tǒng)應(yīng)用</b></p><p> 語音識別技術(shù)應(yīng)用于企業(yè)自動語音服務(wù),為企業(yè)提供一種智能化的并且相對安全</p><p> 的自動服務(wù)方式,主要包括企業(yè)的用戶服務(wù)中心(Call-Center)、電話銀行、股票交易、<
56、;/p><p> 電子商務(wù)等應(yīng)用領(lǐng)域。</p><p><b> (4)Web 應(yīng)用</b></p><p> 語音識別技術(shù)與 Web 應(yīng)用相結(jié)合成為了一個新的發(fā)展方向,例如語音瀏覽器、</p><p> 基于 Web Services 的語音遠程控制、語音搜索引擎、網(wǎng)上語音聊天室以及語音網(wǎng)游等 。</p>
57、;<p> (5)行業(yè)特殊應(yīng)用領(lǐng)域</p><p> 語音識別技術(shù)可以為有關(guān)部門提供應(yīng)用方案,節(jié)省大量的人力,提高工作效率。</p><p> 從語音識別技術(shù)開始出現(xiàn)以來,已經(jīng)發(fā)展了近 60 年。目前比較成熟的有矢量量</p><p> 化(Vector Quantitation,VQ)、隱馬爾科夫(Hidden Markov Model,HM
58、M)等模型構(gòu)建</p><p> 的識別系統(tǒng),這些模型在促進語音識別技術(shù)的發(fā)展起了很好的作用,然而也存在著一</p><p> 定的局限性,如 HMM 等模型雖然有很強的動態(tài)時序建模功能力,但存在分類決策能</p><p> 力差等缺點。而近年發(fā)展起來的支持向量機(Support Vector Machine ,SVM)能夠較</p><p
59、> 好的解決小樣本、非線性和局部極小點等問題,同時應(yīng)用于語音識別時能夠有效的解</p><p> 決傳統(tǒng)分類器的過學習、泛化能力差等問題,但是在普通語音條件下,直接利用 SVM</p><p><b> - 1 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p>
60、 基于 BSS 和 SVM 的語音識別技術(shù)研究</p><p> 建模存在著特征參數(shù)的維數(shù)很高,運算量和內(nèi)存需求都非常大等問題。因此針對如</p><p> 何處理大規(guī)模樣本集的訓(xùn)練問題,本文采用了 VQ 與 SVM 結(jié)合的方式。</p><p> 同時有研究表明語音識別系統(tǒng)在無噪聲或干擾的實驗室環(huán)境下,識別率已經(jīng)超過</p><p>
61、 了 95%,但由于實際環(huán)境中背景噪聲的存在,特別是干擾聲音的存在,例如其他說話</p><p> 人的話音、機械噪聲等,這些噪聲有時很強,使得目標語音受到污染,最終導(dǎo)致自動</p><p> 語音識別系統(tǒng)識別性能大大降低。消除語音信號中的干擾噪聲一直是語音識別處理中</p><p> 的難點,而傳統(tǒng)的濾波器消噪方法在處理短時瞬態(tài)信號、含有寬帶噪聲信號時并不
62、是</p><p> 很理想,目前比較流行的小波消噪法也能取得較好的效果,但是其計算量比較大,同</p><p> 時在高信噪比的時候有一定的局限性。這就需要尋找一種可靠的方法進行語音降噪處</p><p> 理。基于這樣一種狀況,本文采用了一種有效的技術(shù)用于語音的消噪處理。</p><p> §1.2 語音識別研究的發(fā)展狀
63、況</p><p> 從對利用機械裝置實現(xiàn)人類語言的好奇以及期望人機間能夠自動完成簡單的任</p><p> 務(wù),到研究自動語音識別(和語音合成)已經(jīng)經(jīng)歷了 60 多年。最早始于 20 世紀 30 年</p><p> 代研究的語音識別系統(tǒng)是說話人辨認,而主要依靠人耳的聽辨進行性能分析。在經(jīng)過</p><p> 二十多年的發(fā)展后,在
64、50 年代最早的 10 個英語數(shù)字識別系統(tǒng)首次由 Bell 實驗室研</p><p> 制成功,其識別方法是根據(jù)語音的共振峰提取出若干特征參數(shù)來建立語音參考模</p><p> 型,再比較未知語音與語音參考模型的相關(guān)度來進行識別, 該系統(tǒng)得到 98%的</p><p> 正確率。同時隨著計算機應(yīng)用的發(fā)展,語音識別研究工作逐步取得了實質(zhì)性進步。</p>
65、;<p> 60 年代,動態(tài)規(guī)劃(Dynamic Programming,DP)和線性預(yù)測分析技術(shù)(Linear Pr-</p><p> ediction,LP) [3]被提出,有效的解決了在對語音信號的參數(shù)序列進行比較時出現(xiàn)的時</p><p> 長不等的難題以及特征提取問題;尤其是 LP 技術(shù),其較好地解決了語音信號產(chǎn)生模</p><p>
66、 型的問題,且對語音識別技術(shù)的發(fā)展產(chǎn)生了深遠影響。</p><p> 70 年代,語音識別技術(shù)取得了一系列具有里程碑意義的成績。在 70 年代初期,</p><p> 動態(tài)規(guī)劃方法、線性預(yù)測技術(shù)等基礎(chǔ)研究在理論上得到進一步的發(fā)展。孤立詞和孤立</p><p> 語句的語音識別在實踐中成為了可行的有用技術(shù),而被提出的 VQ 技術(shù)在語音編碼中</p>
67、<p> 取得了成功,同時由普林斯頓大學的萊尼鮑姆與高級研究計劃局(ARPA)共同研發(fā)的</p><p> HMM 也獲得了初步效果。在這一時期,IBM 和 AT&T Bell 這兩個實驗室對語音識別</p><p> 系統(tǒng)的商業(yè)化發(fā)展形成了兩個不同的方向:其中 IBM 的目的[4]是設(shè)計一個能夠?qū)⒄f</p><p> 話人的語句轉(zhuǎn)換成
68、可以在屏幕上顯示或在報紙上被打印出的句子或詞的聲控打字機,</p><p> 其技術(shù)的重點是識別詞匯量的大小和從統(tǒng)計意義上來說的在語音信號中可能出現(xiàn)的</p><p> 語法規(guī)則的語言模型結(jié)構(gòu),這為之后引進的 N-gram 語言模型奠定了基礎(chǔ),目前 N-gram</p><p> 語言模型已成為大詞匯量語音識別系統(tǒng)不可缺少的一部分;AT&T Bell
69、為了給公眾提</p><p> 供自動電話服務(wù),例如語音撥號以及指揮和控制電話呼叫路由,對能夠處理各類口音</p><p><b> - 2 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 第一章 緒論</b></p>&
70、lt;p> 的非特定說話人系統(tǒng)進行了研究,在研究的同時為了給各類說話人的文字和語音創(chuàng)建</p><p> 參考模型,產(chǎn)生了一系列語音聚類算法。在這一時期語音的抗噪技術(shù)也逐漸被人重視 ,</p><p> 1978 年在最小均方準則下采用維納濾波方法進行抗噪,1979 年 Boll 提出了譜減法即</p><p> 從帶噪語音的功率譜中減去噪聲功率譜來抑
71、制噪聲。</p><p> 80 年代,由于大規(guī)模集成電路技術(shù)與語音理論技術(shù)的飛速發(fā)展,語音信號處理</p><p> 技術(shù)產(chǎn)品化出現(xiàn)了熱潮。語音識別研究進一步走向深入,連續(xù)詞語識別研究取代孤立</p><p> 詞語識別研究,成為這一時期研究的熱點[5]。</p><p> 80 年代語音識別研究的特點是從基于模板的直觀方法朝著更加
72、嚴格的統(tǒng)計模型</p><p> 方法進行轉(zhuǎn)變,尤其是轉(zhuǎn)向研究 HMM 的理論、方法和實現(xiàn)問題。盡管在 60 年代 HMM</p><p> 就被提出,并于 70 年代在語音識別系統(tǒng)中使用,由于其數(shù)學模型艱澀難以被理解,</p><p> 直到 80 年代中期其理論和方法被廣泛發(fā)表以后才被更多研究者了解和認識。美國卡</p><p>
73、 內(nèi)基-梅隆大學于 1988 年以 HMM 模型建立的非特定人和大詞匯量的連續(xù)語音識別系</p><p> 統(tǒng)即 SPHINX 系統(tǒng)被認為是語音識別歷史的一個里程碑。由于 HMM 理論的成熟、計</p><p> 算簡便、性能高效的特點,HMM 成為了語音識別的首選方法。在過去二十多年里,</p><p> 作為語音識別基礎(chǔ)模型的 HMM,隨著其技術(shù)不斷的改進
74、與創(chuàng)新,其普及程度與使用</p><p><b> 程度一直保持不變。</b></p><p> 另一技術(shù)即人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)于 80 年代末被引入到</p><p> 語音識別系統(tǒng)。實際上 ANN 最早于 50 年代就開始被研究了,但是初步成效未能顯</p><
75、p> 示,隨著基礎(chǔ)理論的深入研究,也得到了較大的發(fā)展。其實質(zhì)上是在模擬了人類神</p><p> 經(jīng)活動基礎(chǔ)上的一個具有自適應(yīng)性、并行處理等優(yōu)點的自適應(yīng)非線性動力學系</p><p> 統(tǒng)。用于語音識別的 ANN 在早期的嘗試過程中,主要集中在簡單的任務(wù)上,例</p><p> 如識別幾個音素或少量詞(孤立數(shù)字),其效果比較好 [6]。神經(jīng)網(wǎng)絡(luò)模型雖然
76、有很</p><p> 強的模式分類能力,但有網(wǎng)絡(luò)結(jié)構(gòu)難以確定、容易過學習以及泛化能力差等缺點。</p><p> 90 年代,模式識別領(lǐng)域發(fā)生了巨大革新。傳統(tǒng)上遵循貝葉斯框架和數(shù)據(jù)要求分</p><p> 布估計的模式識別問題轉(zhuǎn)化為一個具有最小經(jīng)驗識別誤差的優(yōu)化問題[7]。對于語音信</p><p> 號無法準確選擇或定義的識別分布
77、函數(shù)造成了范式的根本性變化,同時貝葉斯決策理</p><p> 論在這種情況下將不適用。畢竟,一個識別器的設(shè)計目標是實現(xiàn)最小識別誤差而不是</p><p> 通過貝葉斯準則使分布函數(shù)對已知的數(shù)據(jù)集進行最佳擬合。隨后分類或經(jīng)驗誤差最小</p><p> 化概念催生了大量的技術(shù),其中包括分類訓(xùn)練和基于內(nèi)核的方法,例如已成為研究的</p><p&
78、gt; 熱門課題的 SVM[8][9]。</p><p> 90 年代以來,語音信號處理在實用化方面也已經(jīng)取得了許多實質(zhì)性進展,而與</p><p> 此同時,各個應(yīng)用學科的不斷進行交錯發(fā)展,語音識別的應(yīng)用領(lǐng)域也越來越廣闊,例</p><p> 如車載語音識別系統(tǒng)、移動互聯(lián)網(wǎng)語音識別等。隨著信號特征的提取和優(yōu)化技術(shù)、聲</p><p>
79、; 學模型的細化、自然語音理解領(lǐng)域中語言模型的建立和解碼搜索算法技術(shù)的不斷成</p><p> 熟,出現(xiàn)了比較成功的大詞匯量、連續(xù)語音識別系統(tǒng),例如 IBM 的 Via Voice 系 列 、</p><p><b> - 3 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p
80、> 基于 BSS 和 SVM 的語音識別技術(shù)研究</p><p> Microsoft 的 Whisper 等,這些系統(tǒng)大多基于 HMM 的聲學模型。而隨著中國在國際上</p><p> 地位的提升,漢語語音識別也越來越受到國外的關(guān)注,目前代表著漢語識別最高水平</p><p> 的兩個系統(tǒng)分別為 IBM 推出的 Via Voice 和 Microso
81、ft 發(fā)布的中文識別引擎。</p><p> 在抗噪方面也有了新的發(fā)展,即軟判決法和 MMSE 短時譜估計也被用于抑制噪</p><p> 聲,1987 年 pailwal 和 Basu 將卡爾曼濾波用于語音識別領(lǐng)域[10],小波去噪也被廣泛</p><p> 采用。目前語音識別消噪處理方法主要有以下幾方面[11]:第一是尋找穩(wěn)健的語音參數(shù) ;</p&g
82、t;<p> 第二是語音增強方法,即在語音識別系統(tǒng)前端進行預(yù)處理來提高輸入信號的信噪比;</p><p> 第三是基于模型的噪聲補償方法。</p><p> 我國的語音識別研究相對于國外起步較晚,最早始于 1958 年,由中國科學院聲</p><p> 學所利用電子管電路識別 10 個元音。俞鐵城教授在 1977 年發(fā)表了國內(nèi)的第一篇語音<
83、;/p><p> 識別的論文。在 1979 年首個語音技術(shù)中心由方棣棠教授和吳文虎教授創(chuàng)建。1986 年</p><p> 我國高科技發(fā)展計劃(863 計劃)啟動,語音識別作為智能計算機系統(tǒng)研究的一個重要</p><p> 組成部分而被專門列為研究課題。各個研究機構(gòu)和高校紛紛投身到這一領(lǐng)域,在經(jīng)過</p><p> 了二十多年的發(fā)展后,已
84、經(jīng)取得了豐碩的成果。其中的非特定人、大詞匯連續(xù)語音識</p><p> 別的研究獲得了巨大的突破,其準確率與國外最高水平相近。</p><p> §1.3 本論文的主要工作和內(nèi)容安排</p><p> 本文主要工作是把盲分離算法與卡爾曼濾波器結(jié)合應(yīng)用在以 SVM 為語音模型的</p><p> 語音識別系統(tǒng)前端,目的是消除混
85、雜在語音中的干擾噪聲,提取出目標語音信號以用</p><p> 于后端的語音識別系統(tǒng)。并針對在普通語音條件下,直接建立 SVM 語音模型存在著</p><p> 特征參數(shù)的維數(shù)很高、運算量和內(nèi)存需求非常大等問題,在研究 VQ 模型的 K-means</p><p> 聚類算法的基礎(chǔ)上提出新的 SAHKC 算法,并與 SVM 結(jié)合用于語音的訓(xùn)練與識別,</
86、p><p> 較好的處理了大規(guī)模樣本集問題。</p><p> 本論文的主要內(nèi)容安排如下:</p><p> 第一章主要介紹了課題研究背景與意義,國內(nèi)外研究的發(fā)展狀況及文章結(jié)構(gòu)安</p><p><b> 排;</b></p><p> 第二章對語音識別系統(tǒng)的整體結(jié)構(gòu)進行了闡述,主要是論述了
87、識別單元、特征參</p><p> 數(shù)以及聲學模型的確定;</p><p> 第三章對在噪聲環(huán)境下的語音識別進行了研究,提出了一個通過盲源分離技術(shù)和</p><p> 卡爾曼濾波器結(jié)合的算法進行語音識別系統(tǒng)消噪。通過實驗在噪聲環(huán)境下對系統(tǒng)進行</p><p> 了檢測,最后驗證了此算法的可行性;</p><p>
88、; 第四章是詳細介紹了本文語音識別系統(tǒng)的主要算法及其改進,主要有音節(jié)切分算</p><p> 法、碼本優(yōu)化算法、SVM 模型的訓(xùn)練與識別算法,并從以下幾個方面對該系統(tǒng)的性</p><p> 能影響進行了實驗驗證分析,即碼本設(shè)計及容量、語音在噪聲環(huán)境下通過消噪處理后</p><p><b> - 4 -</b></p>&l
89、t;p><b> 萬方數(shù)據(jù)</b></p><p><b> 第一章 緒論</b></p><p> 的識別性能以及不同核函數(shù)對 SVM 構(gòu)建的語音識別的影響,并將本文改進的</p><p> VQ/SVM 與原有的 SVM 識別模型在不同測試集中進行了性能對比分析;</p><p>
90、 第五章是總結(jié)與前景展望。</p><p><b> - 5 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 基于 BSS 和 SVM 的語音識別技術(shù)研究</p><p> 第二章 語音識別系統(tǒng)的基本原理</p><p> 語音識別[12
91、]就是一門研究讓機器能夠聽懂人類語言的學問,其與語音合成相結(jié)合</p><p> 就構(gòu)成了一個完整的“人機對話通信系統(tǒng)”;通常存在兩種方式,一種是將口述語言</p><p> 轉(zhuǎn)換成相應(yīng)的文字,另一種是根據(jù)口述語言所包含的意思做出正確的指示。</p><p> §2.1 語音識別系統(tǒng)的基本結(jié)構(gòu)</p><p> 一個完整的連
92、續(xù)語音識別系統(tǒng)可分為訓(xùn)練與識別兩部分:訓(xùn)練就是建模的過程,</p><p> 預(yù)先分析出語音特征參數(shù),制作出語音模板并存放在語音參數(shù)庫中;識別就是將待識</p><p> 別的語音經(jīng)過與訓(xùn)練時相同的分析,得到語音參數(shù)并與庫中的參數(shù)模板進行比較,同</p><p> 時采用判決方法找出最接近語音特征的模板,從而得出識別結(jié)果。語音識別系統(tǒng)的基</p>
93、<p><b> 本構(gòu)成如下圖所示:</b></p><p><b> 語</b></p><p><b> 法</b></p><p><b> 識</b></p><p><b> 別</b></p&g
94、t;<p><b> 語</b></p><p><b> 音</b></p><p><b> 特征參數(shù)</b></p><p><b> 提 取</b></p><p><b> 模式匹配</b></
95、p><p><b> 判</b></p><p><b> 別</b></p><p><b> 識</b></p><p><b> 輸</b></p><p><b> 別</b></p>
96、<p><b> 出</b></p><p><b> 訓(xùn)</b></p><p><b> 練</b></p><p><b> 模</b></p><p><b> 板</b></p><
97、;p> 圖 2.1 語音識別系統(tǒng)結(jié)構(gòu)圖</p><p> 由上可以看出語音識別系統(tǒng)主要由三部分組成,即特征提取、聲學模型和語言模</p><p> 型。語言模型是指在匹配搜索時用于字詞和路徑約束的語言規(guī)則,一般在中小詞匯量</p><p> 連續(xù)語音識別中可以不考慮語言模型,因此本文不對該模型進行討論。而對于連續(xù)語</p><p&g
98、t; 音識別來說,識別單元的選取也將對識別性能有著一定的影響,因此本章主要解決三</p><p><b> 個問題:</b></p><p> (1)識別單元的確定;</p><p> ?。?)特征參數(shù)的確定;</p><p> ?。?)聲學模型的確定;</p><p><b>
99、 §2.2 預(yù)處理</b></p><p> 語音信號在被分析及處理前先需要進行預(yù)處理[13],即采樣、預(yù)加重、分幀和加窗 :</p><p><b> 1.采樣</b></p><p> 采樣是將連續(xù)的語音模擬信號離散化的過程,一般地為了使完整的語音信息不被</p><p> 丟失,信號的
100、采樣頻率須高于該語音信號的最高頻率成分的 2 倍。由于人類的語音信</p><p><b> - 6 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p> 第二章 語音識別系統(tǒng)的基本概述</p><p> 號的頻帶大約是 300~3400HZ,因此通常情況下,采樣頻率至少
101、要大于或等于 8000Hz。</p><p> 采樣過后的量化就是用有限的電平去表示模擬采樣值的過程,當用計算機來錄制語音</p><p> 時通常由計算機的聲卡自動完成以上過程的。</p><p><b> 2.預(yù)加重</b></p><p> 由于語音信號的平均功率譜受聲門激勵和口鼻輻射影響,高頻端大約在 8
102、00Hz</p><p> 以上按 6dB/倍頻程跌落,頻率越高相應(yīng)的成分越小,高頻部分的頻譜比低頻部分的</p><p> 難求,為此要在預(yù)處理中進行預(yù)加重處理,目的是提升語音信號的高頻成分,使語音</p><p> 信號的頻譜變得平坦和降低尖銳噪聲的影響。一般是將語音信號通過一個一階的數(shù)字</p><p><b> 濾波
103、器:</b></p><p> H (Z )?? 1???? z??1</p><p><b> (2-2-1)</b></p><p> 式中?? 為預(yù)加重系數(shù),值接近于 1。</p><p><b> 3.分幀</b></p><p> 由于人在發(fā)音
104、時發(fā)聲器官的運動存在一定的慣性,在很短的時間內(nèi)發(fā)聲器官的狀</p><p> 態(tài)可被視為不變的,因此語音信號被認為具有短時平穩(wěn)特性,則可通過對其進行短時</p><p> 處理即分幀使之具有短時平穩(wěn)性。通常取 10ms-30ms 的信號采樣量化值作為一幀,</p><p> 同時為了連續(xù)性,幀之間需要 30%-50%的重疊。</p><p&
105、gt;<b> 第K幀</b></p><p><b> 第K+1幀</b></p><p><b> 第K+2幀</b></p><p><b> 幀</b></p><p><b> 移</b></p>&
106、lt;p><b> 幀</b></p><p><b> 長</b></p><p><b> 圖 2.2</b></p><p><b> 幀長與幀移</b></p><p><b> 4.加窗</b></p&
107、gt;<p> 通常采用一個長度有限的窗函數(shù)來截取語音信號形成分析幀,窗函數(shù) w(n) 將需</p><p> 處理區(qū)域之外的樣點置零,來獲得當前語音幀。設(shè)定幀長度為 N ,對已取出的一幀語</p><p> 音 s(n) 進行加窗處理,就是用一定的窗函數(shù) w(n) 來乘以 s(n) ,得到加窗后的語音</p><p><b> sw
108、 (n) :</b></p><p> sw (n)?? s(n)?? w(n)</p><p> 常用的窗函數(shù)為矩形窗和漢明窗等。</p><p><b> 矩形窗:</b></p><p> 0?≤ n?≤ (N??1)</p><p><b> (2-2-2)
109、</b></p><p><b> 萬方數(shù)據(jù)</b></p><p><b> 漢明窗:</b></p><p> ?1 0?≤ n?≤ N??1</p><p><b> 其他</b></p><p> ?0.54?? 0.46
110、cos[2? n ( N??1)] 0?≤ n?≤ N??1</p><p><b> 其他</b></p><p><b> - 7 -</b></p><p><b> (2-2-3)</b></p><p><b> (2-2-4)</b>&
111、lt;/p><p> 基于 BSS 和 SVM 的語音識別技術(shù)研究</p><p> 經(jīng)過上面介紹的預(yù)處理,采樣后的語音信號就被分割成一幀一幀的短時語音信</p><p> 號,然后再把每一個短時語音幀看成平穩(wěn)的隨機信號,利用數(shù)字信號處理技術(shù)來提取</p><p><b> 語音特征參數(shù)。</b></p>
112、<p> §2.3 語音識別單元的確定</p><p> 在語音識別中,通常需要判別輸入的語音信號哪些是語音部分,哪些是非語音部</p><p> 分。而在漢語連續(xù)語音識別中,由于語音中短語的數(shù)量過大,對整個短語進行整體識</p><p> 別顯然是不可能實現(xiàn)的,需要將輸入的語流切分成較小的組成部分,并且使識別單元</p>
113、<p> 滿足以下特征:第一,在識別率不受影響的情況下選取的最小單元數(shù)要滿足訓(xùn)練所需</p><p> 求的,即可訓(xùn)練性;第二,針對不同的人、不同的口音時識別單元能夠容易被提取且</p><p> 提取的一致性好,即良好的檢測性;第三,選取的單元具有較強魯棒性,即當單元的</p><p> 提取有誤差時不對系統(tǒng)的識別率有明顯影響。漢語識別單元的
114、選取可以有多種形式</p><p> [14]:詞或短語、音節(jié)(漢語中的字)、聲韻母以及音素等。</p><p> 以詞或短語作為基元,由于詞與語義理解相關(guān),其切分比較困難;且當詞匯量較</p><p> 大時,基元的數(shù)量非常龐大,訓(xùn)練時的工作量和運算量巨大。</p><p> 當采用聲韻母作為識別基元時,除需要用到能量與過零率參數(shù)外
115、,還需用到語言</p><p> 學知識,盡管聲韻母模型的單元數(shù)量較少,漢語普通話中總計有 21 個聲母和 38 個韻</p><p> 母;但是根據(jù)聲學角度來看,由于聲韻母之間的協(xié)同發(fā)音會導(dǎo)致很難確定聲韻母之間</p><p> 的邊界,同時在不同的發(fā)音方式下,同一基元的檢測一致性較差。</p><p> 而將音素作為識別單元是無意
116、義的,因為漢語的音素除聲母外都是不穩(wěn)定的,同</p><p> 時韻母中的各音素,是許多過度性的音素串,切分它比較困難。</p><p> 音節(jié)是漢語普通話發(fā)音的最小單位。從語音心理學的角度來看,音節(jié)也是基本的</p><p> 語音感知單位,每個漢語音節(jié)內(nèi)部結(jié)構(gòu)緊密。由聲母、韻母和聲調(diào)組成的有調(diào)音節(jié)約</p><p> 為 1282
117、 個,如果不考慮聲調(diào),則僅有 412 個音節(jié)。盡管總的基元數(shù)量較大,但是音</p><p> 節(jié)之間協(xié)同發(fā)音現(xiàn)象沒有音素和聲韻母那樣嚴重,相對來說,比較容易確定音節(jié)之間</p><p><b> 的邊界。</b></p><p> 針對以上常用的識別單元,從詞匯量、系統(tǒng)的計算復(fù)雜度、存儲量以及單元的穩(wěn)</p><p&g
118、t; 定性等因素考慮,音節(jié)的切分是最容易的,因此本文研究的語音識別單元是音節(jié)單元 。</p><p> §2.4 語音特征參數(shù)確定</p><p> 特征提取主要是利用信號處理技術(shù)來處理輸入的語音信號,選擇可利用的特征子</p><p> 集以便在經(jīng)驗?zāi)P椭惺褂玫倪^程,其方式是重要的且不是唯一的。同時提取出的特征</p><p&
119、gt; 參數(shù)應(yīng)滿足一下特點:(1)能夠充分體現(xiàn)不同識別單元之間的差異;(2)對同一識別單</p><p> 元在不同的發(fā)音方式下的差異不明顯,表現(xiàn)出很強的惰性; (3)對噪聲具有很強的魯</p><p><b> - 8 -</b></p><p><b> 萬方數(shù)據(jù)</b></p><p>
120、; 第二章 語音識別系統(tǒng)的基本概述</p><p> 棒性;(4)特征的計算量盡可能小。在目前的語言識別系統(tǒng)中常用兩種特征參數(shù),分</p><p> 別是線性預(yù)測倒譜系數(shù)(Linear prediction cepstrum coefficient,LPCC)和梅爾頻率倒譜</p><p> 系數(shù)(Mel frequency cepstrum coeffic
121、ient,MFCC)。</p><p> LPCC 是基于人的發(fā)聲機理,考慮了語音樣點之間的相關(guān)性,利用線性預(yù)測的方</p><p> 法,由語音信號聲道系統(tǒng)函數(shù)的全極點模型導(dǎo)出的。LPCC 參數(shù)的優(yōu)點是計算量小,</p><p> 易于實現(xiàn),對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性</p><p> 能較差。
122、MFCC 不同于 LPCC,它是語音識別中另一個常用的語音特征參量,其計算</p><p> 是基于語音信號的濾波器組分析。語音信號濾波器組分析的理論依據(jù)是基于人對語音</p><p> 感知的兩個基本事實。首先,人的大腦皮層對單個音調(diào)的感知強度近似與該音調(diào)頻率</p><p> 的對數(shù)成正比。其次,對于復(fù)雜的語音信號,人耳不能有效的區(qū)分某一中心頻率附近<
123、;/p><p> 一定帶寬內(nèi)語音信號的所有頻率分量。只有當這個語音信號的某一成分落在一定的帶</p><p> 寬之外,才能被人耳有效的區(qū)分開。這個帶寬稱為臨界帶寬。Mel 頻率表達了一種常</p><p> 用的從語音頻率到感知頻率的對應(yīng)關(guān)系,其表達式為:</p><p> Mel( f )?? 2595?? log10 (1?? f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于BSS和SVM的語音識別技術(shù)研究.pdf
- 基于SVM的語音情感識別研究.pdf
- 基于SVM和HMM混合模型的語音情感識別和性別識別.pdf
- 基于DWT和SVM的多特征步態(tài)識別技術(shù)研究.pdf
- 基于SVM的人臉識別技術(shù)研究.pdf
- 基于粗糙集和SVM的語音情感識別.pdf
- 基于SVM的漢語語音情感識別研究.pdf
- 基于SVM的漢語語音情感識別的研究.pdf
- 基于SVM的語音情感識別和情感特征參數(shù)的研究.pdf
- 基于FPGA的語音識別技術(shù)研究.pdf
- 基于HHT語音識別技術(shù)研究.pdf
- 基于SVM和HMM混合模型的動態(tài)手勢識別技術(shù)研究.pdf
- 基于HHT的語音情感識別技術(shù)研究.pdf
- 基于視覺信息的語音識別技術(shù)研究.pdf
- 基于SVM的特定人臉識別技術(shù)研究.pdf
- 基于svm的特定人臉識別技術(shù)研究(1)
- 基于HCC-SVM的字符識別技術(shù)研究.pdf
- 基于混淆網(wǎng)絡(luò)和輔助信息的語音識別技術(shù)研究.pdf
- 基于遺傳優(yōu)化的多級SVM語音情感識別.pdf
- 基于HTK的連續(xù)語音識別技術(shù)研究.pdf
評論
0/150
提交評論