畢業(yè)論文---利用matlab平臺(tái)實(shí)現(xiàn)少量字的語(yǔ)音識(shí)別

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：doc 頁(yè)數(shù)：31 大?。?.86MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

畢業(yè)論文---利用matlab平臺(tái)實(shí)現(xiàn)少量字的語(yǔ)音識(shí)別_第1頁(yè)

已閱讀1頁(yè)，還剩30頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　本科畢業(yè)論文(設(shè)計(jì))　　論文題目：利用MATLAB平臺(tái)實(shí)現(xiàn) 　　少量字的語(yǔ)音識(shí)別功能 　　院系：物理系 　　專業(yè)：物理學(xué)

2、 　　姓名： 　　學(xué) 號(hào)： 　　指導(dǎo)教師： 　　2007 年 6 月 19

3、日　　目錄　　引言4　　1.語(yǔ)音識(shí)別簡(jiǎn)介5　　1.1語(yǔ)音識(shí)別系統(tǒng)的分類5　　1.2語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成5<p

4、>　　2.語(yǔ)音識(shí)別參數(shù)6　　2.1線性預(yù)測(cè)系數(shù)(LPC)6　　2.2線性預(yù)測(cè)倒譜系數(shù)(LPCC)8　　2.3 MFCC系數(shù)8　　2.4參數(shù)計(jì)算流程9　　3.DTW算法11

5、　　3.1 DTW算法原理11　　3.2 DTW的高效算法14　　4.HMM算法16　　4.1 HMM的原理16　　4.2 HMM的前向概率和后向概率17　　4.3識(shí)別算法——Viterbi解碼19

6、　　4.4 baum-welch算法20　　5.實(shí)驗(yàn)及總結(jié)23　　5.1 實(shí)驗(yàn)準(zhǔn)備以及步驟23　　5.2 實(shí)驗(yàn)結(jié)果及討論25　　5.3 實(shí)驗(yàn)結(jié)論29　　參考文獻(xiàn)30</b&

7、gt;　　致謝31　　引言　　自上世紀(jì)80年代開(kāi)始，語(yǔ)音識(shí)別技術(shù)的研究進(jìn)入了一個(gè)蓬勃發(fā)展的時(shí)期，一些商用系統(tǒng)也從實(shí)驗(yàn)室進(jìn)入市場(chǎng)。然而，在實(shí)際的應(yīng)用中，由于各種干擾因素導(dǎo)致的測(cè)試條件與訓(xùn)練環(huán)境的不匹配，系統(tǒng)的性能往往會(huì)收到極大的

8、影響。因此提高語(yǔ)音識(shí)別系統(tǒng)的性能就成為了語(yǔ)音識(shí)別技術(shù)真正走向?qū)嵱没年P(guān)鍵課題。　　語(yǔ)音識(shí)別是以聲音作為研究對(duì)象它是語(yǔ)音信號(hào)處理的一個(gè)重要研究方向，是模式識(shí)別的一個(gè)分支涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)以及信號(hào)處理等諸多領(lǐng)域，甚至還涉及到人的體態(tài)語(yǔ)言（如人在說(shuō)話時(shí)的表情、手勢(shì)等行為動(dòng)作可幫助對(duì)方理解），其最終目標(biāo)是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信。本文研究了漢語(yǔ)語(yǔ)音識(shí)別技術(shù)及其實(shí)現(xiàn)方法。論文首先

9、分析了語(yǔ)音信號(hào)預(yù)處理問(wèn)題。對(duì)MFCC倒譜系數(shù)在語(yǔ)音識(shí)別中的運(yùn)用做了詳細(xì)介紹。其次研究了基于DTW的語(yǔ)音識(shí)別系統(tǒng)，針對(duì)DTW算法中系統(tǒng)識(shí)別性能過(guò)分依賴于端點(diǎn)檢測(cè)、動(dòng)態(tài)規(guī)劃的計(jì)算量太大等缺陷，分別提出了快速DTW算法和端點(diǎn)松動(dòng)的DTW算法，仿真結(jié)果比較理想。繼而研究了基于HMM的語(yǔ)音識(shí)別系統(tǒng)。針對(duì)HMM在實(shí)際應(yīng)用中的優(yōu)化計(jì)算問(wèn)題，包括初始模型選取，定標(biāo)等進(jìn)行了深入的分析與探討。針對(duì)傳統(tǒng)定標(biāo)仍能溢出的問(wèn)題，給出了無(wú)溢出的參數(shù)重估公式。<

10、/p>　　第一章語(yǔ)音識(shí)別簡(jiǎn)介　　1.1語(yǔ)音識(shí)別系統(tǒng)的分類　　語(yǔ)音識(shí)別是近年來(lái)十分活躍的一個(gè)研究領(lǐng)域。在不遠(yuǎn)的將來(lái)，語(yǔ)音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段，輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備，在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。本文介紹了語(yǔ)音識(shí)別的基本流程、所用到的語(yǔ)音參數(shù)算法、語(yǔ)音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的

11、探究，主要運(yùn)用了特定人孤立詞識(shí)別的DTW算法和非特定人識(shí)別的連續(xù)HMM算法的MATLAB識(shí)別系統(tǒng)。　　語(yǔ)音識(shí)別按說(shuō)話人的講話方式可分為孤立詞(Isolated Word)識(shí)別、連接詞(Connected Word)識(shí)別和連續(xù)語(yǔ)音(Continuous Speech)識(shí)別。孤立詞識(shí)別是指說(shuō)話人每次只說(shuō)一個(gè)詞或短語(yǔ)，每個(gè)詞或短語(yǔ)在詞匯表中都算作一個(gè)詞條，一般用在語(yǔ)音電話撥號(hào)系統(tǒng)中。連接詞語(yǔ)音識(shí)別支持

12、一個(gè)小的語(yǔ)法網(wǎng)絡(luò)，其內(nèi)部形成一個(gè)狀態(tài)機(jī)，可以實(shí)現(xiàn)簡(jiǎn)單的家用電器的控制，而復(fù)雜的連接詞語(yǔ)音識(shí)別系統(tǒng)可以用于電話語(yǔ)音查詢、航空定票等系統(tǒng)。連續(xù)語(yǔ)音識(shí)別是指對(duì)說(shuō)話人以日常自然的方式發(fā)音，通常特指用于語(yǔ)音錄入的聽(tīng)寫機(jī)。顯然，連續(xù)非特定人語(yǔ)音識(shí)別的難度要大得多，因?yàn)椴粌H有說(shuō)話人口音的問(wèn)題，還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等?wèn)題，除了考慮語(yǔ)音的聲學(xué)模型外還要涉及到語(yǔ)言模型，如構(gòu)詞法、文法等。　　從識(shí)別對(duì)象的類型

13、來(lái)看，語(yǔ)音識(shí)別可以分為特定人(Speaker Dependent)語(yǔ)音識(shí)別和非特定人(Speaker Independent)語(yǔ)音識(shí)別。特定人是指只針對(duì)一個(gè)用戶的語(yǔ)音識(shí)別，非特定人則可用于不同的用戶。實(shí)際上，非特定人語(yǔ)音識(shí)別的初始識(shí)別率往往都比較低，一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練，將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整，才能使識(shí)別率達(dá)到滿意的程度。　　非特定人大詞表連續(xù)語(yǔ)音識(shí)別是近幾年研究的

14、重點(diǎn)，也是研究的難點(diǎn)。目前的連續(xù)語(yǔ)音識(shí)別大多是基于HMM(隱馬爾可夫模型)框架，并將聲學(xué)、語(yǔ)言學(xué)的知識(shí)統(tǒng)一引入來(lái)改善這個(gè)框架，其硬件平臺(tái)通常是功能強(qiáng)大的工作站或PC機(jī)。　　1.2語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成　　語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為：輸入的模擬語(yǔ)音信號(hào)首先要進(jìn)行預(yù)處理，包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。語(yǔ)音信號(hào)經(jīng)預(yù)處理后，接下來(lái)很重要的一

15、環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是：　　提取的特征參數(shù)能有效地代表語(yǔ)音特征，具有很好的區(qū)分性。　　各階參數(shù)之間有良好的獨(dú)立性。　　特征參數(shù)要計(jì)算方便，最好有高效的計(jì)算方法，以保證語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。　　在訓(xùn)練階段，將特征參數(shù)進(jìn)行一定的處理之后，為每個(gè)詞條得到一個(gè)模型，

16、保存為模版庫(kù)。在識(shí)別階段，語(yǔ)音喜好經(jīng)過(guò)相同的通道得到語(yǔ)音參數(shù)，生成測(cè)試模版，與參考模版進(jìn)行匹配，將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下，提高識(shí)別的準(zhǔn)確率。　　第二章語(yǔ)音識(shí)別的參數(shù)　　2.1 線性預(yù)測(cè)系數(shù)　　語(yǔ)音信號(hào)是一種典型的時(shí)變信號(hào)，然而如果把觀察時(shí)間縮短到十毫秒至幾十毫秒，則

17、可以得到一系列近似穩(wěn)定的信號(hào)。人的發(fā)音器官可以用若干段前后連接的聲管進(jìn)行模擬，這就是所謂的聲管模型。下圖為語(yǔ)音產(chǎn)生的生理結(jié)構(gòu)示意圖：　　圖2-1 語(yǔ)音產(chǎn)生的生理結(jié)構(gòu)示意圖[1]　　由于發(fā)音器官不可能毫無(wú)規(guī)律地快速變化，因此語(yǔ)音信號(hào)是準(zhǔn)穩(wěn)定的(quasi steady)。全極點(diǎn)線性預(yù)測(cè)模型(LPC)可以對(duì)聲管模型進(jìn)行很好的描述，這里信號(hào)的激勵(lì)源是由肺部氣

18、流的沖擊引起的，聲帶可以有周期振動(dòng)也可以不振動(dòng)，分別對(duì)應(yīng)濁音(Vowel)和清音(Consonant)，而每段聲管則對(duì)應(yīng)一個(gè)LPC模型的極點(diǎn)。一般情況下，極點(diǎn)的個(gè)數(shù)在12~16之間，就可以足夠清晰地描述語(yǔ)音信號(hào)的特征了。LPC是語(yǔ)音分析的重要手段，它能很好地進(jìn)行譜估計(jì)，即可作為語(yǔ)音特征的參數(shù)。因此僅用12個(gè)LPC系數(shù)就能很好地表示復(fù)雜語(yǔ)音信號(hào)的特征，這就大大降低了信號(hào)的冗余度并有效地減少了計(jì)算量和存儲(chǔ)量，使之成為語(yǔ)音識(shí)別和語(yǔ)音壓縮的基礎(chǔ)

19、。下圖為以聲管模型為基礎(chǔ)的LPC模型：　　圖2-2 以聲管模型為基礎(chǔ)的LPC模型　　由： 　　該式表示p個(gè)方程構(gòu)成的方程組，未知數(shù)為p個(gè)。求解該方程組，就可以得到系統(tǒng)的線性預(yù)測(cè)系數(shù)。由基于自相關(guān)的遞推求解公式求解，也就是所謂的Durbi

20、n算法得：　　………………………………………………2.1　　……………………………..2.2　　…………………………………………………...2.3　　…………………………..2.4　　………………………………………2.5</

21、p>　　公式中，上標(biāo)表示第次迭代，每次迭代只計(jì)算和更新直到時(shí)，結(jié)束迭代。　　在MATLAB中利用lpc函數(shù)[2]計(jì)算LPC系數(shù)，其語(yǔ)法為：　　a = lpc(x,n);　　這里x為一幀語(yǔ)音信號(hào)，n為計(jì)算LPC參數(shù)的階數(shù)。通常x為240點(diǎn)或256點(diǎn)的數(shù)據(jù)，n取10~12，對(duì)語(yǔ)音識(shí)別來(lái)說(shuō)

22、就已經(jīng)足夠。　　2.2 線性預(yù)測(cè)倒譜系數(shù)　　在語(yǔ)音識(shí)別系統(tǒng)中，很少直接使用LPC系數(shù)，而是由LPC系數(shù)推導(dǎo)出另一種參數(shù)：線性預(yù)測(cè)倒譜系數(shù)（LPCC）。倒譜實(shí)際上是一種同態(tài)信號(hào)處理方法，標(biāo)準(zhǔn)的倒譜系數(shù)計(jì)算流程需要進(jìn)行FFT變換[3]，對(duì)數(shù)操作和相位校正等步驟，運(yùn)算比較復(fù)雜。在實(shí)際運(yùn)作中大多數(shù)語(yǔ)音識(shí)別系統(tǒng)都會(huì)采用倒譜參數(shù)來(lái)作為有關(guān)距離的度量。LPC 倒譜系數(shù)

23、是描述說(shuō)話人聲道特性的，廣泛應(yīng)用于聲紋識(shí)別。在實(shí)際計(jì)算中，當(dāng)序列x(n)為最小相位的情況下，可以利用序列x(n)及其倒譜系數(shù)c(n)的遞推關(guān)系來(lái)簡(jiǎn)化計(jì)算。　　序列x(n)及其復(fù)倒譜系數(shù)c(n)的遞推公式如下：　　……...………...….2.6　　LPCC參數(shù)是一種非常重要的參數(shù)，它不是由原始信號(hào)x(n)得到，而

24、是由LPC系數(shù)得到的。由2.6式可得LPC到LPCC的直接遞推關(guān)系。　　……………………………………………..2.7　　……………………2.8　　………………………...…..2.9　　2.3 MFCC系數(shù)　　LPC模型是基于發(fā)音

25、模型建立的，LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒(méi)有充分利用人耳的聽(tīng)覺(jué)特性。實(shí)際上，人的聽(tīng)覺(jué)系統(tǒng)是一個(gè)特殊的非線性系統(tǒng)，它響應(yīng)不同頻率信號(hào)的靈敏度是不同的，基本上是一個(gè)對(duì)數(shù)的關(guān)系。近年來(lái)，一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用，這就是Mel尺度倒譜參數(shù)(Mel-scaled Cepstrum Coefficient)，或稱Mel頻率倒譜系數(shù)，簡(jiǎn)稱為MFCC。大量的研究表明，MFCC參數(shù)能夠比LPCC參數(shù)

26、更好地提高系統(tǒng)的識(shí)別性能。從目前使用的情況來(lái)看，在大詞匯量語(yǔ)音識(shí)別應(yīng)用中已逐漸取代原本常用的線性預(yù)測(cè)編碼導(dǎo)出的倒頻譜參數(shù)，原因是它考慮了人類發(fā)聲與接收聲音的特性，具有更好的魯棒性。由于語(yǔ)音信號(hào)在時(shí)域上的變化快速而不穩(wěn)定，所以通常都將它轉(zhuǎn)換到頻域上來(lái)觀察，此時(shí)它的頻譜會(huì)隨著時(shí)間作緩慢的變化。所以通常將加窗后的幀經(jīng)過(guò)快速傅立葉變換（FFT），求出每幀的頻譜參數(shù)。再將每幀的頻譜參數(shù)通過(guò)一組N 個(gè)（ N 一般為20 ～ 30 個(gè)）三角形帶通濾波

27、器所組成的Mel頻率濾波器，將每個(gè)頻帶的輸出取對(duì)數(shù)，求出每一個(gè)輸出的對(duì)數(shù)能量（log energy）　　MFCC參數(shù)的計(jì)算是以“bark”為其頻率基準(zhǔn)的，它和線性頻率的轉(zhuǎn)換關(guān)系是：　　……………………………….2.10　　MFCC參數(shù)也是按幀計(jì)算的。首先要通過(guò)FFT得到該幀信號(hào)的功率譜，轉(zhuǎn)換為Mel頻率下的功率譜

28、。這需要在計(jì)算之前先在語(yǔ)音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器：　　………2.11　　MFCC參數(shù)的計(jì)算通常采用如下的流程：　?。?）首先確定每一幀語(yǔ)音采樣序列的點(diǎn)數(shù)。對(duì)每幀序列進(jìn)行預(yù)加重處理后再經(jīng)過(guò)離散FFT變換，取模的平方得到離散功率譜。<p&g

29、t;　?。?）計(jì)算通過(guò)M個(gè)后所得的功率值，即計(jì)算和在各離散頻率點(diǎn)上乘積之和，得到M個(gè)參數(shù)，。　　（3）計(jì)算的自然對(duì)數(shù)，得到，。　?。?）對(duì)計(jì)算其離散余弦變換，得到，。　?。?）舍去代表直流成分的，取作為MFCC參數(shù)。　　MATLAB中計(jì)算mfcc參數(shù)的函數(shù)為melceps

30、t.m，其中調(diào)用了函數(shù)melbankm.m，用來(lái)計(jì)算M個(gè)濾波器的系數(shù)。　　2.4 完整的參數(shù)計(jì)算流程　　特征提取方法：　　特征的選取取決于具體的系統(tǒng)，下面的特征是有代表性的：　?、俜龋ɑ蚬β剩?lt;/b>&

31、lt;/p>　?、谶^(guò)零率　?、叟R界帶特征矢量　　④線形預(yù)測(cè)系數(shù)特征矢量(LPC)　?、軱PC倒譜特征矢量(LPCC)　?、?Mel倒譜系數(shù)(MFCC)

32、;　?、咔叭齻€(gè)共振峰F1,F2,F3　　具體步驟分4步：　　1．端點(diǎn)檢測(cè)　　所謂端點(diǎn)檢測(cè)，就是在實(shí)時(shí)輸入的聲音信號(hào)中，區(qū)分背景噪聲和環(huán)境噪聲，準(zhǔn)確地判斷出聲音信號(hào)的開(kāi)始點(diǎn)和結(jié)束點(diǎn)。這一過(guò)程應(yīng)由特定的算法自動(dòng)完成，通常

33、利用短時(shí)能量來(lái)檢測(cè)濁音，用過(guò)零率來(lái)檢測(cè)清音，兩者配合實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)算法常用的是由語(yǔ)音能量和過(guò)零率組合的有雙門限法，以及短時(shí)能量和過(guò)零率的乘積構(gòu)成的能頻值法。　　預(yù)加重濾波器　　在語(yǔ)音參數(shù)計(jì)算之前，一般要將其通過(guò)一個(gè)預(yù)加重濾波器。　　倒譜提升窗口

34、　　在為每幀數(shù)據(jù)計(jì)算出階MFCC參數(shù)后，通常還要為這個(gè)系數(shù)分別乘以不同的權(quán)系數(shù)，實(shí)際上是一個(gè)短的窗口：　　……………………………………………..2.12　　……………………2.13　　差分倒譜系數(shù)

35、;　　標(biāo)準(zhǔn)的MFCC參數(shù)只反映了語(yǔ)音參數(shù)的靜態(tài)特性，而人耳對(duì)語(yǔ)音的動(dòng)態(tài)特征更為敏感，通常用差分倒譜參數(shù)來(lái)描述這種動(dòng)態(tài)特性。　　差分參數(shù)的計(jì)算采用下面的公式：　　…………………….2.14　　這里c和d都表示一幀語(yǔ)音參數(shù)，k為常數(shù)，通常取2，這時(shí)差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀參數(shù)的線性組

36、合。　　第三章 DTW算法　　3.1 DTW算法原理　　在孤立詞語(yǔ)音識(shí)別中，最為簡(jiǎn)單有效的方法是采用DTW（Dynamic Time Warping，動(dòng)態(tài)時(shí)間彎折）算法，該算法基于動(dòng)態(tài)規(guī)劃（DP）的思想，解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題，是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種算

37、法。用于孤立詞識(shí)別，DTW算法與HMM算法在相同的環(huán)境條件下，識(shí)別效果相差不大，但HMM算法要復(fù)雜得多，主要體現(xiàn)在HMM算法在訓(xùn)練階段需要提供大量的語(yǔ)音數(shù)據(jù)，通過(guò)反復(fù)計(jì)算才能得到模型參數(shù)，而DTW算法的訓(xùn)練中幾乎不需要額外的計(jì)算。所以在孤立詞語(yǔ)音識(shí)別中，DTW算法仍得到廣泛的應(yīng)用。　　在訓(xùn)練和建立模板階段以及在識(shí)別階段，都采用端點(diǎn)檢測(cè)算法確定語(yǔ)音的起點(diǎn)和終點(diǎn)。已存入模板庫(kù)的各個(gè)詞條稱為參考模板，

38、一個(gè)參考模板可表示為，m為訓(xùn)練語(yǔ)音幀的時(shí)序標(biāo)號(hào)，m=1為起點(diǎn)語(yǔ)音幀，m=M為終點(diǎn)語(yǔ)音幀，因此為該模板所包含的語(yǔ)音幀總數(shù)，為第幀的語(yǔ)音特征矢量。所要識(shí)別的一個(gè)輸入詞條語(yǔ)音稱為測(cè)試模板，可表示為,為測(cè)試語(yǔ)音幀的時(shí)序標(biāo)號(hào)，n=1為起點(diǎn)語(yǔ)音幀，n=N為終點(diǎn)語(yǔ)音幀，因此N為該模板所包含的語(yǔ)音幀總數(shù)，T(n)為第n幀的語(yǔ)音特征矢量。參考模板與測(cè)試模板一般采用相同類型的特征矢量（如MFCC系數(shù)）、相同的幀長(zhǎng)、相同的窗函數(shù)和相同的幀移。測(cè)試和參考模板分

39、別用T和R表示，為了比較它們之間的相似度，可以計(jì)算它們之間的距離D[T,R]，距離越小則相似度越高。為了計(jì)算這一失真距離，應(yīng)從T和R中各個(gè)對(duì)應(yīng)幀之間的距離算起。設(shè)n和m分別是T和R中任意選擇的幀號(hào)，d[T(n),R(m)]表示這兩幀之間的距離。距離函數(shù)取決于實(shí)際采用的距離度量，在DTW算法中通常采用歐氏距離。　　若N=M則可以直接計(jì)算，否則要考慮將T(n)和R(m)對(duì)齊。對(duì)齊可以采用線性擴(kuò)張的方

40、法，如果N<M可以將T線性映射為一個(gè)M幀的序列，再計(jì)算它與之間的距離。但是這樣的計(jì)算沒(méi)有考慮到語(yǔ)音中各個(gè)段在不同的情況下的持續(xù)時(shí)間會(huì)產(chǎn)生或長(zhǎng)或短的變化，因此識(shí)別效果不可能最佳。因而更多地是采用動(dòng)態(tài)規(guī)劃(DP)的方法。　　如果把測(cè)試模板的各個(gè)幀號(hào)n=1~N在一個(gè)二維直角坐標(biāo)系中的橫軸上標(biāo)出，把參考模板的各幀號(hào)m=1~M在縱軸上標(biāo)出，通過(guò)這些表示幀號(hào)的整數(shù)坐標(biāo)畫出一些縱橫線即可形成一個(gè)網(wǎng)格，網(wǎng)

41、格中的每一個(gè)交叉點(diǎn)(n,m)表示測(cè)試模式中某一幀與訓(xùn)練模式中某一幀的交匯點(diǎn)。DP算法可以歸結(jié)為尋找一條通過(guò)此網(wǎng)格中若干格點(diǎn)的路徑，路徑通過(guò)的格點(diǎn)即為測(cè)試和參考模板中進(jìn)行距離計(jì)算的幀號(hào)。路徑不是隨意選擇的，首先任何一種語(yǔ)音的發(fā)音快慢都有可能變化，但是其各部分的先后次序不可能改變，因此所選的路徑必定是從左下角出發(fā)，在右上角結(jié)束　　圖3-1 DTW算法路徑原理示意圖<p

42、>　　為了描述這條路徑，假設(shè)路徑通過(guò)的所有格點(diǎn)依次為其中=(1,1)，=(N,M)。路徑可以用函數(shù)描述，其中，。那么下一個(gè)通過(guò)的格點(diǎn)只可能是下列三中情況之一：　　…………………………..3.1　　用表示上述三個(gè)約束條件。求最佳路徑的問(wèn)題可以歸結(jié)為滿足約束條件時(shí)，求最佳路徑函數(shù)，使得沿路徑的積累距離達(dá)到最小值，即：<p&

43、gt;　　………...3.2　　搜索該路徑的方法如下：搜索從點(diǎn)出發(fā)，可以展開(kāi)若干條滿足的路徑，假設(shè)可計(jì)算每條路徑達(dá)到點(diǎn)時(shí)的總的積累距離，具有最小累積距離者即為最佳路徑。易于證明，限定范圍內(nèi)的任一格點(diǎn)只可能有一條搜索路徑通過(guò)。對(duì)于，其可達(dá)到該格點(diǎn)的前一個(gè)格點(diǎn)只可能是、和，那么一定選擇這3個(gè)距離中的最小者所對(duì)應(yīng)的格點(diǎn)作為其前續(xù)格點(diǎn)，若用代表此格點(diǎn)，并將通過(guò)該格點(diǎn)

44、之路徑延伸而通過(guò)，這時(shí)此路徑的積累距離為：　　…………….....3.3　　….3.4　　這樣可以從=(1,1)出發(fā)搜索，再搜索……，對(duì)每一個(gè)都存儲(chǔ)相應(yīng)的前一格點(diǎn)及相應(yīng)的幀匹配距離。搜索到時(shí)，只保留一條最佳路徑。這便是DTW算法。[5]

45、;　　3.2 DTW的高效算法　　由于匹配過(guò)程中限定了彎折的斜率，因此許多格點(diǎn)實(shí)際上是到達(dá)不了的，如下圖所示。因此菱形之外的格點(diǎn)對(duì)應(yīng)的幀匹配距離是不需要計(jì)算的。另外也沒(méi)有必要保存所有的幀匹配距離矩陣和累積距離矩陣，因?yàn)槊恳涣懈鞲顸c(diǎn)上的匹配計(jì)算只用到了前一列的三個(gè)網(wǎng)格。充分利用這兩個(gè)特點(diǎn)可以減少計(jì)算量和存儲(chǔ)空間的需求。　　如圖所示，把實(shí)際的動(dòng)態(tài)彎折分為三段

46、，，其中：　　……………………………3.5　　圖3-2 DTW高效路徑示意圖　　和都取最相近的整數(shù)。由此也得出對(duì)M和N長(zhǎng)度的限制條件：　　………………………………..3.6　　當(dāng)不滿足以上條件時(shí)，認(rèn)為兩者差別實(shí)在太大，無(wú)法進(jìn)行動(dòng)

47、態(tài)彎折匹配。　　在X軸上的每一幀不再需要與Y軸上的每一幀進(jìn)行比較，而只是與Y軸上間的幀進(jìn)行比較，和的計(jì)算如下式：　　................................3.7　　………………….3.8　　也可能會(huì)出現(xiàn)的情況，此時(shí)彎折匹配的三段為。</p&

48、gt;　　對(duì)于X軸上每前進(jìn)一幀，雖然所要比較的Y軸上的幀數(shù)不同，但彎折特性是一樣的，累積距離的更新都是用下式實(shí)現(xiàn)的：　　……..3.9　　由于X軸上每前進(jìn)一幀，只需要用到前一列的累積距離，所以只需要兩個(gè)列矢量D和d分別保存前一列的累積距離和計(jì)算當(dāng)前列的累積距離，而不用保存整個(gè)距離矩陣。每前進(jìn)一幀

49、都進(jìn)行更新，即按上式利用前一列的累積距離D和當(dāng)前列的所有幀匹配距離d(x,y)，求出當(dāng)前幀的累積距離，保存于矢量d中，再把新的距離d賦值給D，作為新的累積距離，供下一列使用。這樣一直前進(jìn)到X軸上最后一列，矢量D的第M個(gè)元素即為兩個(gè)模板動(dòng)態(tài)彎折的匹配距離。　　圖3-3 DTW改進(jìn)算法模型[6]　　第四章非特定人語(yǔ)音識(shí)別算法——HMM

50、　　4.1 HMM的原理　　HMM基本概念　　HMM，即隱馬爾科夫模型(Hidden Markov Model)，是在Markov鏈的基礎(chǔ)之上發(fā)展起來(lái)的。由于實(shí)際問(wèn)題比Markov鏈模型所描述的更為復(fù)雜，觀察到的事件并不是與狀態(tài)一一對(duì)應(yīng)，而是通過(guò)一組概率分布相聯(lián)系，這樣的模型就稱為HMM。它是一

51、個(gè)雙重隨機(jī)過(guò)程，其中之一是Markov鏈，這是基本隨機(jī)過(guò)程，它描述狀態(tài)的轉(zhuǎn)移。另一個(gè)隨機(jī)過(guò)程描述狀態(tài)和觀察值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系，即站在觀察者的角度，只能看到觀察值，不能直接看到狀態(tài)，而是通過(guò)一個(gè)隨機(jī)過(guò)程去感知狀態(tài)的存在及其特性。　　一個(gè)HMM模型由若干個(gè)狀態(tài)組成，隨著時(shí)間的變化，各個(gè)狀態(tài)之間可以發(fā)生轉(zhuǎn)移，也可以在一個(gè)狀態(tài)內(nèi)駐留。每個(gè)觀察向量對(duì)不同的狀態(tài)都有相應(yīng)的輸出頻率。[7]以一個(gè)包含四個(gè)狀態(tài)

52、為例，狀態(tài)之間或狀態(tài)自身的轉(zhuǎn)移概率用表示，輸入觀察序列為。每個(gè)觀察序列是一幀MFCC參數(shù)。在這個(gè)模型中，序列是可觀測(cè)的輸入序列，稱為觀察序列，而每一時(shí)刻所處的狀態(tài)卻是隱含的。下表為HMM模型的各參數(shù)及其說(shuō)明[8]：　　其中輸出概率密度函數(shù)中參數(shù)描述如下表所示。　　權(quán)系數(shù)滿足下面的條件　　……………………………4.

53、1　　這種連續(xù)混合高斯HMM通常簡(jiǎn)稱為CHMM。對(duì)于每一個(gè)狀態(tài)，都用若干個(gè)正態(tài)高斯概率密度函數(shù)（簡(jiǎn)稱為pdf）的線性組合來(lái)表示，每個(gè)pdf有各自的均值矢量和協(xié)方差矩陣，這些都是通過(guò)對(duì)大量的MFCC參數(shù)進(jìn)行統(tǒng)計(jì)得到的。　　對(duì)于HMM模型，有三個(gè)基本問(wèn)題需要解決：　?。?）給定觀察序列和HMM模型計(jì)算觀察斜率對(duì)HMM

54、模型的輸出概率。　　（2）給定觀察序列和HMM模型確定一個(gè)最優(yōu)的狀態(tài)轉(zhuǎn)移序列。　?。?）調(diào)整使最大。　　4.2 前向概率和后向概率——HMM的輸出概率計(jì)算　　1．HMM輸出概率的計(jì)算　　給定觀

55、察序列和HMM模型，如果已知狀態(tài)轉(zhuǎn)移序列，則有：　　…...4.2　　HMM模型輸出序列q的概率為：　　……………….4.3　　對(duì)所有可能的狀態(tài)轉(zhuǎn)移序列q，模型輸出觀察序列O的概率[9]。由全概率公式可得：&l

56、t;p>　　….4.4　　該式大約需要次計(jì)算，這在實(shí)際中是無(wú)法承受的。為了降低計(jì)算復(fù)雜度，可以采用前向和后向算法。　　2．HMM的前向概率和后向概率　　首先定義HMM的前向概率為：　　………………………...4.5</p&

57、gt;　　表示給定HMM模型參數(shù)，部分觀察序列在t時(shí)刻處于狀態(tài)的概率。那么有：　　初始化：　　…………………………4.6　　遞歸：　　…………...4.7

58、　　終結(jié)：　　………………………………4.8　　與前向概率相對(duì)應(yīng)，還有后向概率。定義后向概率為：　　……………………....4.9　　表示HMM模型參數(shù)，觀察序列在t時(shí)刻處于狀態(tài)i，系統(tǒng)輸出部分觀察序列的概率。&

59、lt;/p>　　后向概率也有類似的遞推公式計(jì)算：　　a) 初始化：　　……………………………4.10　　遞歸：　　………….4.11

60、;　　終結(jié)：　　前向概率和后向概率的遞推關(guān)系由下圖說(shuō)明　　圖4-1 前向概率和后向概率示意圖　　3．利用前向概率和后向概率計(jì)算輸出概率　　前向概率公式和后向概率公式巧妙地將整個(gè)觀察序列對(duì)HMM

61、模型的輸出概率分成兩個(gè)部分觀察序列的輸出概率的乘積，而且它們各自都有相應(yīng)的遞推公式，可以大大簡(jiǎn)化計(jì)算[10]。經(jīng)過(guò)分析，可以得到下面的輸出概率計(jì)算公式：　　………………4.12　　實(shí)際上，這就是HMM三個(gè)基本問(wèn)題中第一個(gè)問(wèn)題的解答。它的另一種常用的形式是：　　…………..4.13<p

62、>　　實(shí)際計(jì)算中首先計(jì)算出對(duì)于每個(gè)t和每個(gè)狀態(tài)i的前向概率和后向概率，然后套用上面的公式，計(jì)算出該觀察序列對(duì)模型的輸出概率。這兩個(gè)公式也稱為全概率公式。　　4.3 識(shí)別算法——Viterbi解碼　　Viterbi算法，不僅可以找到一條足夠好的狀態(tài)轉(zhuǎn)移路徑，還可以得到該路徑所對(duì)應(yīng)的輸出概率。同時(shí)，用Viterbi算法計(jì)算輸出概率所需要的計(jì)算量要比全概

63、率公式的計(jì)算量小很多。　　定義為時(shí)刻t時(shí)沿一條路徑，且，產(chǎn)生出的最大概率，即有　　……………..4.14　　Viterbi算法的遞推形式如下　　初始化　　………………………….4.15<

64、/p>　　…………………………………...4.16　　遞歸　　…………..4.17　　..................4.18　　終結(jié)<

65、;p>　　………………………………4.19　　…………………………..4.20　　狀態(tài)序列求?。?lt;/b>　　……………….4.21　　這里，為t時(shí)刻第i狀態(tài)的累積輸出概率，為t時(shí)刻第i狀態(tài)的前續(xù)狀態(tài)號(hào)，為最優(yōu)狀態(tài)序列中t時(shí)刻所處的狀態(tài)，

66、為最終的輸出概率。　　對(duì)語(yǔ)音處理應(yīng)用而言，動(dòng)態(tài)范圍很大，或者說(shuō)不同的Q使的值差別很大，而事實(shí)上是中舉足輕重的唯一成分，因此，常常等價(jià)地使用和，那么，Viterbi算法也能用來(lái)計(jì)算。　　4.4 Baum-Welch 算法　　這個(gè)算法實(shí)際上是解決HMM訓(xùn)練，即HMM參數(shù)估計(jì)問(wèn)題，或者說(shuō)，給定一個(gè)觀察值序列，該算法能確

67、定一個(gè)，使最大。　　由前向變量和后向變量的定義，有：　　…………..4.22　　這里，求取，使最大是一個(gè)泛函極值問(wèn)題。但是由于給定的訓(xùn)練序列有限，因而不存在一個(gè)最佳的方法來(lái)估計(jì)。在這種情況下，Baum-Welch算法利用遞歸的思想，使局部極大，最后得到模型參數(shù)。　　定義為

68、給頂訓(xùn)練序列O和模型時(shí)，時(shí)刻t時(shí)Markov鏈處于狀態(tài)和時(shí)刻t+1為狀態(tài)的概率，即　　…………………………4.23　　可以推導(dǎo)出：　　…………………4.24　　那么，時(shí)刻t時(shí)Markov鏈處于狀態(tài)的概率為：&l

69、t;p>　　…………….…………4.25　　因此，表示從狀態(tài)轉(zhuǎn)移到狀態(tài)的次數(shù)的期望值。由此，導(dǎo)出了Baum-Welch算法的重估公式[11](reestimation)：　　..…………………………………..4.26　　……………… 4.27　　…………….4.28

70、　　試推導(dǎo)該重估公式：　　引理：設(shè)為正實(shí)數(shù)，為非負(fù)實(shí)數(shù)，即，那么由對(duì)數(shù)函數(shù)的凹特性有如下結(jié)論：　　……..……….………..4.29　　………………….………..4.30　　..……………4.

71、31　　此處所有求和均是從1到S。　　定義輔助函數(shù)　　...……………4.32　　其中，為原來(lái)的模型，為新求取的模型，O為訓(xùn)練用觀察值序列，，S為某個(gè)狀態(tài)序列，那么，由引理易推出下面的定理[12]：<p&

72、gt;　　如果，那么?！?.……..4.33　　該定理構(gòu)成了重估公式的理論基礎(chǔ)：對(duì)輔助函數(shù)，重要能找到，使達(dá)到最大值，那么就能保證，從而使，這樣，新得到的模型在表示訓(xùn)練序列O方面就比原來(lái)的模型要好。一直重復(fù)這個(gè)過(guò)程，直到某個(gè)收斂點(diǎn)，就可以得到根據(jù)訓(xùn)練序列O估計(jì)出的結(jié)果模型，而使最大而求取參數(shù)的公式就稱之為重估公式。不同的，其參數(shù)，A和B就不同，重估公式的具體形式也不同[13]。<

73、;/p>　　第五章實(shí)驗(yàn)及總結(jié)　　5.1 實(shí)驗(yàn)準(zhǔn)備及步驟　　實(shí)驗(yàn)平臺(tái)為Windows平臺(tái)上，采用Matlab數(shù)學(xué)工具通過(guò)完成程序而實(shí)現(xiàn)的。本實(shí)驗(yàn)主要采用DTW算法實(shí)現(xiàn)語(yǔ)音識(shí)別。　　首先，我們使用windows自帶的錄音器，分別由我和合作者黃博錄入了

74、4組數(shù)據(jù)（1人兩組），每組8個(gè)音頻文件，本別為從“一”到“八”的漢語(yǔ)發(fā)音。其中一組為參考模板，另外一組為測(cè)試模板。　　首先用wavread函數(shù)讀入wav文件，用mfcc函數(shù)獲得其MFCC參數(shù)，用vad函數(shù)對(duì)其進(jìn)行端點(diǎn)檢測(cè)，并保存語(yǔ)音部分的MFCC參數(shù)到參考模板的機(jī)構(gòu)數(shù)組ref(i).mfcc中。　　我們比較一下兩個(gè)人的語(yǔ)音端點(diǎn)檢測(cè)的短時(shí)信號(hào)圖：</

75、p>　　圖5-1 說(shuō)話者A發(fā)音的vad輸出（1）——橫軸：時(shí)間（單位：秒）縱軸：能量——（單位：eV）（上圖）語(yǔ)音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過(guò)零率（單位：%）　　圖5-2 說(shuō)話者A發(fā)音的vad輸出（2）——橫軸：時(shí)間（單位：秒）——縱軸：能量（單位：eV）（上圖）語(yǔ)音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過(guò)零率（單位：%

76、）　　圖5-3說(shuō)話者B發(fā)音的vad輸出（2）——橫軸：時(shí)間（單位：秒）——縱軸：能量（單位：eV）（上圖）語(yǔ)音原始信號(hào)；Energy 短時(shí)能量（單位：eV）；ZCR 過(guò)零率（單位：%）　　Vad函數(shù)的功能就是通過(guò)端點(diǎn)檢測(cè)功能甄別出語(yǔ)音信號(hào)的起始點(diǎn)與結(jié)束點(diǎn)，圖中的紅線就是程序標(biāo)記的語(yǔ)音信號(hào)始末點(diǎn)，可以看出，雜音基本被排除，效果是非常明顯的。</p&g

77、t;　　同時(shí)，從以上三個(gè)圖的對(duì)比可以看出，不同發(fā)音者的發(fā)音波形及特性有較明顯區(qū)別。　　原始波形中，發(fā)音者A的波形在橫軸兩端不對(duì)稱，而發(fā)音者B的波形在橫軸兩端比較對(duì)稱；　　能量波形中，兩者的區(qū)別更加明顯：發(fā)音者A的能量高峰在語(yǔ)音后部，發(fā)音者B的能量高峰在語(yǔ)音前部；　　過(guò)零率波形中也可以明顯看出

78、兩個(gè)人的區(qū)別。端點(diǎn)檢測(cè)下的短時(shí)能量分析只是語(yǔ)音識(shí)別的第一步，但是通過(guò)該步驟已經(jīng)可以粗略的區(qū)別出不同發(fā)音者，并且可以進(jìn)一步分析發(fā)音者語(yǔ)音信號(hào)的特點(diǎn)。由此證明了端點(diǎn)檢測(cè)在語(yǔ)音識(shí)別中是非常重要的。　　5.2 實(shí)驗(yàn)結(jié)果及討論　　本實(shí)驗(yàn)的MATLAB運(yùn)行環(huán)境中輸出結(jié)果如下列圖所示：　　圖5-4 說(shuō)話者A的兩組語(yǔ)音匹配結(jié)果及

79、距離匹配矩陣　　圖6 說(shuō)話者B的兩組語(yǔ)音匹配結(jié)果及距離矩陣　　從輸出記過(guò)看，識(shí)別具有了一定程度的正確度。為了進(jìn)一步驗(yàn)證結(jié)果，看一下匹配距離矩陣dist的數(shù)據(jù)如下圖所示：　　距離矩陣的對(duì)角線上是正確匹配模板的對(duì)應(yīng)分?jǐn)?shù)，可見(jiàn)對(duì)角線上的8個(gè)數(shù)值中有50%都是在本行中最小的，由此驗(yàn)證了識(shí)別結(jié)果的正確性。

80、;　　圖5-5說(shuō)話者B的兩組語(yǔ)音匹配結(jié)果及距離匹配矩陣　　圖5-6說(shuō)話者A和B 的語(yǔ)音匹配結(jié)果及距離匹配矩陣　　圖5-7 說(shuō)話者A和B的匹配矩陣的三維曲面圖　　圖5-8 說(shuō)話者A和B的匹配矩陣的的三維柱狀圖　　圖5-9 說(shuō)話者A和B的匹配矩陣的灰度視

81、圖　　結(jié)果顯示：說(shuō)話者A的自匹配識(shí)別率為89%，說(shuō)話者B的自匹配識(shí)別率也為89% ，而A和B之間的識(shí)別率為62% 。　　圖5-4，圖5-5，圖5-6中的匹配矩陣元為每個(gè)語(yǔ)音信號(hào)和參考模板中所有共8個(gè)語(yǔ)音信號(hào)的匹配距離，可以看出，在正確識(shí)別情況下，矩陣對(duì)角線上的矩陣元是本行中最小的（同一個(gè)語(yǔ)音信號(hào)和自己匹配距離最?。谄ヅ涫〉那闆r下，對(duì)角線上的矩陣元也

82、是次最小的。這一結(jié)果說(shuō)明了DTW的可靠性和穩(wěn)定性。　　圖5-7，圖5-8，圖5-9以不同方式直觀的顯示了矩陣元的大小關(guān)系。X軸表示說(shuō)話者A的語(yǔ)音信號(hào)編號(hào)，Y軸表示說(shuō)話者B的語(yǔ)音信號(hào)編號(hào)，Z軸表示矩陣元的大小。　　三維曲面圖中的藍(lán)色部分，灰度圖中的全黑色部分為數(shù)值較小區(qū)域，可以看書，這個(gè)區(qū)域基本是在對(duì)角線上的?；叶葓D中的紅色連線便顯示了黑色方塊分布在對(duì)角線

83、上及附近。　　自匹配的識(shí)別準(zhǔn)確率達(dá)到90%，而不同發(fā)音者之間的識(shí)別率有明顯下降，為60%。這也是顯示出DTW算法在非特定人語(yǔ)音識(shí)別中不如特定人語(yǔ)音識(shí)別準(zhǔn)確。　　文獻(xiàn)[1]指出，使用DTW算法的特定人孤立字語(yǔ)音識(shí)別率能高達(dá)近100% ，而我們始終無(wú)法達(dá)到這一效果。有幾方面的原因：　　1．錄音設(shè)備和程序偏簡(jiǎn)單。一個(gè)非

84、常良好和精確的模板庫(kù)是高效率語(yǔ)音識(shí)別系統(tǒng)的基礎(chǔ)。我們使用簡(jiǎn)易麥克風(fēng)和windows自帶錄音程序可能無(wú)法建立一個(gè)完備的模板庫(kù)。　　2．DTW算法自身的缺陷。DTW自身算法只適用于孤立字語(yǔ)音識(shí)別，而且是簡(jiǎn)單字。因此識(shí)別機(jī)理上更加先進(jìn)的HMM和ANN方法能夠滿足更高的要求。對(duì)DTW算法進(jìn)行改進(jìn)（比如端點(diǎn)檢測(cè)）已經(jīng)提高了該算法的識(shí)別率。　　3．DTW算法僅限于

85、孤立字的語(yǔ)音識(shí)別，而連續(xù)語(yǔ)音的識(shí)別目前來(lái)說(shuō)還比較難以達(dá)到高的識(shí)別率，這也是今后語(yǔ)音識(shí)別課題研究發(fā)展的方向。　　5.3 實(shí)驗(yàn)結(jié)論　　課題最終在MATLAB平臺(tái)的基礎(chǔ)上基本實(shí)現(xiàn)了個(gè)別個(gè)體的特定語(yǔ)音識(shí)別，基本上達(dá)到了預(yù)定的目的?；贒TW模型的語(yǔ)音識(shí)別簡(jiǎn)單的說(shuō)就是通過(guò)MATLAB的程序段，將待識(shí)別的語(yǔ)音信號(hào)與數(shù)據(jù)庫(kù)中的模板

86、進(jìn)行相似度對(duì)比，將相似度最高者最為識(shí)別結(jié)果輸出，同時(shí)DTW的識(shí)別效率取決于參考模板的清晰度以及廣泛度，如果能夠建立一個(gè)范圍龐大而且清晰的特定人語(yǔ)音庫(kù)，將能夠大大提高語(yǔ)音識(shí)別的效率。我們的試驗(yàn)由于時(shí)間以及外部設(shè)備的關(guān)系，難以組建一個(gè)非常精確的參考樣本，因此識(shí)別的效率略微偏低，不過(guò)已經(jīng)足夠說(shuō)明DTW識(shí)別算法在特定人孤立字語(yǔ)音識(shí)別中的巨大作用。本文對(duì)于DTW算法提出了幾條在實(shí)際操作中切實(shí)可行的改進(jìn)建議，并對(duì)MFCC參數(shù)編程和ANN的應(yīng)用進(jìn)行了

87、探討。在程序中，由于受數(shù)據(jù)庫(kù)的局限，并沒(méi)有實(shí)現(xiàn)對(duì)于語(yǔ)音的模糊識(shí)別，但個(gè)別個(gè)體的特定語(yǔ)音識(shí)別也具有廣泛的用途。　　參考文獻(xiàn):　　[1] Rabiner L, Juang B H. Fundamentals of Speech Recognition, Prentice-Hall International. Inc,

88、1999, p.17　　[2] D.G.Childers, Matlab之語(yǔ)音處理與合成工具箱（影印版）, 清華大學(xué)出版社, 2004, p.45-51　　[3] 黃文梅, 熊桂林, 楊勇, 信號(hào)分析與處理—MATLAB語(yǔ)言及應(yīng)用, 國(guó)防科技大學(xué)出版社, 2000, p.37-40　　[4] 楊行峻, 遲惠生,“

89、語(yǔ)音數(shù)字信號(hào)處理”, 電子工業(yè)出版社. 1995　　[5] 張焱, 張杰, 黃志同, 語(yǔ)音識(shí)別中動(dòng)態(tài)時(shí)間規(guī)整和隱馬爾可夫統(tǒng)一模型數(shù)據(jù)采集與處理 1997年03期 p.218-222　　[6] 何強(qiáng), 何英, MATLAB擴(kuò)展編程[M], 清華大學(xué)出版社, 2002 p.345-347　　[7] Rabiner

90、L and Juang B H. Introduction to hidden Markov models, IEEE ASSP Mag, vol.3,no.1,4-16,1986　　[8] Huang X D. Hidden Markov Models for Speech Recognition, Edinburgh Information Technology Series.1999(7)

91、:136-202　　[9] Rabiner L, A tutorial on hidden Markov models and selected applications in speech recognition, Proc, of IEEE, 77(2)257-286,1989　　[10] Jen+Tzung Chien, Predictive Hi

92、dden Markov Model Selection for Speech Recognition, IEEE Transaction on Speech and Audio Processing, vol.13, No.3, May 2005　　[11] 謝錦輝, 隱Markov模型(HMM)及其在語(yǔ)音處理中的應(yīng)用, 華中理工大學(xué)出版社.　　[12]

93、 Christoph Gerber, A General Approach to Speech Recognition, Electronic Workshops in Computing, 1995　　[13] Xu Bo, FENG Yuguang, YU Jinsong, Intelligent classifier for dynamic fault patterns based on

94、Hidden Markov Model　　[14] MATLAB Primer, seventh edition, Chapman & Hall/CRC 2005　　[15] Ara V.Nefian. Luhong Liang, Dynamic Bayesian Networks for Audio-Visual Speech Recognit

95、ion, EURASIP Journal on Applied Signal Processing 2002:11,1-15　　致謝　　感謝本論文的導(dǎo)師xx老師。讓人耳目一新的是他的治學(xué)風(fēng)格，讓我們明白了科研并不是老師手把手帶學(xué)生，而是引導(dǎo)學(xué)生發(fā)現(xiàn)問(wèn)題，然后大量收集資料，潛心鉆研。而且，每當(dāng)我有一些棘手的問(wèn)題時(shí)，

96、也能在他那里得到非常及時(shí)的幫助。　　感謝我們組的xx同學(xué)，這篇論文的每個(gè)實(shí)驗(yàn)細(xì)節(jié)和每個(gè)數(shù)據(jù)，都離不開(kāi)你和我共同的辛勤勞動(dòng)，非常愉快的合作和溝通。還要感謝04級(jí)的xx同學(xué)幫助我們對(duì)MATLAB迅速入門。　　感謝我的室友。四年了，仿佛就在昨天。四年里，我們沒(méi)有紅過(guò)臉，沒(méi)有吵過(guò)嘴，沒(méi)有發(fā)生上大學(xué)前所擔(dān)心的任何不開(kāi)心的事情。只是今后大家就難得再聚在一起吃頓飯了吧

97、，沒(méi)關(guān)系，各奔前程，大家珍重。但愿遠(yuǎn)赴xx平安，留守復(fù)旦的xx加油，還有xx工作順利。我們?cè)谝黄鸬娜兆?，我?huì)記一輩子的。　　感謝我的爸爸媽媽，焉得諼草，言樹之背，養(yǎng)育之恩，無(wú)以回報(bào)，你們永遠(yuǎn)健康快樂(lè)是我最大的心愿。　　在論文即將完成之際，我的心情無(wú)法平靜，從開(kāi)始進(jìn)入課題到論文的順利完成，有多少可敬的師長(zhǎng)、同學(xué)、朋友給了我無(wú)言的幫助，在這里請(qǐng)接受我誠(chéng)摯的謝

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

畢業(yè)論文---利用matlab平臺(tái)實(shí)現(xiàn)少量字的語(yǔ)音識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

畢業(yè)論文---利用matlab平臺(tái)實(shí)現(xiàn)少量字的語(yǔ)音識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載