版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、在未來幾十年,先進通信將迅速改變?nèi)藗兊纳詈凸ぷ鞣绞?隨時、隨地使用一定范圍內(nèi)的設備進行實時通信和實時數(shù)據(jù)處理將逐漸成為現(xiàn)實,基于嵌入式計算平臺的自動語音識別(Automatie speech Recognition,ASR)是關鍵技術之一。
許多在實驗室表現(xiàn)優(yōu)異的ASR系統(tǒng),一旦應用到復雜的實際噪聲環(huán)境就馬上變得不穩(wěn)定;另一方面,魯棒性高的識別系統(tǒng)往往依賴于高計算量,只適合運行于PC平臺甚至高性能服務器。如何降低ASR系
2、統(tǒng)的計算復雜度使之適合嵌入式平臺,并提高其在復雜噪聲環(huán)境下的魯棒性,是嵌入式ASR研究的重點和難點。目前,嵌入式ASR應用系統(tǒng)多為分布式結(jié)構(gòu),即在目標設備上裝載語音識別前端,將復雜的語音識別后端放置在服務器。本文著重研究基于嵌入式計算平臺的自動語音識別前端關鍵技術。
作為ASR的第一步,有效的語音端點檢測可減少系統(tǒng)后續(xù)處理時間,排除無聲段噪聲干擾,提高語音識別準確率。本文提出了兩種語音端點檢測新方法。其一,將時域?qū)?shù)能量特
3、征與頻域譜熵特征相結(jié)合,提出基于對數(shù)能量譜熵的端點檢測方法,由于其計算簡單可應用于中低端嵌入式平臺;其二,針對抗噪性能優(yōu)良但計算稍復雜的非線性語音特征端點檢測,提出基于樣本熵的語音端點檢測方法,有望應用于高端嵌入式平臺。仿真實驗表明,兩種新方法在低信噪比環(huán)境下,比傳統(tǒng)的能量法、譜熵法、能量譜熵法、對數(shù)能量法等都具有更好的魯棒性,能更好地區(qū)分語音和噪聲,檢測準確率更高。
語音增強是從含有噪聲的語音信號中盡可能消除噪聲,還原出
4、純凈語音信號。完全消噪是不可能的,實際系統(tǒng)中的語音增強以抑制背景噪聲、保護和提高感知語音質(zhì)量為目的?;诙虝r譜估計的語音增強算法由于計算簡單最適宜嵌入式平臺,但有時會造成語音失真。本文分析比較了幾種典型短時譜估計算法計算復雜度,針對其中乘加計算量最小的RL算法進行改進,引入人耳掩蔽效應,提出基于Bark域的RL改進算法,并進一步降低了計算量。實驗表明,改進后的算法能顯著抑制噪聲,并有更好的語音質(zhì)量,有效減少了語音失真。
語
5、音特征提取是ASR前端的最后一個環(huán)節(jié)也是最重要的環(huán)節(jié),特征提取質(zhì)量對識別結(jié)果起決定性作用。美爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)以其良好的性能成為ASR系統(tǒng)標準前端,本文針對標準MFCC提取過程進行了兩點改進:一是調(diào)整了漢明窗系數(shù),提高窗函數(shù)性能;二是將子帶頻譜質(zhì)心(Subband Spectrum Centroid,SSC)加入MFCC過程。傳統(tǒng)語音特征提取利用了語音幅度信息
6、卻忽略了頻譜信息,由于各頻帶頻譜峰值位置受背景噪聲影響相對較小,具有更好的魯棒性,而SSC非常接近頻譜中的峰值位置,本文將SCC引入MFCC,提出基于美爾子帶頻譜質(zhì)心(Mel Subband Spectrum Centroid,MSSC)的語音特征提取新方法。HTK仿真實驗表明,新漢明窗及MSSC語音特征提取新方法與傳統(tǒng)MFCC法比較,低信噪比環(huán)境下的識別率平均提高了17.13%。
將上述語音端點檢測算法、語音增強算法和語
7、音特征提取算法集成為一個ASR前端實驗系統(tǒng)。本文選擇ADI公司的多媒體高性能ADSP-BF533作為嵌入式平臺,將該前端系統(tǒng)進行優(yōu)化并成功移植,驗證了其在嵌入式平臺上實現(xiàn)的可行性。最后,將上述部分研究成果用于移動學習平臺原型系統(tǒng)設計,并進一步研究了教學資源知識表示技術,提出了一種本體概念相似度計算新方法;研究了AMR-WB編碼器優(yōu)化技術,提出了一種快速固定碼本搜索方法。該原型系統(tǒng)在中山讀書郎公司的兒童早教機、學生掌上電腦和數(shù)碼讀書機系列
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語音識別關鍵技術研究.pdf
- 嵌入式語音合成關鍵技術研究.pdf
- 語音情感識別關鍵技術研究.pdf
- 面向嵌入式計算的語音識別技術的實驗研究.pdf
- 自動車牌識別關鍵技術研究.pdf
- 面向垃圾語音過濾的快速說話人識別關鍵技術研究.pdf
- 嵌入式人機語音交互系統(tǒng)關鍵技術研究.pdf
- 基于嵌入式平臺的人臉識別關鍵算法研究.pdf
- 噪聲環(huán)境下的語音識別關鍵技術研究.pdf
- 語音識別關鍵技術研究及系統(tǒng)實現(xiàn).pdf
- 嵌入式語音合成系統(tǒng)實現(xiàn)中關鍵技術研究.pdf
- 嵌入式數(shù)控軟件平臺關鍵技術研究.pdf
- 嵌入式平臺語音識別技術的研究.pdf
- 基于切片技術的自動特征識別關鍵技術研究.pdf
- 嵌入式Linux關鍵技術研究.pdf
- 面向移動終端的車牌識別關鍵技術研究.pdf
- 面向機器人對話的語音識別關鍵技術的研究.pdf
- 步態(tài)識別關鍵技術研究.pdf
- 面向大數(shù)據(jù)集成的實體識別關鍵技術研究.pdf
- 面向監(jiān)控圖像的行人再識別關鍵技術研究.pdf
評論
0/150
提交評論