

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語(yǔ)音識(shí)別技術(shù),也被稱(chēng)為自動(dòng)語(yǔ)音識(shí)別(ASR),其目標(biāo)是讓機(jī)器聽(tīng)懂人類(lèi)的語(yǔ)言。經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,隨著ASR技術(shù)研究的不斷突破,其對(duì)計(jì)算機(jī)發(fā)展和社會(huì)生活的重要性日益凸現(xiàn)出來(lái)。以語(yǔ)音識(shí)別技術(shù)開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如語(yǔ)音撥號(hào)、語(yǔ)音文檔檢索、語(yǔ)音聊天助手,同聲翻譯、智能家居、醫(yī)療服務(wù)、工業(yè)控制、語(yǔ)音通信系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)和各個(gè)方面。近些年來(lái),隨著Siri的走紅,類(lèi)似Siri、搜狗語(yǔ)音助手這樣利用語(yǔ)音實(shí)現(xiàn)控制,語(yǔ)義理解的系
2、統(tǒng)開(kāi)始大量涌現(xiàn)。而ASR作為這類(lèi)系統(tǒng)的入口,很大程度上決定了這類(lèi)應(yīng)用的質(zhì)量。沒(méi)有一個(gè)好的語(yǔ)音識(shí)別系統(tǒng)做支撐,再好的助手也只能是個(gè)擺設(shè)。所以ASR作為實(shí)現(xiàn)人機(jī)自由交互的關(guān)鍵技術(shù)是非常值得深入研究的。本文主要分析研究隱馬爾科夫模型(HMM)原理和深度神經(jīng)網(wǎng)絡(luò)(DNN)原理在語(yǔ)音識(shí)別中的應(yīng)用,并以HMM工具包(HTK)為平臺(tái),搭建一個(gè)IP語(yǔ)音撥號(hào)識(shí)別系統(tǒng)。本文所做的工作與貢獻(xiàn)總結(jié)如下:
1.概述語(yǔ)音識(shí)別的研究背景與意義以及國(guó)內(nèi)外發(fā)展
3、現(xiàn)狀。介紹語(yǔ)音信號(hào)的預(yù)處理,深入研究語(yǔ)音識(shí)別中涉及到的關(guān)鍵技術(shù)。
2.制作語(yǔ)音數(shù)據(jù)庫(kù)。編寫(xiě)腳本生成25個(gè)隨機(jī)文本,每個(gè)文本包含50句隨機(jī)IP格式的英文句子,分配給25人(12男13女)錄音,共錄制1250句。其中1000句作為訓(xùn)練樣本(或稱(chēng)為語(yǔ)料),250句作為測(cè)試樣本。錄音數(shù)據(jù)全部統(tǒng)一采用windows系統(tǒng)中常用的WAV格式保存。
3.在HTK平臺(tái)上搭建一個(gè)IP語(yǔ)音撥號(hào)系統(tǒng),使用錄制的1000句語(yǔ)料訓(xùn)練出四種類(lèi)型的
4、模型,單因素HMM模型,三音素HMM模型,綁定狀態(tài)三因素HMM模型,以及DNN-HMM模型。分別使用這四種模型測(cè)試250句樣本,對(duì)比它們各自的單詞識(shí)別率和句子識(shí)別率,其中DNN-HMM模型的單詞和句子識(shí)別率在四種模型中均為最高,說(shuō)明神經(jīng)網(wǎng)絡(luò)模型相對(duì)于傳統(tǒng)的隱馬爾科夫模型而言,對(duì)語(yǔ)音的擬合性更強(qiáng)。但DNN-HMM模型屬于深度模型,復(fù)雜度很高,相同的數(shù)據(jù)在訓(xùn)練和解碼過(guò)程均需要較長(zhǎng)的時(shí)間,所以它對(duì)硬件的計(jì)算能力有更高的要求。
4.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 小詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 基于HTK的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于詞網(wǎng)語(yǔ)言模型的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 非特定人漢語(yǔ)連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的研究及應(yīng)用.pdf
- 小詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究.pdf
- 基于HMM建模的蒙古語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 漢語(yǔ)數(shù)碼語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 在線情感語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于HMM的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì).pdf
- 嵌入式連續(xù)語(yǔ)音識(shí)別系統(tǒng)研究.pdf
- 維吾爾語(yǔ)孤立詞和連續(xù)數(shù)字語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 語(yǔ)音識(shí)別系統(tǒng)的研究.pdf
- 抗噪語(yǔ)音識(shí)別系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于HTK和Microsoft Speech SDK的連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究及實(shí)現(xiàn).pdf
- 基于FPGA的語(yǔ)音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于FPGA語(yǔ)音識(shí)別系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 車(chē)載語(yǔ)音識(shí)別系統(tǒng)的研究及DSP實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論