

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語(yǔ)音是人類獲取信息的主要來(lái)源之一,也是最方便、最有效、最自然的交流工具。說(shuō)話人識(shí)別技術(shù)在近三十多年的時(shí)間里取得了很大的進(jìn)步,這種技術(shù)的應(yīng)用為人類的日常生活帶來(lái)很大的便利。但是,隨著說(shuō)話人識(shí)別的實(shí)用化,不同應(yīng)用領(lǐng)域?qū)ζ湟笠苍絹?lái)越高。一方面,發(fā)音的多變性使說(shuō)話人識(shí)別系統(tǒng)的適應(yīng)性還有待提高;另一方面,噪聲、訓(xùn)練時(shí)間以及通信信道失真等問(wèn)題也會(huì)產(chǎn)生很大的影響。對(duì)于說(shuō)話人識(shí)別來(lái)說(shuō),最主要的兩個(gè)問(wèn)題是如何從語(yǔ)音中提取單純反映說(shuō)話人身份信息的魯棒特征
2、,以及如何建立有效的識(shí)別模型達(dá)到實(shí)際應(yīng)用中對(duì)速度、數(shù)據(jù)量、使用條件等方面的要求。本文針對(duì)漢語(yǔ)語(yǔ)音的特點(diǎn),從分離身份信息和提高系統(tǒng)魯棒性兩個(gè)方面出發(fā)對(duì)漢語(yǔ)說(shuō)話人識(shí)別展開研究,提出了新的說(shuō)話人識(shí)別框架、模型和算法,主要取得了以下創(chuàng)新性成果。 本文的核心是提出了一種新的基于漢語(yǔ)元音映射的說(shuō)話人識(shí)別框架。該框架的基礎(chǔ)是將漢語(yǔ)韻母中的元音部分以單元音音素為單位進(jìn)行分解,對(duì)此我們使用頻譜對(duì)比、特征對(duì)比、單元音滑動(dòng)統(tǒng)計(jì)分布、分類器識(shí)別率等方式
3、證實(shí)了從短時(shí)幀角度出發(fā),漢語(yǔ)韻母可以分解為單元音音素的組合,并通過(guò)大量的實(shí)驗(yàn)建立了漢語(yǔ)韻母到單元音的映射表。相對(duì)于傳統(tǒng)的說(shuō)話人識(shí)別模型,新框架增加了漢語(yǔ)單元音音素分類模塊進(jìn)行韻母分解,并將多個(gè)針對(duì)單元音的說(shuō)話人識(shí)別器組織起來(lái)代替?zhèn)鹘y(tǒng)的匹配或統(tǒng)計(jì)模塊對(duì)幀特征進(jìn)行處理。根據(jù)這個(gè)框架,每個(gè)針對(duì)單元音的說(shuō)話人識(shí)別器進(jìn)行說(shuō)話人識(shí)別時(shí)避免了語(yǔ)義信息的干擾,增強(qiáng)了分類的針對(duì)性;同時(shí),整個(gè)系統(tǒng)以短時(shí)幀作為基本識(shí)別單位,更易于達(dá)到實(shí)時(shí)處理的目標(biāo)。
4、 根據(jù)基于漢語(yǔ)元音映射的說(shuō)話人識(shí)別框架,提出了基于漢語(yǔ)元音分類的矢量量化說(shuō)話人識(shí)別方法。由于每個(gè)矢量量化分類器在訓(xùn)練和識(shí)別過(guò)程中避免了語(yǔ)義信息的影響,該方法利用較小的碼本就可以獲得較高的識(shí)別率。然而,為了保證碼本質(zhì)量,需要大量的訓(xùn)練數(shù)據(jù)和識(shí)別數(shù)據(jù)。針對(duì)說(shuō)話人識(shí)別方法需要大量數(shù)據(jù)參與訓(xùn)練和識(shí)別的缺點(diǎn),結(jié)合新框架,本文又提出了基于仿生模式識(shí)別的漢語(yǔ)說(shuō)話人識(shí)別方法。該方法在訓(xùn)練過(guò)程中為每個(gè)說(shuō)話人的每個(gè)單元音音素幀特征在特征空間中建立一個(gè)包絡(luò);
5、識(shí)別時(shí)通過(guò)分析測(cè)試幀特征與包絡(luò)的關(guān)系進(jìn)行判決,大大縮減了對(duì)訓(xùn)練和識(shí)別數(shù)據(jù)量的需求。在研究過(guò)程中,我們發(fā)現(xiàn)基于漢語(yǔ)元音映射的說(shuō)話人識(shí)別框架由于增加了單元音分類模塊,會(huì)帶來(lái)分類誤差并導(dǎo)致識(shí)別速度下降。對(duì)此,結(jié)合集成學(xué)習(xí)理論,我們提出了基于漢語(yǔ)元音映射的神經(jīng)網(wǎng)絡(luò)集成說(shuō)話人識(shí)別方法。該方法在識(shí)別過(guò)程中不需要預(yù)先對(duì)測(cè)試語(yǔ)音幀進(jìn)行元音分類,省略了元音分類模塊,從而避免引入元音分類誤差,加快了識(shí)別速度。此外,針對(duì)新的說(shuō)話人識(shí)別框架的特點(diǎn),本文在預(yù)處理
6、和抗噪方面也進(jìn)行了研究和改進(jìn),主要包括:提出了基于頻譜特征的自適應(yīng)元音幀提取算法,在損失端點(diǎn)檢測(cè)準(zhǔn)確性的前提下提高元音幀提取的速度和正確率;結(jié)合諧波積譜思想改進(jìn)了基音提取算法:提出了基于背景估計(jì)的自適應(yīng)抗噪方法,實(shí)現(xiàn)GMM模型下數(shù)據(jù)噪聲背景不同時(shí)特征的提取、修正和識(shí)別;針對(duì)測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)背景不同的情況,從特征值處理和模型補(bǔ)償兩方面考慮,提出了基于高斯混合模型的加權(quán)特征補(bǔ)償變換的抗噪方法,進(jìn)一步改善了系統(tǒng)的性能。 從本文一系列
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于GMM的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于特定文本的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于高斯混合模型的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 多說(shuō)話人識(shí)別技術(shù)研究.pdf
- 抗噪聲說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于VQ與HMM的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于小波分析的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于GMM的說(shuō)話人識(shí)別技術(shù)研究與實(shí)現(xiàn).pdf
- 基于矢量量化的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于HHT與信息融合的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 說(shuō)話人識(shí)別技術(shù)研究與改進(jìn).pdf
- 基于JFA的漢語(yǔ)耳語(yǔ)音說(shuō)話人識(shí)別.pdf
- 基于GMM-UBM的穩(wěn)健的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于若干聲紋信息空間的說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于稀疏表示的魯棒性說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于IP網(wǎng)絡(luò)的魯棒性說(shuō)話人識(shí)別技術(shù)研究.pdf
- 噪聲環(huán)境下說(shuō)話人識(shí)別技術(shù)研究.pdf
- 基于壓縮感知的魯棒性說(shuō)話人識(shí)別技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論