版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自動(dòng)說(shuō)話(huà)人識(shí)別技術(shù)在眾多需要語(yǔ)音輔助的應(yīng)用下,已發(fā)展成為越來(lái)越重要的現(xiàn)代生物認(rèn)證技術(shù)。自動(dòng)說(shuō)話(huà)人識(shí)別最主要的挑戰(zhàn)來(lái)自處理測(cè)試語(yǔ)料的缺失以及獲取語(yǔ)音時(shí)環(huán)境和信道的差異問(wèn)題。之前的研究表明,對(duì)于訓(xùn)練和測(cè)試聲學(xué)環(huán)境一致的高質(zhì)量語(yǔ)音已可以獲得很好的結(jié)果,比如采用干凈的寬帶語(yǔ)音和高斯混合模型(Gaussian Mixture Model,GMM)組成的說(shuō)話(huà)人辨認(rèn)和確認(rèn)都能獲得很高的識(shí)別率。然而現(xiàn)實(shí)生活中,往往遇到語(yǔ)料缺失、信道失配甚至遠(yuǎn)距離等環(huán)境
2、,此環(huán)境下基于GMM的說(shuō)話(huà)人識(shí)別系統(tǒng)性能?chē)?yán)重下降,很難達(dá)到讓人滿(mǎn)意的結(jié)果。為了進(jìn)一步提高說(shuō)話(huà)人識(shí)別的實(shí)用性,魯棒性研究是說(shuō)話(huà)人識(shí)別領(lǐng)域至關(guān)重要的研究熱點(diǎn)。
目前,訓(xùn)練及測(cè)試信道變化是阻礙說(shuō)話(huà)人識(shí)別發(fā)展的最大障礙,該變化可以是:訓(xùn)練與測(cè)試語(yǔ)音分別來(lái)自不同類(lèi)型的傳輸信道;信道類(lèi)型相同卻來(lái)自不同類(lèi)型的采集設(shè)備(話(huà)機(jī)、麥克風(fēng)等);訓(xùn)練與測(cè)試時(shí)采集環(huán)境(安靜、噪聲)或采集方式(近距離、遠(yuǎn)距離)不同等。本文在信道變化方面的研究,主要集
3、中在遠(yuǎn)距離說(shuō)話(huà)人辨認(rèn)、訓(xùn)練與測(cè)試語(yǔ)音傳輸信道不同的說(shuō)話(huà)人確認(rèn)方面。
本文的主要工作和創(chuàng)新成果點(diǎn)集中在以下幾個(gè)方面:
(1)針對(duì)短語(yǔ)音說(shuō)話(huà)人辨認(rèn)訓(xùn)練及測(cè)試語(yǔ)料不充分的特點(diǎn),對(duì)特征參數(shù)和GMM模型進(jìn)行優(yōu)化和改進(jìn),提出一種基于局部模糊主成分分析(Principal Component Analysis,PCA)的GMM說(shuō)話(huà)人辨認(rèn)方法。該方法采用特征組合代替單一特征,以提高有效特征維數(shù)來(lái)彌補(bǔ)特征樣本的不足,并用局部模
4、糊PCA對(duì)組合特征進(jìn)行有效降維,在對(duì)識(shí)別率影響很小的前提下,降低了系統(tǒng)的時(shí)空復(fù)雜度。原始特征維數(shù)由48維優(yōu)化到16維,同時(shí)建模時(shí)間減少了近65%。本文還對(duì)GMM參數(shù)初始化方法進(jìn)行改進(jìn),提出分裂法與模糊K均值聚類(lèi)相結(jié)合方法。該改進(jìn)算法與傳統(tǒng)初始化方法相比能有效提高短語(yǔ)音說(shuō)話(huà)人辨認(rèn)性能。
(2)當(dāng)測(cè)試語(yǔ)音在遠(yuǎn)距離環(huán)境采集時(shí),為提高遠(yuǎn)距離說(shuō)話(huà)人辨認(rèn)的魯棒性,提出了三種補(bǔ)償技術(shù)。第一種補(bǔ)償在特征提取前采用譜減法去除測(cè)試語(yǔ)音的后期混
5、響以達(dá)到語(yǔ)音增強(qiáng)的目的,使之盡量減小與訓(xùn)練語(yǔ)音的質(zhì)量差異;第二種補(bǔ)償是在特征提取階段采用特征彎折方法,使同一個(gè)說(shuō)話(huà)人的訓(xùn)練和測(cè)試語(yǔ)音的特征空間分布盡量吻合;第三種補(bǔ)償技術(shù)是在短語(yǔ)音說(shuō)話(huà)人辨認(rèn)的研究基礎(chǔ)上,同樣對(duì)GMM模型參數(shù)初始化進(jìn)行改進(jìn),提出分裂法與K均值聚類(lèi)相結(jié)合的模型補(bǔ)償方法。三種補(bǔ)償方法分別對(duì)應(yīng)說(shuō)話(huà)人辨認(rèn)的語(yǔ)音增強(qiáng)、特征提取及模型建立三個(gè)重要階段,與傳統(tǒng)GMM方法相比,很大程度上提高了遠(yuǎn)距離說(shuō)話(huà)人辨認(rèn)的系統(tǒng)性能。
6、(3)在目前解決信道變化環(huán)境下說(shuō)話(huà)人確認(rèn)的最流行算法聯(lián)合因子分析(Joint Factor Analysis,JFA)基礎(chǔ)上,對(duì)傳統(tǒng)JFA模型訓(xùn)練進(jìn)行改進(jìn),提出一種基于本征信道的空間拼接技術(shù),以解決在訓(xùn)練時(shí)因各種信道的語(yǔ)音不均衡而導(dǎo)致的說(shuō)話(huà)人確認(rèn)性能下降問(wèn)題。該拼接算法對(duì)每一種信道下的語(yǔ)音訓(xùn)練成相應(yīng)的本征信道空間矩陣,接著對(duì)訓(xùn)練好的各種信道下的本征信道空間矩陣進(jìn)行拼接,作為最后JFA模型中本征信道的初始化,再通過(guò)訓(xùn)練得到最終本征信道矩陣
7、。在JFA技術(shù)的基礎(chǔ)上,又進(jìn)一步研究了I-矢量(Identity-Vector,I-Vector)說(shuō)話(huà)人確認(rèn)技術(shù)。分析目前存在于I-Vector上的多種信道補(bǔ)償技術(shù),提出了線(xiàn)性鑒別分析(Linear Discriminant Analysis,LDA)與類(lèi)內(nèi)協(xié)方差規(guī)整(Within-Class Covariance Normalization,WCCN)相結(jié)合的信道補(bǔ)償技術(shù),該算法結(jié)合了LDA的最大區(qū)分性和WCCN的最小化總體代價(jià)的優(yōu)點(diǎn)
8、,能有效提高I-Vector說(shuō)話(huà)人確認(rèn)性能。
(4)在I-Vector空間應(yīng)用概率線(xiàn)性鑒別分析(Probabilistic Linear Discriminant Analysis,PLDA)模型解決說(shuō)話(huà)人確認(rèn)中說(shuō)話(huà)人和信道差異的基礎(chǔ)上,本文提倡采用一種無(wú)壓縮的I-Vector形式。一個(gè)I-Vector本質(zhì)上是來(lái)自一個(gè)語(yǔ)音段的低維矢量,它包含了說(shuō)話(huà)人和信道的信息。當(dāng)PLDA應(yīng)用于I-Vector時(shí),有兩次降維——第一次是I
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于稀疏表示的短語(yǔ)音說(shuō)話(huà)人識(shí)別.pdf
- 基于深度學(xué)習(xí)的短語(yǔ)音說(shuō)話(huà)人識(shí)別研究.pdf
- 基于含噪短語(yǔ)音的魯棒說(shuō)話(huà)人識(shí)別研究.pdf
- 面向短語(yǔ)音的說(shuō)話(huà)人識(shí)別研究與實(shí)現(xiàn).pdf
- 基于高層信息融合的短語(yǔ)音說(shuō)話(huà)人識(shí)別方法研究.pdf
- 不匹配信道下耳語(yǔ)音說(shuō)話(huà)人識(shí)別研究.pdf
- 基于說(shuō)話(huà)人識(shí)別信道補(bǔ)償?shù)难芯?pdf
- 基于稀疏表示和信道補(bǔ)償?shù)恼f(shuō)話(huà)人識(shí)別.pdf
- 基于說(shuō)話(huà)人轉(zhuǎn)換的語(yǔ)音識(shí)別方法.pdf
- 基于語(yǔ)音混合特征說(shuō)話(huà)人識(shí)別的研究.pdf
- 復(fù)雜信道下的說(shuō)話(huà)人識(shí)別.pdf
- 耳語(yǔ)音說(shuō)話(huà)人識(shí)別的研究.pdf
- 基于JFA的漢語(yǔ)耳語(yǔ)音說(shuō)話(huà)人識(shí)別.pdf
- 基于瞬時(shí)頻率估計(jì)的耳語(yǔ)音說(shuō)話(huà)人識(shí)別研究.pdf
- 說(shuō)話(huà)人識(shí)別中的信道補(bǔ)償.pdf
- 基于說(shuō)話(huà)人識(shí)別的因特網(wǎng)語(yǔ)音傳輸系統(tǒng).pdf
- 基于SVM的含噪耳語(yǔ)音說(shuō)話(huà)人識(shí)別研究.pdf
- 短語(yǔ)音文本相關(guān)說(shuō)話(huà)人識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 說(shuō)話(huà)人識(shí)別語(yǔ)音庫(kù)構(gòu)建技術(shù)的研究.pdf
- 語(yǔ)音識(shí)別中的說(shuō)話(huà)人自適應(yīng)研究.pdf
評(píng)論
0/150
提交評(píng)論