基于短語音和信道變化的說話人識別研究.pdf_第1頁
已閱讀1頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、自動說話人識別技術(shù)在眾多需要語音輔助的應(yīng)用下,已發(fā)展成為越來越重要的現(xiàn)代生物認證技術(shù)。自動說話人識別最主要的挑戰(zhàn)來自處理測試語料的缺失以及獲取語音時環(huán)境和信道的差異問題。之前的研究表明,對于訓練和測試聲學環(huán)境一致的高質(zhì)量語音已可以獲得很好的結(jié)果,比如采用干凈的寬帶語音和高斯混合模型(Gaussian Mixture Model,GMM)組成的說話人辨認和確認都能獲得很高的識別率。然而現(xiàn)實生活中,往往遇到語料缺失、信道失配甚至遠距離等環(huán)境

2、,此環(huán)境下基于GMM的說話人識別系統(tǒng)性能嚴重下降,很難達到讓人滿意的結(jié)果。為了進一步提高說話人識別的實用性,魯棒性研究是說話人識別領(lǐng)域至關(guān)重要的研究熱點。
   目前,訓練及測試信道變化是阻礙說話人識別發(fā)展的最大障礙,該變化可以是:訓練與測試語音分別來自不同類型的傳輸信道;信道類型相同卻來自不同類型的采集設(shè)備(話機、麥克風等);訓練與測試時采集環(huán)境(安靜、噪聲)或采集方式(近距離、遠距離)不同等。本文在信道變化方面的研究,主要集

3、中在遠距離說話人辨認、訓練與測試語音傳輸信道不同的說話人確認方面。
   本文的主要工作和創(chuàng)新成果點集中在以下幾個方面:
   (1)針對短語音說話人辨認訓練及測試語料不充分的特點,對特征參數(shù)和GMM模型進行優(yōu)化和改進,提出一種基于局部模糊主成分分析(Principal Component Analysis,PCA)的GMM說話人辨認方法。該方法采用特征組合代替單一特征,以提高有效特征維數(shù)來彌補特征樣本的不足,并用局部模

4、糊PCA對組合特征進行有效降維,在對識別率影響很小的前提下,降低了系統(tǒng)的時空復雜度。原始特征維數(shù)由48維優(yōu)化到16維,同時建模時間減少了近65%。本文還對GMM參數(shù)初始化方法進行改進,提出分裂法與模糊K均值聚類相結(jié)合方法。該改進算法與傳統(tǒng)初始化方法相比能有效提高短語音說話人辨認性能。
   (2)當測試語音在遠距離環(huán)境采集時,為提高遠距離說話人辨認的魯棒性,提出了三種補償技術(shù)。第一種補償在特征提取前采用譜減法去除測試語音的后期混

5、響以達到語音增強的目的,使之盡量減小與訓練語音的質(zhì)量差異;第二種補償是在特征提取階段采用特征彎折方法,使同一個說話人的訓練和測試語音的特征空間分布盡量吻合;第三種補償技術(shù)是在短語音說話人辨認的研究基礎(chǔ)上,同樣對GMM模型參數(shù)初始化進行改進,提出分裂法與K均值聚類相結(jié)合的模型補償方法。三種補償方法分別對應(yīng)說話人辨認的語音增強、特征提取及模型建立三個重要階段,與傳統(tǒng)GMM方法相比,很大程度上提高了遠距離說話人辨認的系統(tǒng)性能。
  

6、(3)在目前解決信道變化環(huán)境下說話人確認的最流行算法聯(lián)合因子分析(Joint Factor Analysis,JFA)基礎(chǔ)上,對傳統(tǒng)JFA模型訓練進行改進,提出一種基于本征信道的空間拼接技術(shù),以解決在訓練時因各種信道的語音不均衡而導致的說話人確認性能下降問題。該拼接算法對每一種信道下的語音訓練成相應(yīng)的本征信道空間矩陣,接著對訓練好的各種信道下的本征信道空間矩陣進行拼接,作為最后JFA模型中本征信道的初始化,再通過訓練得到最終本征信道矩陣

7、。在JFA技術(shù)的基礎(chǔ)上,又進一步研究了I-矢量(Identity-Vector,I-Vector)說話人確認技術(shù)。分析目前存在于I-Vector上的多種信道補償技術(shù),提出了線性鑒別分析(Linear Discriminant Analysis,LDA)與類內(nèi)協(xié)方差規(guī)整(Within-Class Covariance Normalization,WCCN)相結(jié)合的信道補償技術(shù),該算法結(jié)合了LDA的最大區(qū)分性和WCCN的最小化總體代價的優(yōu)點

8、,能有效提高I-Vector說話人確認性能。
   (4)在I-Vector空間應(yīng)用概率線性鑒別分析(Probabilistic Linear Discriminant Analysis,PLDA)模型解決說話人確認中說話人和信道差異的基礎(chǔ)上,本文提倡采用一種無壓縮的I-Vector形式。一個I-Vector本質(zhì)上是來自一個語音段的低維矢量,它包含了說話人和信道的信息。當PLDA應(yīng)用于I-Vector時,有兩次降維——第一次是I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論