

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、說話人識別,又稱聲紋識別,是根據(jù)說話人的聲音對說話人進行自動區(qū)分,從而實現(xiàn)說話人身份辨別或者確認的生物特征識別技術(shù)。其本質(zhì)上是根據(jù)說話人的特征向量進行類別判定的過程,因此本文以提取出更加全面的表征說話人信息的特征向量為目標,最終實現(xiàn)說話人識別系統(tǒng)性能的提高。主要從以下各個方面進行研究以及系統(tǒng)的實現(xiàn):
1、構(gòu)建了三種傳統(tǒng)的說話人識別系統(tǒng)。根據(jù)輸入特征和建模形式的差異,說話人識別系統(tǒng)可分成不同類型。一是基于全局差異空間建模的說話人
2、識別,即利用大規(guī)模數(shù)據(jù)訓(xùn)練出包含說話人共性特征的通用背景模型,并以其幀后驗概率為基礎(chǔ)計算子空間數(shù)據(jù)的各階統(tǒng)計量以及進行全局差異空間矩陣的訓(xùn)練(簡記為TVM-I-Vector);二是基于DNN統(tǒng)計量提取的說話人識別,即利用DNN代替上述中的UBM產(chǎn)生幀級別的后驗概率(簡記為NN-I-Vector);最后是基于深度瓶頸特征(DBF)的說話人識別,即利用DBF代替MFCC作為系統(tǒng)的輸入特征(簡記為DBF-I-Vector)。由于在I-Vect
3、or建模的過程中并沒有具體區(qū)分說話人信息和信道信息,因此為了降低信道對說話人識別系統(tǒng)識別性能的影響,在本文設(shè)計的說話人識別系統(tǒng)的后端采用LDA或者PLDA等信道補償技術(shù)進行信道補償以及說話人的區(qū)分性訓(xùn)練。
2、構(gòu)建了基于特征融合的說話人識別系統(tǒng)。在說話人識別中輸入特征可分為深層特征(如:DBF),和淺層特征(如:MFCC、PLP等)。淺層特征是一種低層聲學(xué)特征,大都基于短時語音的譜信息,但難以表征語音段的高層信息;基于深度神經(jīng)
4、網(wǎng)絡(luò)的說話人識別充分考慮了發(fā)音內(nèi)容對語音信號的影響并添加了具有區(qū)分性的信息,提取的是一種深層的特征,但是并沒有涉及物理層的最直觀的聲學(xué)特征。考慮到深、淺層特征各自存在的優(yōu)勢和不足,本文采用特征融合的方式實現(xiàn)特征之間的優(yōu)勢互補,利用融合后的特征進行模型的訓(xùn)練以提高說話人識別系統(tǒng)的性能。
3、構(gòu)建了基于模型融合的說話人識別系統(tǒng)。不同類別的說話人識別系統(tǒng)(比如:TVM-I-Vector、NN-I-Vector、DBF-I-Vecto
5、r等)在性能上有一定的差異,但是也有各自的優(yōu)勢。而這些差異最終表現(xiàn)為提取的特征向量I-Vector的差異,將不同類型的說話人識別系統(tǒng)提取得到的I-Vector進行融合,可以充分綜合不同系統(tǒng)的優(yōu)勢。因此,本文根據(jù)上述設(shè)想進行建模,以提升系統(tǒng)的識別效果。
4、構(gòu)建了端到端的說話人識別系統(tǒng)。在說話人識別領(lǐng)域中,端到端的思想是利用神經(jīng)網(wǎng)絡(luò)提取出說話人的說話人表征向量代替經(jīng)典說話人識別系統(tǒng)中的I-Vector。其具體設(shè)計是以基本聲學(xué)特征
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于多特征決策融合的說話人識別研究.pdf
- 基于HHT與信息融合的說話人識別技術(shù)研究.pdf
- 基于非線性理論和信息融合的說話人識別.pdf
- 基于高層信息融合的短語音說話人識別方法研究.pdf
- 說話人識別中信息融合算法的研究.pdf
- 基于特征選擇及其融合方法的說話人識別.pdf
- 基于互信息理論的說話人識別研究.pdf
- 融合說話人識別和人臉識別的身份認證.pdf
- 基于聲學(xué)參數(shù)和高層信息的說話人識別.pdf
- 基于融合特征與高斯混合模型的說話人識別研究.pdf
- 基于Fisher準則和數(shù)據(jù)融合的說話人識別方法研究.pdf
- 會議室環(huán)境下基于音頻視頻信息融合的多說話人識別.pdf
- 基于多信息融合的疲勞狀態(tài)識別研究.pdf
- 基于多生理信息融合的情緒識別方法.pdf
- 基于EMD的說話人識別研究.pdf
- 基于GMM說話人分類的說話人識別系統(tǒng)研究.pdf
- 智能環(huán)境下基于音頻和視頻特征融合的多說話人識別.pdf
- 融合AP和GMM的說話人識別方法研究.pdf
- 基于若干聲紋信息空間的說話人識別技術(shù)研究.pdf
- 基于遷移PLDA的說話人識別研究.pdf
評論
0/150
提交評論