

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著科學技術的不斷進步,電話已經成為人們日常生活中不可或缺的一部分。在身份認證技術研究領域,越來越多的研究人員開始關注如何使用電話語音進行身份認證,因為相對于其它身份認證技術來說,使用電話語音進行身份認證所需的設備簡單、成本低、易獲取,更重要的是在使用電話語音進行身份認證的過程中,用戶不需要接觸設備,只需要簡單的說一句話,便可完成認證,大大提高了用戶的接受率。另外,說話人確認技術還是語音識別技術研究領域的一個重要研究方向,所以說話人確認
2、技術的研究不僅具有重要的理論研究意義而且還具有廣泛的應用前景。
目前在說話人確認研究領域中,主流的說話人建模方法都是基于概率統(tǒng)計模型的,其中最具代表性的概率統(tǒng)計說話人模型當屬高斯混合模型(GaussianMixture Model,GMM)。高斯混合模型采用非常多的高斯概率密度函數(shù)分量,對說話人的語音特征分布進行了較好的描述,從而取得了不錯的效果;但說話人確認是一個二元分類問題,而高斯混合模型只是一種概率生成性模型,其區(qū)分能力
3、非常有限,所以需要尋找同時具有強大表征能力和很強區(qū)分能力的模型進行說話人建模。近年來,深度學習(Deep Learning,DL)理論在模式識別領域掀起了一股非常大的研究熱潮,其出發(fā)點是想構建一個復雜的神經網絡模型來模擬人腦的思維方式,然后對數(shù)據進行分析和處理。目前深度學習理論所依托的實現(xiàn)載體是深度神經網絡(Deep Neural Network,DNN)。深度神經網絡憑借多隱層的結構特點,使得其具有很好的表征能力和區(qū)分能力,目前在模式
4、識別的諸多研究方向都取得了成功應用。本文主要研究內容就是將具有強大表征能力及區(qū)分能力的深度神經網絡應用于說話人確認系統(tǒng)中進行說話人建模,構建基于深度神經網絡的話者確認系統(tǒng),針對建模過程中深度神經網絡輸入特征的選擇、網絡結構以及網絡訓練方法等關鍵問題進行了深入的研究,并對多種基于深度神經網絡的說話人確認系統(tǒng)的結構及性能進行對比。
首先,介紹了目前說話人確認技術研究領域最為經典的概率統(tǒng)計模型—高斯混合模型,并對其原理進行了詳細闡述
5、。針對其應用于說話人確認系統(tǒng)中使用的GMM-UBM結構進行了深入的討論,并對GMM-UBM說話人模型訓練過程中使用的MAP算法進行介紹,然后通過實驗分析了混合度的選取對GMM-UBM說話人確認系統(tǒng)整體性能的影響,同時構建了本文研究所需的基線系統(tǒng)。
接著,對深度神經網絡相關內容展開了討論,介紹了深度神經網絡的發(fā)展歷程,詳細闡述了深度神經網絡的原理及其訓練算法,并對深度神經網絡在訓練過程中常出現(xiàn)的問題進行了重點討論。本文針對基于G
6、MM-UBM的說話人模型區(qū)分能力差,表征能力不足等問題,引入了深度神經網絡進行說話人建模,構建了基于DNN-SPK說話人確認系統(tǒng)。為了進一步的減弱語音倒譜中語義信息的干擾,采用GMM對語音的原始倒譜特征進行聚類變換,抽取原始倒譜特征的統(tǒng)計特征參數(shù),從而進一步突顯說話人的個性信息,然后將其與深度神經網絡相結合,構建基于GMM-DNN說話人確認系統(tǒng),大大提高了確認的效果。
最后,語音作為一種時序信號,當前時刻的信息在一定程度上是受
7、其歷史信息影響的。采用DNN進行說話人建模時,DNN對語音歷史信息的記憶是非常有限的,所以引入了能夠記住長歷史信息的長短時記憶(Long Short TermMemory,LSTM)模型,構建了基于LSTM-SPK說話人確認系統(tǒng),針對采用LSTM進行說話人建模過程中,模型結構的選擇以及如何選取輸入特征參數(shù)和輸出說話人標簽等關鍵問題進行詳細討論。另外,針對LSTM計算復雜度比較高的問題,探討了采用LSTMP模型替換LSTM模型進行說話人建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVM的文本無關話者確認研究.pdf
- 基于話者統(tǒng)計特征和SVM的文本無關話者確認研究.pdf
- 與文本無關話者識別算法研究及其DSP系統(tǒng)實現(xiàn).pdf
- 文本無關的多說話人確認研究.pdf
- 基于GMM和SVM的文本無關的說話人確認方法研究.pdf
- 基于矢量量化的與文本無關的說話人確認系統(tǒng)的研究.pdf
- 文本無關說話人確認及其應用研究.pdf
- 基于區(qū)分性說話人模型的與文本無關說話人確認研究.pdf
- 與文本無關的話者識別系統(tǒng)的研究與實現(xiàn).pdf
- 信道魯棒的與文本無關說話人確認系統(tǒng).pdf
- 與文本無關的說話人確認系統(tǒng)的信道魯棒性研究.pdf
- 基于文本無關的說話人識別.pdf
- 文本無關的說話人識別研究.pdf
- 基于SVM的與文本無關的說話人識別算法研究.pdf
- 基于文本無關的說話人識別技術研究.pdf
- 與文本無關的語種識別技術研究.pdf
- 基于文本無關的說話人識別技術的研究.pdf
- 與文本無關說話人識別技術的研究.pdf
- 基于VQ的文本無關說話人識別研究.pdf
- 基于GMM-SVM和多子系統(tǒng)融合的與文本無關的話者識別.pdf
評論
0/150
提交評論