版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近幾年,隨著智能終端機功能的增強和云端計算能力的提高,人和計算機之間的交流方式發(fā)生了很大的變化。而語音作為人類最重要、最常用和最方便的信息交換方式,自然成為不可或缺的媒介。在日常生活進行語音通信或者在軍事通信中進行作戰(zhàn)指揮時,常常伴隨各種噪聲干擾,這些噪聲干擾不僅影響語音的質(zhì)量和可懂度,同時也給后續(xù)語音識別和語音端點檢測等處理帶來困難。語音增強的主要目標就是從帶噪語音中提取干凈的原始語音,提高語音質(zhì)量和可懂度。
傳統(tǒng)單聲道語音
2、增強算法基本都是無監(jiān)督語音增強算法,通常會對語音信號和噪聲信息的概率分布做一定假設(shè),對平穩(wěn)噪聲處理比較好,但對非平穩(wěn)噪聲抑制能力較弱。近些年來,隨著深度學習技術(shù)在語音領(lǐng)域取得重大突破,給語音增強提供一種有監(jiān)督學習的解決方案和有望取得突破性進展的可能性。研究發(fā)現(xiàn),基于深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的語音增強方法取得比傳統(tǒng)語音增強算法很大的性能提升。本文圍繞用回歸DNN來擬合語音和噪聲間的復(fù)雜非線性關(guān)系,著力
3、解決低信噪比語音可懂度不高、噪聲非平穩(wěn)問題,然后通過多目標學習和融合技術(shù),設(shè)計適用于實時應(yīng)用的緊湊和低延時模型,最后在最大似然估計的框架下對基于時頻掩蔽的DNN進行參數(shù)優(yōu)化。
首先,基于已有的DNN語音增強算法框架,本文研究不同的輸入信息對系統(tǒng)性能的影響,解決在低信噪比情況下語音可懂度不高的問題。通過設(shè)計不同的輸入特征,比如對數(shù)功率譜(Log power Spectra,LPS)和幅度譜(Amplitude Spectra,A
4、S),研究回歸深層神經(jīng)網(wǎng)絡(luò)的學習過程,基于不同特征之間的互補性,在輸入層采取特征拼接,輸出層對不同學習目標進行后處理,來同時提高語音質(zhì)量和可懂度。
其次,針對寬帶(16k Hz)語音數(shù)據(jù)上噪聲不匹配的問題,本文提出了一種改進的動態(tài)噪聲估計方法,利用雙絕對門限、平滑策略以及與靜態(tài)噪聲融合,使得估計的全頻帶噪聲更準確,并且使用噪聲的子帶特征和表征語音存在概率的掩蔽值(Ideal Ratio Mask,IRM)進行聯(lián)合感知訓(xùn)練,在減
5、少模型復(fù)雜度的同時可以提高模型對不可見噪聲的泛化能力。
再者,本文提出了一個基于DNN的多目標學習和融合語音增強框架,包括多目標學習和多目標融合兩個階段,能夠在較小的模型復(fù)雜度和較低的延時情況下達到比較好的性能,更適用于實時語音應(yīng)用。在多目標學習階段,設(shè)計一個DNN模型來學習輔助信息,包括LPS特征、梅爾頻率倒譜系數(shù)(Mel frequency Cepstral Coefficient,MFCC)和Gammatone頻率倒譜系
6、數(shù)(Gammatone Frequency Cepstral Coefficient,GFCC)以及每組特征對應(yīng)的干凈語音、動態(tài)噪聲和IRM。在多目標融合階段,用上個階段學習到的輔助信息與原始帶噪信號一起作為網(wǎng)絡(luò)輸入,在輸出層同時預(yù)測LPS、MFCC和GFCC對應(yīng)的干凈語音和IRM信息。最后對這兩個階段DNN預(yù)測的干凈語音做后處理融合。由于在DNN學習過程中引入了多個目標,利用多目標的自適應(yīng)學習,兩個階段的DNN模型可以設(shè)計的很緊湊,降
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于深層神經(jīng)網(wǎng)絡(luò)的語音增強方法研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的多目標跟蹤數(shù)據(jù)融合研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的多目標跟蹤信息融合技術(shù)的研究.pdf
- 基于AD神經(jīng)網(wǎng)絡(luò)的語音增強.pdf
- 基于深層神經(jīng)網(wǎng)絡(luò)的語音識別聲學建模研究.pdf
- 基于小波變換和神經(jīng)網(wǎng)絡(luò)的語音增強算法研究.pdf
- 基于BP神經(jīng)網(wǎng)絡(luò)的語音增強算法研究.pdf
- 基于BP神經(jīng)網(wǎng)絡(luò)的語音增強系統(tǒng)研究.pdf
- 基于BP神經(jīng)網(wǎng)絡(luò)的耳語音增強的研究.pdf
- 基于深度學習神經(jīng)網(wǎng)絡(luò)的語音識別研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的機動多目標跟蹤技術(shù)研究.pdf
- 基于量子與經(jīng)典神經(jīng)網(wǎng)絡(luò)的語音增強技術(shù)的研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的顯微視覺多目標識別.pdf
- 基于神經(jīng)網(wǎng)絡(luò)和粒子群算法的沖壓成形多目標優(yōu)化.pdf
- 基于神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)融合的水下目標檢測識別研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)融合研究和仿真.pdf
- 基于神經(jīng)網(wǎng)絡(luò)的語音轉(zhuǎn)換.pdf
- 基于改進Hopfield神經(jīng)網(wǎng)絡(luò)的多目標模糊作業(yè)車間調(diào)度研究.pdf
- 基于神經(jīng)網(wǎng)絡(luò)融合的目標識別技術(shù)研究.pdf
- 基于復(fù)合神經(jīng)網(wǎng)絡(luò)的語音識別研究.pdf
評論
0/150
提交評論