基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語音增強(qiáng)研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-07 格式：pdf 頁(yè)數(shù)：117 大?。?7.52MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語音增強(qiáng)研究.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩116頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近幾年，隨著智能終端機(jī)功能的增強(qiáng)和云端計(jì)算能力的提高，人和計(jì)算機(jī)之間的交流方式發(fā)生了很大的變化。而語音作為人類最重要、最常用和最方便的信息交換方式，自然成為不可或缺的媒介。在日常生活進(jìn)行語音通信或者在軍事通信中進(jìn)行作戰(zhàn)指揮時(shí)，常常伴隨各種噪聲干擾，這些噪聲干擾不僅影響語音的質(zhì)量和可懂度，同時(shí)也給后續(xù)語音識(shí)別和語音端點(diǎn)檢測(cè)等處理帶來困難。語音增強(qiáng)的主要目標(biāo)就是從帶噪語音中提取干凈的原始語音，提高語音質(zhì)量和可懂度。
　　傳統(tǒng)單聲道語音

2、增強(qiáng)算法基本都是無監(jiān)督語音增強(qiáng)算法，通常會(huì)對(duì)語音信號(hào)和噪聲信息的概率分布做一定假設(shè)，對(duì)平穩(wěn)噪聲處理比較好，但對(duì)非平穩(wěn)噪聲抑制能力較弱。近些年來，隨著深度學(xué)習(xí)技術(shù)在語音領(lǐng)域取得重大突破，給語音增強(qiáng)提供一種有監(jiān)督學(xué)習(xí)的解決方案和有望取得突破性進(jìn)展的可能性。研究發(fā)現(xiàn)，基于深層神經(jīng)網(wǎng)絡(luò)（Deep Neural Network，DNN）的語音增強(qiáng)方法取得比傳統(tǒng)語音增強(qiáng)算法很大的性能提升。本文圍繞用回歸DNN來擬合語音和噪聲間的復(fù)雜非線性關(guān)系，著力

3、解決低信噪比語音可懂度不高、噪聲非平穩(wěn)問題，然后通過多目標(biāo)學(xué)習(xí)和融合技術(shù)，設(shè)計(jì)適用于實(shí)時(shí)應(yīng)用的緊湊和低延時(shí)模型，最后在最大似然估計(jì)的框架下對(duì)基于時(shí)頻掩蔽的DNN進(jìn)行參數(shù)優(yōu)化。
　　首先，基于已有的DNN語音增強(qiáng)算法框架，本文研究不同的輸入信息對(duì)系統(tǒng)性能的影響，解決在低信噪比情況下語音可懂度不高的問題。通過設(shè)計(jì)不同的輸入特征，比如對(duì)數(shù)功率譜（Log power Spectra，LPS）和幅度譜（Amplitude Spectra，A

4、S），研究回歸深層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程，基于不同特征之間的互補(bǔ)性，在輸入層采取特征拼接，輸出層對(duì)不同學(xué)習(xí)目標(biāo)進(jìn)行后處理，來同時(shí)提高語音質(zhì)量和可懂度。
　　其次，針對(duì)寬帶(16k Hz)語音數(shù)據(jù)上噪聲不匹配的問題，本文提出了一種改進(jìn)的動(dòng)態(tài)噪聲估計(jì)方法，利用雙絕對(duì)門限、平滑策略以及與靜態(tài)噪聲融合，使得估計(jì)的全頻帶噪聲更準(zhǔn)確，并且使用噪聲的子帶特征和表征語音存在概率的掩蔽值(Ideal Ratio Mask，IRM)進(jìn)行聯(lián)合感知訓(xùn)練，在減

5、少模型復(fù)雜度的同時(shí)可以提高模型對(duì)不可見噪聲的泛化能力。
　　再者，本文提出了一個(gè)基于DNN的多目標(biāo)學(xué)習(xí)和融合語音增強(qiáng)框架，包括多目標(biāo)學(xué)習(xí)和多目標(biāo)融合兩個(gè)階段，能夠在較小的模型復(fù)雜度和較低的延時(shí)情況下達(dá)到比較好的性能，更適用于實(shí)時(shí)語音應(yīng)用。在多目標(biāo)學(xué)習(xí)階段，設(shè)計(jì)一個(gè)DNN模型來學(xué)習(xí)輔助信息，包括LPS特征、梅爾頻率倒譜系數(shù)（Mel frequency Cepstral Coefficient，MFCC）和Gammatone頻率倒譜系

6、數(shù)（Gammatone Frequency Cepstral Coefficient，GFCC）以及每組特征對(duì)應(yīng)的干凈語音、動(dòng)態(tài)噪聲和IRM。在多目標(biāo)融合階段，用上個(gè)階段學(xué)習(xí)到的輔助信息與原始帶噪信號(hào)一起作為網(wǎng)絡(luò)輸入，在輸出層同時(shí)預(yù)測(cè)LPS、MFCC和GFCC對(duì)應(yīng)的干凈語音和IRM信息。最后對(duì)這兩個(gè)階段DNN預(yù)測(cè)的干凈語音做后處理融合。由于在DNN學(xué)習(xí)過程中引入了多個(gè)目標(biāo)，利用多目標(biāo)的自適應(yīng)學(xué)習(xí)，兩個(gè)階段的DNN模型可以設(shè)計(jì)的很緊湊，降

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語音增強(qiáng)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于深層神經(jīng)網(wǎng)絡(luò)的多目標(biāo)學(xué)習(xí)和融合的語音增強(qiáng)研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載