

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近年來(lái),隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的高速發(fā)展,人們的生活方式發(fā)生了巨大改變,人與計(jì)算機(jī)之間的交流也日益增多。作為人類最重要、最常用和最方便的信息交換方式—語(yǔ)音輸入,也得到了越來(lái)越多的科研人員的廣泛關(guān)注。隨著語(yǔ)音的人機(jī)交互技術(shù)在語(yǔ)音合成、自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR)等領(lǐng)域獲得了巨大成功,也同時(shí)伴隨著很多問(wèn)題亟待解決,比如背景噪聲、混響等對(duì)語(yǔ)音質(zhì)量會(huì)產(chǎn)生極大的干擾,從而降低了語(yǔ)音的聽(tīng)感以及可懂度,
2、對(duì)ASR的系統(tǒng)也會(huì)造成很大的影響,進(jìn)而影響語(yǔ)音技術(shù)的實(shí)際應(yīng)用。如何從被干擾的語(yǔ)音中獲得較干凈、清晰的語(yǔ)音信號(hào),成為語(yǔ)音信號(hào)處理領(lǐng)域的一個(gè)重要課題。而在這其中,語(yǔ)音分離是極為重要的一個(gè)方面,也成為了語(yǔ)音技術(shù)發(fā)展的迫切需求,受到了研究人員的重點(diǎn)關(guān)注。
進(jìn)入21世紀(jì)以后,深度學(xué)習(xí)技術(shù)在信號(hào)處理域取得一系列重大突破,首先是多倫多大學(xué)的Hinton教授將深度模型引入在圖像編解碼和文本分類領(lǐng)域中,取得非常好的效果,再者是微軟的鄧力博士將深
3、度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)應(yīng)用在語(yǔ)音識(shí)別任務(wù)上,獲得了非常大的性能提升,隨后深度學(xué)習(xí)在語(yǔ)音,圖像和視頻領(lǐng)域都有非常廣泛的應(yīng)用,特別是工業(yè)界像谷歌,微軟,百度這樣的巨頭,都將深度學(xué)習(xí)應(yīng)用在他們的產(chǎn)品中,極大地促進(jìn)了深度學(xué)習(xí)在學(xué)術(shù)中的研究。并且工業(yè)界的大規(guī)模成功應(yīng)用,還顯示了大數(shù)據(jù)在實(shí)現(xiàn)分類或識(shí)別任務(wù)上的巨大的潛力。而在語(yǔ)音分離任務(wù)上,能否用深度學(xué)習(xí)技術(shù)結(jié)合大數(shù)據(jù)在說(shuō)話人獨(dú)立的條件下實(shí)現(xiàn)比較好的性能表現(xiàn)是本
4、論文的一個(gè)研究重點(diǎn)。
在各種語(yǔ)音分離的方法中,除了會(huì)利用到空域信息的麥克風(fēng)陣列技術(shù)以外,單通道語(yǔ)音分離是其中非常重要的一個(gè)領(lǐng)域,而其中沒(méi)有混合說(shuō)話人先驗(yàn)信息的說(shuō)話人獨(dú)立方法是其中的一個(gè)難點(diǎn)。近年來(lái),基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(computational auditory scene analysis,CASA)的方法在單通道語(yǔ)音分離上得到了成功的運(yùn)用,但是這種方法會(huì)給目標(biāo)信號(hào)造成很大的畸變。而利用回歸的DNN能夠更好的保留目標(biāo)信號(hào),
5、本文的主要工作就是利用深度學(xué)習(xí)技術(shù)在單通道條件下進(jìn)行說(shuō)話人獨(dú)立的語(yǔ)音分離。
首先,我們?cè)诋愋哉f(shuō)話人組合的情況下進(jìn)行了說(shuō)話人獨(dú)立深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建工作。能夠進(jìn)行多說(shuō)話人語(yǔ)音分離的一個(gè)重要理論基礎(chǔ)是混合的說(shuō)話人的發(fā)音特性具有一定的區(qū)分性,比如不同的共振峰、頻率分布、相同音素的不同發(fā)音時(shí)長(zhǎng)等。而男性和女性說(shuō)話人由于發(fā)音器官具有天然明顯的不同特性,具有可分離的理論基礎(chǔ)。通過(guò)利用混合語(yǔ)音的對(duì)數(shù)功率譜(log-power spectra,
6、LPS)作為DNN模型的輸入特征,而將說(shuō)話人的干凈語(yǔ)音特征作為輸出,訓(xùn)練DNN學(xué)習(xí)混合語(yǔ)音和干凈語(yǔ)音的非線性關(guān)系。
然后,本文提出了一個(gè)基于說(shuō)話人組合檢測(cè)的說(shuō)話人獨(dú)立單通道語(yǔ)音模型系統(tǒng)。首先通過(guò)利用一種計(jì)算說(shuō)話人語(yǔ)音相似度的方法,將說(shuō)話人聚類成4個(gè)不同的子類,并證明不同之類之間具有明顯的可分性。然后基于聚類結(jié)果,本文訓(xùn)練了一個(gè)有四輸出端的說(shuō)話人組合檢測(cè)器,通過(guò)該檢測(cè)器網(wǎng)絡(luò)的輸出信號(hào)的能量關(guān)系,可以判斷當(dāng)前混合語(yǔ)音的說(shuō)話人組合類
7、別。最后,根據(jù)檢測(cè)器的識(shí)別結(jié)果,利用不同的DNN語(yǔ)音分離器將混合語(yǔ)音進(jìn)行分離。
最后,本文基于最大似然估計(jì)改進(jìn)在回歸DNN模型的訓(xùn)練過(guò)程中采用的最小均方誤差準(zhǔn)則(Minimum Mean Square Error, MMSE)目標(biāo)函數(shù)。在最大似然估計(jì)的情況下,假設(shè)DNN的輸出錯(cuò)誤信號(hào)服從零均值的多維高斯分布,提出了一種依次更新DNN參數(shù)和其輸出錯(cuò)誤信號(hào)的分布函數(shù)的協(xié)方差矩陣的方法。進(jìn)而可以發(fā)現(xiàn)MMSE準(zhǔn)則在以下假設(shè)的條件下等效
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于深度學(xué)習(xí)的單通道語(yǔ)音分離.pdf
- 基于序貫字典學(xué)習(xí)的單通道語(yǔ)音分離算法研究.pdf
- 基于深度學(xué)習(xí)的語(yǔ)音分離研究.pdf
- 基于稀疏分解的單通道混合語(yǔ)音分離算法研究.pdf
- 單通道語(yǔ)音分離關(guān)鍵技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的有監(jiān)督語(yǔ)音分離方法研究.pdf
- 基于深度學(xué)習(xí)的短語(yǔ)音說(shuō)話人識(shí)別研究.pdf
- 基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的雙說(shuō)話人混合語(yǔ)音分離研究.pdf
- 基于稀疏表示和深度學(xué)習(xí)的欠定語(yǔ)音分離方法研究.pdf
- 基于麥克風(fēng)陣列的說(shuō)話人跟蹤及語(yǔ)音分離實(shí)現(xiàn)技術(shù)的研究.pdf
- 基于盲源分離的單通道語(yǔ)音增強(qiáng)算法研究.pdf
- 基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析的單通道語(yǔ)音盲分離技術(shù).pdf
- 基于深度神經(jīng)網(wǎng)絡(luò)的欠定語(yǔ)音分離方法研究.pdf
- 基于機(jī)器學(xué)習(xí)的欠定語(yǔ)音分離方法研究.pdf
- 基于深度學(xué)習(xí)的說(shuō)話人識(shí)別研究.pdf
- 基于語(yǔ)音組成單位的文本無(wú)關(guān)說(shuō)話人識(shí)別.pdf
- 基于空域?yàn)V波的語(yǔ)音分離研究.pdf
- 基于深度學(xué)習(xí)的說(shuō)話人識(shí)別建模研究.pdf
- 基于文本無(wú)關(guān)的說(shuō)話人識(shí)別.pdf
- 基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語(yǔ)音分離.pdf
評(píng)論
0/150
提交評(píng)論