基于深度學(xué)習(xí)和遷移學(xué)習(xí)的環(huán)境聲音識別.pdf_第1頁
已閱讀1頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、作為一種感知周圍環(huán)境十分有效的方法,環(huán)境聲音識別(Enviorment Sound Recognition,ESR)被廣泛的應(yīng)用在機器人導(dǎo)航、移動機器人、音頻檢索、音頻取證以及其它基于情景感知、可穿戴的應(yīng)用中。目前,多種經(jīng)典的分類器被廣泛的應(yīng)用在ESR問題中,但其性能還遠(yuǎn)未達(dá)到理想的水平,為了進(jìn)一步提升ESR性能,本文首先引入了深度學(xué)習(xí)技術(shù),深度神經(jīng)網(wǎng)絡(luò)作為一種高性能、多層級的神經(jīng)網(wǎng)絡(luò),已經(jīng)被廣泛證明在提取數(shù)據(jù)特征和建立識別模型方面具有

2、一定優(yōu)勢。聲音因采集時無方向要求、且始終蘊含環(huán)境信息等優(yōu)勢,在環(huán)境識別時扮演主要角色,但考慮到一般情況下采集音頻時容易獲取若干輔助的視頻信息,而且顯然多模態(tài)信息更有助于提升環(huán)境識別的準(zhǔn)確率,所以本文在構(gòu)建基于深度神經(jīng)網(wǎng)的環(huán)境識別方法時,同時利用音頻特征和輔助視頻特征。此外,針對在實際應(yīng)用中環(huán)境類別非常多,新的識別需求不斷涌現(xiàn),針對新類別的數(shù)據(jù)標(biāo)注和訓(xùn)練開銷過大的問題,提出基于遷移學(xué)習(xí)的環(huán)境聲音識別方法,基于已建模的相似環(huán)境類,和新類別的

3、少量標(biāo)注數(shù)據(jù),學(xué)習(xí)得到新環(huán)境類別模型。
  本文將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在環(huán)境聲音識別問題中,為了充分利用聲音特征和輔助視頻特征,本文對如何融合兩種模態(tài)信息進(jìn)行探討,提出兩種特征融合方法,分別為基于特征的融合以及基于模型的融合?;谔卣魅诤系沫h(huán)境聲音識別方法,將音頻特征和視頻特征直接拼接作為深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)的輸入,并通過訓(xùn)練DBN進(jìn)行環(huán)境場景的識別;基于模型融合的環(huán)境聲音識別方法分別對音頻信

4、息和輔助視頻信息建立DBN模型,并調(diào)至最優(yōu)性能,然后用一個新的DBN用來代替原有兩個DBN的輸出層以實現(xiàn)模型融合,最終通過訓(xùn)練新的DBN進(jìn)行環(huán)境聲音識別。實驗結(jié)果表明,基于模型融合的方法取得了最好的效果,識別性能相較于其它方法和基線系統(tǒng)有明顯的提升
  本文提出基于遷移學(xué)習(xí)的環(huán)境聲音建模方法,堆疊去噪自編碼網(wǎng)絡(luò)(Stacked Denoised AutoEncoder,SDA)的無監(jiān)督訓(xùn)練較為簡單,并能良好的學(xué)習(xí)數(shù)據(jù)集的特征,為其

5、和遷移學(xué)習(xí)的融合提供了良好的基礎(chǔ)。本文在遷移學(xué)習(xí)的框架下,結(jié)合SDA網(wǎng)絡(luò),通過衡量新環(huán)境類別的語料與現(xiàn)有環(huán)境語料之間的關(guān)系實現(xiàn)識別模型的遷移,實驗表明此方法能有效地區(qū)分新場景,準(zhǔn)確率有明顯提升。在遷移學(xué)習(xí)理論框架下,反觀DBN的預(yù)訓(xùn)練與微調(diào)過程,提出基于通用預(yù)訓(xùn)練的方法。該方法采用擴(kuò)大DBN預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模的策略,達(dá)到待識別數(shù)據(jù)只需在此通用預(yù)訓(xùn)練基礎(chǔ)上進(jìn)行快速的微調(diào)過程即可實現(xiàn)分類的目的。實驗結(jié)果表明,此方法可以顯著的提升待識別數(shù)據(jù)的性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論