基于長(zhǎng)時(shí)特征的魯棒聲學(xué)事件檢測(cè).pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-09 格式：pdf 頁(yè)數(shù)：128 大小：6.43MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于長(zhǎng)時(shí)特征的魯棒聲學(xué)事件檢測(cè).pdf_第1頁(yè)

已閱讀1頁(yè)，還剩127頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聲學(xué)事件是指一段單一完整并能引起人們感知注意的連續(xù)聲音信號(hào),而對(duì)這樣的信號(hào)進(jìn)行檢測(cè)即是聲學(xué)事件檢測(cè)。隨著便攜式攝像機(jī)與視頻網(wǎng)站的迅猛發(fā)展,聲學(xué)事件檢測(cè)在各領(lǐng)域的應(yīng)用日趨廣泛,例如個(gè)性化多媒體搜索、數(shù)字圖書館、網(wǎng)絡(luò)管理與信息安全等。近年來,盡管研究者們提出了很多聲學(xué)事件檢測(cè)方法,但由于采集設(shè)備、采集環(huán)境與傳輸條件等的千差萬別,新環(huán)境下的音頻數(shù)據(jù)日趨繁雜,使得類內(nèi)數(shù)據(jù)差異較大而類間數(shù)據(jù)更加易混,從而導(dǎo)致傳統(tǒng)識(shí)別方法的性能急劇下降,因此迫切需

2、要研究當(dāng)前環(huán)境下的魯棒聲學(xué)事件檢測(cè)方法。
　　本文針對(duì)上述問題,從特征和模型等不同層面逐一展開研究,提出了一系列解決方法,主要的研究?jī)?nèi)容包括:
　　1.提出了基于基頻段長(zhǎng)時(shí)統(tǒng)計(jì)特征的聲學(xué)事件檢測(cè)方法。考慮到多數(shù)聲學(xué)事件長(zhǎng)度不等,但大多由發(fā)音幀組成,因此嘗試取代以往識(shí)別中常用的固定時(shí)長(zhǎng)單元,而采用不定時(shí)長(zhǎng)的基頻段作為識(shí)別的最小單位。在此基礎(chǔ)上,提出了包括基頻的均值、方差、直方圖、時(shí)序及韻律等統(tǒng)計(jì)特征。實(shí)驗(yàn)表明,與傳統(tǒng)定長(zhǎng)特征相

3、比,基頻段特征能夠有效的提高聲學(xué)事件檢測(cè)的準(zhǔn)確率與召回率。
　　2.提出了基于偽高斯混合模型與異質(zhì)混合模型的聲學(xué)事件檢測(cè)方法。傳統(tǒng)的高斯混合模型是在原始空間中使用單一的分布來對(duì)數(shù)據(jù)進(jìn)行密度估計(jì),其不適合繁雜的數(shù)據(jù)環(huán)境。為此,本文將傳統(tǒng)的混合模型加以推廣,提出了偽高斯混合模型與異質(zhì)混合模型。前者通過在特征之間引入非線性度量,在高維空間中對(duì)數(shù)據(jù)建立高斯混合模型,從而使低維空間中不可分的復(fù)雜數(shù)據(jù)在高維映射空間中能夠分開;后者通過引入不同

4、的分布,建立異質(zhì)的混合模型,使分布之間優(yōu)勢(shì)互補(bǔ),從而能夠選擇最適合的分布對(duì)不同數(shù)據(jù)進(jìn)行建模。實(shí)驗(yàn)結(jié)果表明,所提出的推廣混合模型更適合復(fù)雜數(shù)據(jù),識(shí)別效果優(yōu)于傳統(tǒng)的高斯混合模型。
　　3.提出了基于稀疏與低秩特征的聲學(xué)事件檢測(cè)方法。傳統(tǒng)的事件檢測(cè)方法中,特征受外界噪聲的影響較大,在繁雜數(shù)據(jù)情況下性能會(huì)明顯下降。本文基于稀疏編碼理論提出了基于稀疏分解的魯棒音頻特征,它較好的模擬了人耳的聽覺特性,對(duì)噪聲有良好的魯棒性。進(jìn)一步,考慮到長(zhǎng)時(shí)特

5、征對(duì)判決有較大的幫助,亦將短時(shí)的稀疏特征推廣到長(zhǎng)時(shí)的多維表示,提出了具有低秩性質(zhì)的矩陣及張量音頻特征。由于低秩特征對(duì)環(huán)境具有一定的不敏感性,能夠表示聲學(xué)事件在不同噪聲環(huán)境,特別是隨機(jī)大幅噪聲下的不變性,因此具有較好的魯棒性。實(shí)驗(yàn)結(jié)果表明,所提出的特征均取得了比傳統(tǒng)音頻特征較優(yōu)的識(shí)別性能。
　　4.針對(duì)傳統(tǒng)支持向量機(jī)方法不能充分利用矩陣與張量數(shù)據(jù)中結(jié)構(gòu)信息的問題,通過推廣傳統(tǒng)的基于最大邊際分類準(zhǔn)則的分類方法,提出了基于松弛邊際模型的

6、聲學(xué)事件檢測(cè)方法。它通過將支持向量機(jī)的最大邊際分類原則與跡范限制相結(jié)合,直接在原始空間中對(duì)低秩音頻特征進(jìn)行分類,有效的利用矩陣與張量特征中的結(jié)構(gòu)信息。并且它能夠在最大化邊界的同時(shí),最小化分類器在低秩及歐式度量下的復(fù)雜程度。與目前最優(yōu)的矩陣和張量分類方法相比,所提出的算法在聲學(xué)事件檢測(cè)任務(wù)上取得了較優(yōu)的性能。
　　5.提出了基于并行訓(xùn)練的聲學(xué)事件檢測(cè)方法。由于當(dāng)前的音頻數(shù)據(jù)量大,且大多為流媒體形式,傳統(tǒng)的基于一次性加載數(shù)據(jù)的批處理訓(xùn)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于長(zhǎng)時(shí)特征的魯棒聲學(xué)事件檢測(cè).pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于長(zhǎng)時(shí)特征的魯棒聲學(xué)事件檢測(cè).pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載