版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、聲學事件是指一段單一完整并能引起人們感知注意的連續(xù)聲音信號,而對這樣的信號進行檢測即是聲學事件檢測。隨著便攜式攝像機與視頻網(wǎng)站的迅猛發(fā)展,聲學事件檢測在各領域的應用日趨廣泛,例如個性化多媒體搜索、數(shù)字圖書館、網(wǎng)絡管理與信息安全等。近年來,盡管研究者們提出了很多聲學事件檢測方法,但由于采集設備、采集環(huán)境與傳輸條件等的千差萬別,新環(huán)境下的音頻數(shù)據(jù)日趨繁雜,使得類內(nèi)數(shù)據(jù)差異較大而類間數(shù)據(jù)更加易混,從而導致傳統(tǒng)識別方法的性能急劇下降,因此迫切需
2、要研究當前環(huán)境下的魯棒聲學事件檢測方法。
本文針對上述問題,從特征和模型等不同層面逐一展開研究,提出了一系列解決方法,主要的研究內(nèi)容包括:
1.提出了基于基頻段長時統(tǒng)計特征的聲學事件檢測方法??紤]到多數(shù)聲學事件長度不等,但大多由發(fā)音幀組成,因此嘗試取代以往識別中常用的固定時長單元,而采用不定時長的基頻段作為識別的最小單位。在此基礎上,提出了包括基頻的均值、方差、直方圖、時序及韻律等統(tǒng)計特征。實驗表明,與傳統(tǒng)定長特征相
3、比,基頻段特征能夠有效的提高聲學事件檢測的準確率與召回率。
2.提出了基于偽高斯混合模型與異質(zhì)混合模型的聲學事件檢測方法。傳統(tǒng)的高斯混合模型是在原始空間中使用單一的分布來對數(shù)據(jù)進行密度估計,其不適合繁雜的數(shù)據(jù)環(huán)境。為此,本文將傳統(tǒng)的混合模型加以推廣,提出了偽高斯混合模型與異質(zhì)混合模型。前者通過在特征之間引入非線性度量,在高維空間中對數(shù)據(jù)建立高斯混合模型,從而使低維空間中不可分的復雜數(shù)據(jù)在高維映射空間中能夠分開;后者通過引入不同
4、的分布,建立異質(zhì)的混合模型,使分布之間優(yōu)勢互補,從而能夠選擇最適合的分布對不同數(shù)據(jù)進行建模。實驗結(jié)果表明,所提出的推廣混合模型更適合復雜數(shù)據(jù),識別效果優(yōu)于傳統(tǒng)的高斯混合模型。
3.提出了基于稀疏與低秩特征的聲學事件檢測方法。傳統(tǒng)的事件檢測方法中,特征受外界噪聲的影響較大,在繁雜數(shù)據(jù)情況下性能會明顯下降。本文基于稀疏編碼理論提出了基于稀疏分解的魯棒音頻特征,它較好的模擬了人耳的聽覺特性,對噪聲有良好的魯棒性。進一步,考慮到長時特
5、征對判決有較大的幫助,亦將短時的稀疏特征推廣到長時的多維表示,提出了具有低秩性質(zhì)的矩陣及張量音頻特征。由于低秩特征對環(huán)境具有一定的不敏感性,能夠表示聲學事件在不同噪聲環(huán)境,特別是隨機大幅噪聲下的不變性,因此具有較好的魯棒性。實驗結(jié)果表明,所提出的特征均取得了比傳統(tǒng)音頻特征較優(yōu)的識別性能。
4.針對傳統(tǒng)支持向量機方法不能充分利用矩陣與張量數(shù)據(jù)中結(jié)構(gòu)信息的問題,通過推廣傳統(tǒng)的基于最大邊際分類準則的分類方法,提出了基于松弛邊際模型的
6、聲學事件檢測方法。它通過將支持向量機的最大邊際分類原則與跡范限制相結(jié)合,直接在原始空間中對低秩音頻特征進行分類,有效的利用矩陣與張量特征中的結(jié)構(gòu)信息。并且它能夠在最大化邊界的同時,最小化分類器在低秩及歐式度量下的復雜程度。與目前最優(yōu)的矩陣和張量分類方法相比,所提出的算法在聲學事件檢測任務上取得了較優(yōu)的性能。
5.提出了基于并行訓練的聲學事件檢測方法。由于當前的音頻數(shù)據(jù)量大,且大多為流媒體形式,傳統(tǒng)的基于一次性加載數(shù)據(jù)的批處理訓
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 行車環(huán)境下魯棒的聲學事件檢測方法.pdf
- 基于魯棒特征的人臉檢測與身份識別.pdf
- 基于興趣區(qū)域和MB-LBP特征的魯棒行人檢測.pdf
- 基于多特征級聯(lián)篩選的高魯棒監(jiān)控圖像車牌檢測.pdf
- 基于快速魯棒性特征的物體識別檢測算法研究.pdf
- 基于長時特征的語音端點檢測方法研究.pdf
- 基于離散事件觸發(fā)的NCS魯棒容錯控制研究.pdf
- 噪聲魯棒性語音識別:從特征提取到聲學模型的研究.pdf
- 基于觀測器的離散時變系統(tǒng)魯棒故障檢測問題研究.pdf
- 離散切換時滯系統(tǒng)的魯棒故障檢測方法研究.pdf
- 陰影特征的魯棒性評價和陰影檢測算法.pdf
- 實時人臉檢測與姿態(tài)魯棒的特征點檢測方法研究.pdf
- 基于雙重過濾攻擊檢測的魯棒推薦算法.pdf
- 時滯系統(tǒng)的魯棒故障檢測與容錯控制方法研究.pdf
- 基于統(tǒng)計特征的魯棒水印方法研究.pdf
- 基于綜合特征的圖像檢索魯棒算法研究.pdf
- 基于魯棒濾波的故障檢測方法的研究.pdf
- 時滯系統(tǒng)的魯棒容錯控制.pdf
- 一類時滯切換系統(tǒng)的魯棒故障檢測.pdf
- 基于幾何特征配準的圖像魯棒拼接算法.pdf
評論
0/150
提交評論