基于序列深度學(xué)習(xí)的視頻分析：建模表達(dá)與應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-05 格式：pdf 頁(yè)數(shù)：115 大?。?1.91MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于序列深度學(xué)習(xí)的視頻分析：建模表達(dá)與應(yīng)用.pdf_第1頁(yè)

已閱讀1頁(yè)，還剩114頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、近年來，視頻數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。如此大量的視頻數(shù)據(jù)在存儲(chǔ)、識(shí)別、共享、編輯、生成等過程中都需要精準(zhǔn)的視頻語義分析技術(shù)。深度學(xué)習(xí)自從2012年以來極大地推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域向前發(fā)展，使得大規(guī)模視頻數(shù)據(jù)的分析成為可能。因此，利用深度學(xué)習(xí)進(jìn)行視頻語義分析的研究也就成為了必然的選擇。目前基于深度學(xué)習(xí)的視頻語義分析基本上分為兩大步:1）利用卷積神經(jīng)網(wǎng)絡(luò)提取出各幀的視覺特征表達(dá);2）利用長(zhǎng)短時(shí)遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)對(duì)該特征序列進(jìn)行學(xué)習(xí)，并表達(dá)為相

2、應(yīng)的語義類別或語義描述。本文在對(duì)現(xiàn)有視頻語義分析技術(shù)進(jìn)行全面調(diào)研和總結(jié)的基礎(chǔ)之上，對(duì)視頻語義分類和視頻語義描述兩種任務(wù)深度學(xué)習(xí)模型中存在的經(jīng)典問題進(jìn)行了充分的研究。從視頻幀的視覺特征表達(dá)的角度，分別提出了連續(xù)Dropout算法、參數(shù)對(duì)圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)、結(jié)構(gòu)對(duì)圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)，從特征融合、特征提取的關(guān)鍵角度進(jìn)一步改善現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的性能。與此同時(shí)，針對(duì)序列學(xué)習(xí)中多層遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練難、訓(xùn)練慢的問題，提出了以無監(jiān)督逐層

3、貪婪式學(xué)習(xí)的方式進(jìn)行預(yù)訓(xùn)練，有效提升模型性能和模型的訓(xùn)練效率。更進(jìn)一步地，針對(duì)現(xiàn)有視頻序列到單詞序列的單向映射框架的局限性，創(chuàng)造性地提出了基于潛在語義表征的多向序列學(xué)習(xí)算法，為基于視頻和句子序列的分析提供了新的視角。本文的主要工作和創(chuàng)新點(diǎn)總結(jié)如下:
　　連續(xù)Dropout Dropout已經(jīng)被證明是一種有效的訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的算法，其主要的思想為通過在一個(gè)大規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)中屏蔽一些原子，可以同時(shí)訓(xùn)練多個(gè)弱分類器，在預(yù)測(cè)階段

4、，可以將這些弱分類器的結(jié)果綜合起來，有效提升卷積神經(jīng)網(wǎng)絡(luò)的性能。人腦中的神經(jīng)元的突觸的信號(hào)傳遞強(qiáng)度是連續(xù)隨機(jī)的而不是離散隨機(jī)的，受這種現(xiàn)象的啟發(fā)，我們將傳統(tǒng)的二進(jìn)制Dropout擴(kuò)展到連續(xù)Dropout。一方面，連續(xù)Dropout比傳統(tǒng)的二進(jìn)制Dropout更接近人腦中神經(jīng)元的激活特性。另一方面，我們證明連續(xù)Dropout具有避免特征檢測(cè)器共同適應(yīng)的特性。這表明我們可以在預(yù)測(cè)階段融合更多的獨(dú)立特征檢測(cè)器提取出來的特征，從而得到更好的結(jié)果

5、。
　　參數(shù)穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)在許多視覺任務(wù)上獲得了最好的結(jié)果，目前幾乎所有的視覺信息都要用到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。然而，目前的CNN模型仍然表現(xiàn)出對(duì)圖像空間變換的穩(wěn)健性比較差。直觀地，具有有足夠的層數(shù)和參數(shù)卷積神經(jīng)網(wǎng)絡(luò)通過卷積（矩陣乘法和非線性激活）和池操作的分層組合應(yīng)該能夠?qū)W習(xí)從變換輸入圖像到變換不變表示的魯棒映射。我們提出在訓(xùn)練階段隨機(jī)變換（旋轉(zhuǎn)、縮放和平移）CNN的特征圖。這可以降低CNN模型對(duì)訓(xùn)

6、練圖像的特定旋轉(zhuǎn)，縮放和平移的依賴。相反，每個(gè)卷積核將學(xué)習(xí)到對(duì)于其輸入特征圖的多種變換組合中不變的特征。這樣，我們不需要對(duì)優(yōu)化過程和訓(xùn)練圖像添加任何額外的監(jiān)督信息或?qū)斎雸D像進(jìn)行修改。通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證了通過隨機(jī)變換進(jìn)行學(xué)習(xí)的CNN對(duì)于輸入圖像的變換更加不敏感，在小規(guī)模圖像識(shí)別，大規(guī)模圖像識(shí)別和圖像檢索上都提升了現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的性能。
　　結(jié)構(gòu)穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)（CNN）已經(jīng)在許多視覺識(shí)別任務(wù)中展現(xiàn)了最好的性能。然而

7、，卷積和池化操作的組合對(duì)輸入中有意義目標(biāo)的局部位置變化只顯示出較小的不變性。有時(shí)，一些網(wǎng)絡(luò)使用數(shù)據(jù)增強(qiáng)(Dataaugmentation)的方法來訓(xùn)練網(wǎng)絡(luò)，以將這種不變性編碼到網(wǎng)絡(luò)參數(shù)中，但這限制了模型學(xué)習(xí)目標(biāo)內(nèi)容的能力。一種更有效的方式是將對(duì)平移或旋轉(zhuǎn)的不變性添加到網(wǎng)絡(luò)架構(gòu)中，從而減輕了模型對(duì)參數(shù)學(xué)習(xí)的需要。為了使模型能夠?qū)Ｗ⒂趯W(xué)習(xí)其所描述的對(duì)象，而不受其位置等影響，我們提出在特征響應(yīng)圖中，通過對(duì)局部區(qū)塊進(jìn)行排序，然后再輸入進(jìn)下一層中

8、。當(dāng)區(qū)塊重排序結(jié)合卷積和池操作時(shí)，我們對(duì)于處于不同位置的輸入圖像中的目標(biāo)，獲得了一致的表達(dá)。我們證明了所提出的區(qū)塊排序模塊可以提高CNN對(duì)許多基準(zhǔn)任務(wù)的性能，包括MNIST數(shù)字識(shí)別、大規(guī)模圖像識(shí)別和圖像檢索等。
　　序列的深層遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)特別是視頻分析中常用的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)的最新發(fā)展已經(jīng)顯示出其對(duì)序列數(shù)據(jù)進(jìn)行建模的潛力，特別是在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域。然而，對(duì)擁有多層LSTM的深層網(wǎng)絡(luò)

9、的訓(xùn)練效果相對(duì)于淺層網(wǎng)絡(luò)并沒有得到期望的提升，同時(shí)收斂速度也比較慢。這種困難源于LSTM的初始化方法，其中基于梯度的優(yōu)化通常會(huì)收斂于較差的局部解。針對(duì)此問題，我們探討了無監(jiān)督的LSTM初始化預(yù)訓(xùn)練機(jī)制，充分利用無監(jiān)督預(yù)訓(xùn)練的作用，指導(dǎo)后續(xù)的監(jiān)督訓(xùn)練。在本文中，我們提出了一種新穎的基于編碼器-解碼器的學(xué)習(xí)框架,以貪婪式的逐層訓(xùn)練的方式初始化多層LSTM，其中每個(gè)新增的LSTM層被訓(xùn)練以保留上一層得到的表示中的主要信息。使用我們的預(yù)訓(xùn)練方法

10、訓(xùn)練的多層LSTM勝過隨機(jī)初始化訓(xùn)練的的LSTM，在回歸（加法問題）,手寫數(shù)字識(shí)別(MNIST)，視頻分類(UCF-101)和機(jī)器翻譯WMT'14）等任務(wù)上都取得了更好的效果。此外，使用貪婪的逐層訓(xùn)練方法還將多層LSTM的收斂速度提高了4倍。
　　基于共享隱表征的序列到序列學(xué)習(xí)序列學(xué)習(xí)是深度學(xué)習(xí)的流行研究領(lǐng)域，如視頻字幕和語音識(shí)別?，F(xiàn)有方法通過首先將輸入序列編碼為固定大小的向量，然后從向量解碼目標(biāo)序列來將該學(xué)習(xí)建模為映射過程。雖然

11、簡(jiǎn)單直觀，但是這種映射模型是任務(wù)相關(guān)（task-specific）的，不能直接用于不同的任務(wù)。在本文中，我們?yōu)橥ㄓ煤挽`活的序列到序列學(xué)習(xí)提出了一個(gè)星狀框架，其中不同類型的媒體內(nèi)容（外圍節(jié)點(diǎn)）可以被編碼到共享隱表征（shared latent representation，SLR）,即中央節(jié)點(diǎn)中。這是受到人腦可以以不同的方式學(xué)習(xí)和表達(dá)抽象概念的啟發(fā)。SLR的媒介不變屬性可以被視為中間向量的高級(jí)正則化，強(qiáng)制它不僅捕獲每個(gè)單個(gè)媒體內(nèi)的隱式表示

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于序列深度學(xué)習(xí)的視頻分析：建模表達(dá)與應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于序列深度學(xué)習(xí)的視頻分析：建模表達(dá)與應(yīng)用.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載