基于序列深度學習的視頻分析:建模表達與應用.pdf_第1頁
已閱讀1頁,還剩114頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近年來,視頻數(shù)據(jù)呈現(xiàn)爆炸式增長。如此大量的視頻數(shù)據(jù)在存儲、識別、共享、編輯、生成等過程中都需要精準的視頻語義分析技術。深度學習自從2012年以來極大地推動了計算機視覺領域向前發(fā)展,使得大規(guī)模視頻數(shù)據(jù)的分析成為可能。因此,利用深度學習進行視頻語義分析的研究也就成為了必然的選擇。目前基于深度學習的視頻語義分析基本上分為兩大步:1)利用卷積神經(jīng)網(wǎng)絡提取出各幀的視覺特征表達;2)利用長短時遞歸神經(jīng)網(wǎng)絡(LSTM)對該特征序列進行學習,并表達為相

2、應的語義類別或語義描述。本文在對現(xiàn)有視頻語義分析技術進行全面調研和總結的基礎之上,對視頻語義分類和視頻語義描述兩種任務深度學習模型中存在的經(jīng)典問題進行了充分的研究。從視頻幀的視覺特征表達的角度,分別提出了連續(xù)Dropout算法、參數(shù)對圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡、結構對圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡,從特征融合、特征提取的關鍵角度進一步改善現(xiàn)有卷積神經(jīng)網(wǎng)絡的性能。與此同時,針對序列學習中多層遞歸神經(jīng)網(wǎng)絡訓練難、訓練慢的問題,提出了以無監(jiān)督逐層

3、貪婪式學習的方式進行預訓練,有效提升模型性能和模型的訓練效率。更進一步地,針對現(xiàn)有視頻序列到單詞序列的單向映射框架的局限性,創(chuàng)造性地提出了基于潛在語義表征的多向序列學習算法,為基于視頻和句子序列的分析提供了新的視角。本文的主要工作和創(chuàng)新點總結如下:
  連續(xù)Dropout Dropout已經(jīng)被證明是一種有效的訓練深度卷積神經(jīng)網(wǎng)絡的算法,其主要的思想為通過在一個大規(guī)模的卷積神經(jīng)網(wǎng)絡中屏蔽一些原子,可以同時訓練多個弱分類器,在預測階段

4、,可以將這些弱分類器的結果綜合起來,有效提升卷積神經(jīng)網(wǎng)絡的性能。人腦中的神經(jīng)元的突觸的信號傳遞強度是連續(xù)隨機的而不是離散隨機的,受這種現(xiàn)象的啟發(fā),我們將傳統(tǒng)的二進制Dropout擴展到連續(xù)Dropout。一方面,連續(xù)Dropout比傳統(tǒng)的二進制Dropout更接近人腦中神經(jīng)元的激活特性。另一方面,我們證明連續(xù)Dropout具有避免特征檢測器共同適應的特性。這表明我們可以在預測階段融合更多的獨立特征檢測器提取出來的特征,從而得到更好的結果

5、。
  參數(shù)穩(wěn)健的卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(CNN)已經(jīng)在許多視覺任務上獲得了最好的結果,目前幾乎所有的視覺信息都要用到卷積神經(jīng)網(wǎng)絡進行處理。然而,目前的CNN模型仍然表現(xiàn)出對圖像空間變換的穩(wěn)健性比較差。直觀地,具有有足夠的層數(shù)和參數(shù)卷積神經(jīng)網(wǎng)絡通過卷積(矩陣乘法和非線性激活)和池操作的分層組合應該能夠學習從變換輸入圖像到變換不變表示的魯棒映射。我們提出在訓練階段隨機變換(旋轉、縮放和平移)CNN的特征圖。這可以降低CNN模型對訓

6、練圖像的特定旋轉,縮放和平移的依賴。相反,每個卷積核將學習到對于其輸入特征圖的多種變換組合中不變的特征。這樣,我們不需要對優(yōu)化過程和訓練圖像添加任何額外的監(jiān)督信息或對輸入圖像進行修改。通過實驗進一步驗證了通過隨機變換進行學習的CNN對于輸入圖像的變換更加不敏感,在小規(guī)模圖像識別,大規(guī)模圖像識別和圖像檢索上都提升了現(xiàn)有卷積神經(jīng)網(wǎng)絡的性能。
  結構穩(wěn)健的卷積神經(jīng)網(wǎng)絡卷積神經(jīng)網(wǎng)絡(CNN)已經(jīng)在許多視覺識別任務中展現(xiàn)了最好的性能。然而

7、,卷積和池化操作的組合對輸入中有意義目標的局部位置變化只顯示出較小的不變性。有時,一些網(wǎng)絡使用數(shù)據(jù)增強(Dataaugmentation)的方法來訓練網(wǎng)絡,以將這種不變性編碼到網(wǎng)絡參數(shù)中,但這限制了模型學習目標內容的能力。一種更有效的方式是將對平移或旋轉的不變性添加到網(wǎng)絡架構中,從而減輕了模型對參數(shù)學習的需要。為了使模型能夠專注于學習其所描述的對象,而不受其位置等影響,我們提出在特征響應圖中,通過對局部區(qū)塊進行排序,然后再輸入進下一層中

8、。當區(qū)塊重排序結合卷積和池操作時,我們對于處于不同位置的輸入圖像中的目標,獲得了一致的表達。我們證明了所提出的區(qū)塊排序模塊可以提高CNN對許多基準任務的性能,包括MNIST數(shù)字識別、大規(guī)模圖像識別和圖像檢索等。
  序列的深層遞歸神經(jīng)網(wǎng)絡學習遞歸神經(jīng)網(wǎng)絡(RNNs)特別是視頻分析中常用的長短時記憶網(wǎng)絡(LSTM)的最新發(fā)展已經(jīng)顯示出其對序列數(shù)據(jù)進行建模的潛力,特別是在計算機視覺和自然語言處理領域。然而,對擁有多層LSTM的深層網(wǎng)絡

9、的訓練效果相對于淺層網(wǎng)絡并沒有得到期望的提升,同時收斂速度也比較慢。這種困難源于LSTM的初始化方法,其中基于梯度的優(yōu)化通常會收斂于較差的局部解。針對此問題,我們探討了無監(jiān)督的LSTM初始化預訓練機制,充分利用無監(jiān)督預訓練的作用,指導后續(xù)的監(jiān)督訓練。在本文中,我們提出了一種新穎的基于編碼器-解碼器的學習框架,以貪婪式的逐層訓練的方式初始化多層LSTM,其中每個新增的LSTM層被訓練以保留上一層得到的表示中的主要信息。使用我們的預訓練方法

10、訓練的多層LSTM勝過隨機初始化訓練的的LSTM,在回歸(加法問題),手寫數(shù)字識別(MNIST),視頻分類(UCF-101)和機器翻譯WMT'14)等任務上都取得了更好的效果。此外,使用貪婪的逐層訓練方法還將多層LSTM的收斂速度提高了4倍。
  基于共享隱表征的序列到序列學習序列學習是深度學習的流行研究領域,如視頻字幕和語音識別。現(xiàn)有方法通過首先將輸入序列編碼為固定大小的向量,然后從向量解碼目標序列來將該學習建模為映射過程。雖然

11、簡單直觀,但是這種映射模型是任務相關(task-specific)的,不能直接用于不同的任務。在本文中,我們?yōu)橥ㄓ煤挽`活的序列到序列學習提出了一個星狀框架,其中不同類型的媒體內容(外圍節(jié)點)可以被編碼到共享隱表征(shared latent representation,SLR),即中央節(jié)點中。這是受到人腦可以以不同的方式學習和表達抽象概念的啟發(fā)。SLR的媒介不變屬性可以被視為中間向量的高級正則化,強制它不僅捕獲每個單個媒體內的隱式表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論