2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩138頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、一個能夠加快搜索視頻的速度的方法是搜索特定類型的視頻。因此,我們十分需要能對這些視頻進行歸類的計算工具,以此縮小語義鴻溝。對視頻進行精確歸類需要視頻數(shù)據(jù)的良好表示,且需要有效和高效的模型來完成分類任務(wù)。提取適當?shù)奶匦詫τ谠O(shè)計任何合理的模式分類器來說是至關(guān)重要的。因此,為了獲得對視頻內(nèi)容的完整的理解,發(fā)展出很多技術(shù),定義了很多視頻特征以得到視頻數(shù)據(jù)的良好表示。
  每一段視頻都包含三種類型的數(shù)據(jù),分別為視頻、音頻和文本,基于此,前人

2、已經(jīng)做了很多工作以解決視頻分類問題。這些視頻分類方法大致可分為四類:基于文本的方法、基于音頻的方法、基于視覺的方法以及混合方法,混合方法就是結(jié)合了前三種方法的一種方法。
  在本文中,為解決視頻分類問題,有兩個重要的任務(wù):
  視頻數(shù)據(jù)的高效表示
  執(zhí)行分類任務(wù)的高效、精確的模型
  為了完成這些任務(wù),本次研究中利用低級別的視覺特征來表示視頻,然后,首先我們探測視頻中的鏡頭,提取出鏡頭中的主幀,接著我們選擇主幀

3、的視覺特點,并用它們來訓練我們的模型,最后也使用在測試中。顏色是圖像表示的一個重要屬性。顏色直方圖表示了一副圖片中的色彩分布,是用于鏡頭檢測、關(guān)鍵幀提取和特征提取的最廣泛使用的顏色特征之一。許多研究者采用基于顏色直方圖比較的技術(shù)來達到箭頭檢測的目的,因為顏色直方圖比較技術(shù)有著很強的魯棒性。通常情況下,這個研究最關(guān)心的是整個視頻的分類而不是將幀分類,因此我們省略了鏡頭檢測的過程。所以,這個研究首先計算輸入視頻的顏色統(tǒng)計來提取主幀。這些幀包

4、含的顏色和顏色隨著時間的改變是最重要最基礎(chǔ)的數(shù)據(jù)。這個研究利用基于色彩的顏色直方圖來了解為什么兩個幀是相似的,正如前面所述,使用顏色直方圖是因為其簡單有效的描述。
  顏色直方圖一個普遍的問題就是很難通過使用顏色直方圖的特殊顏色來確定像素的位置,這種特殊顏能夠幫助精確地檢測到剪輯或相機移動,如同前面提到的一樣,一些學者喜歡將幀分割成區(qū)來獲得空間信息。但是對于我們這個模型,我們關(guān)心的不是這些歸類的鏡頭或者場景,而是整個視頻,因此,我

5、們經(jīng)常會忽略這個問題。顏色直方圖的另一個問題就是它對噪聲干擾很敏感,如照明強度的變化。例如,兩個幀可能在不同的光線條件下產(chǎn)生,那么比較這兩個幀就會出錯。為了克服這個問題,本次研究中采取了一些學者提出的方法,為每一個框架規(guī)范顏色通道,并將其移動到一個色度空間,這樣所有幀都在相同的照明條件下,所有的幀都被轉(zhuǎn)換為灰度。那么,本次研究中將通過以下步驟來選擇主幀:逐個提取視頻中的幀,然后計算出連續(xù)幀的直方圖差,然后再次計算出整個視頻幀間直方圖差,

6、并與閾值的差值進行比較,然后將其作為關(guān)鍵幀。
  關(guān)鍵幀確定后,許多特征便可以從這些關(guān)鍵幀中提取,比如基于顏色的特征、基于紋理的特征、基于形狀的特征。使用低級別的特征,尤其是視覺特征的數(shù)據(jù)集所代表的大量的數(shù)據(jù),使得其計算上變得不可行或者學習困難。在我們的研究中,采用離散余弦變換(DCT)來變換框架,來提取特征和減少數(shù)據(jù)的維數(shù)。離散余弦變換(DCT)具有一些特殊的性質(zhì),這些性質(zhì)使它進行圖像和視頻處理時產(chǎn)生強大的變換。DCT具有較強的

7、數(shù)據(jù)解相關(guān)能力,并且有實現(xiàn)離散余弦變換的快速算法。基于DCT變換的特征提取分為兩個步驟。
  第一步,將DCT應(yīng)用到整個框架得到DCT系數(shù),第二步,選擇一些系數(shù)構(gòu)成特征向量。
  對數(shù)據(jù)進行充分的縮減后,然后下一步就是對視頻內(nèi)容建模,訓練分類器,用分類器對各種不同類型的視頻進行分類。其中,我們選用支持向量機(SVM)作為機器學習的方法,基于核心的邏輯回歸(KLR)作為統(tǒng)計方法。使用回歸模型來確定變量之間的關(guān)系,采用SVM分類

8、實例對象,支持向量機和模式分類是通過利用非線性變換(核函數(shù))將輸入模式映射到高維特征空間中,然后在特征空間上建立最優(yōu)超平面作為類間的決策面。輸入模式的非線性轉(zhuǎn)換使得模式類別在特征空間是線性可分的。根據(jù)覆蓋定理,當將多維空間中的非線性可分模式轉(zhuǎn)換為一個新的很可能是線性可分的特征空間時,這種轉(zhuǎn)換是非線性的,并且這個特征空間的維數(shù)足夠高。
  盡管可使用的集成技術(shù)已經(jīng)有很多了,比如貝葉斯方差分解,bagging,boosting和ran

9、dom forests,在我們的工作中,我們使用bagging技術(shù),構(gòu)建支持向量機的集成,通過引導(dǎo)方法獨自訓練幾個支持向量機(SVM),然后使用合適的技術(shù)整合他們。為此,本次研究中使用的引導(dǎo)技術(shù)如下:引導(dǎo)程序從給定的數(shù)據(jù)集中,通過重復(fù)隨機采樣創(chuàng)建K個復(fù)制的訓練數(shù)據(jù)集。給定訓練集的每一個樣本在任意特定復(fù)制的訓練數(shù)據(jù)集上可能出現(xiàn)多次或者一次也不出現(xiàn)。
  然后,在本次研究中,構(gòu)造了變量X和Y,X變量表示由經(jīng)過離散小波變換和主成分分析后

10、得到的視頻鏡頭的特征,Y變量決定是否手動設(shè)置視頻鏡頭。訓練這K個分類器后,一個測試實例歸于獲得最多票數(shù)的類中;bagging通過減少基本分類器的方差來改善泛化誤差。Bagging的性能取決于基本分類器的穩(wěn)定性,而對于這樣的任務(wù),支持向量機(SVM)被認為是穩(wěn)定的分類器。
  內(nèi)核邏輯回歸(KLR)也作為統(tǒng)計方法來執(zhí)行分類任務(wù)。邏輯回歸(LR)的內(nèi)核版本,即之前提到的內(nèi)核邏輯回歸(KLR),證明了其作為分類器的效率,KLR提供了一個

11、基于最大似然參數(shù)而不是直接最小風險化的后驗概率,并且擴展到了多分類問題上。使用KLR的一個潛在的問題是,KLR的經(jīng)典的公示不能擴展至大的問題,如在視頻分類中,并不像支持向量機(SVM)那樣,內(nèi)核邏輯回歸目標優(yōu)化不會導(dǎo)致稀疏模式。為了解決這一問題,我們采用截斷牛頓法,該方法能夠有效地解決大規(guī)模優(yōu)化問題。截斷牛頓法首次被Komarek和Moore使用,他們表明截斷-正規(guī)化迭代加權(quán)最小二乘法(TR-IRLS)可以有效的在LR上實現(xiàn)分類大規(guī)模數(shù)

12、據(jù)集,并且能優(yōu)于支持向量機(SVM)算法。還有些作者采用的是信賴域牛頓法,該方法是一種分別用截斷牛頓法和內(nèi)點截斷牛頓法解決大規(guī)模LR問題的一種類型。對于牛頓法,大多采用共軛梯度(CG)算法,而不是執(zhí)行所有迭代直到滿足停止條件,在使用截斷牛頓法可以更早打斷循環(huán),以此在收斂速度和迭代成本間取得良好的平衡。盡管計算機環(huán)境的演變增強了這些內(nèi)核邏輯回歸的優(yōu)化技術(shù)的性能,但是基于龐大數(shù)據(jù)的KLR計算方法依然是個挑戰(zhàn)。
  因此,為了將KLR用

13、于視頻分類,本研究采用IRLS來實現(xiàn)迭代加權(quán)核邏輯回歸極大似然估計(MLEIWKLR)。和SVM中過程一樣,構(gòu)建X和Y變量,X變量代表由DCT_ PCA數(shù)據(jù)表示的視頻鏡頭,Y變量表示手動設(shè)置視頻鏡頭,然后IWKL是基于為分類準備的數(shù)據(jù)上實現(xiàn),旨在獲得顯著的精度,使IWKLR成為視頻分類的一種有效方法。
  因此,在本研究中嘗試提出了一種能夠在工作效率上媲美SVM的KLR分類方法。
  為了驗證我們的方法,首先需要收集真實的數(shù)

14、據(jù)。從youtube和youku網(wǎng)站下載視頻組成我們的數(shù)據(jù)集,并從TRECVid(Trec2002)獲取關(guān)鍵幀,這些視頻包括各種各樣的影片片段,新聞報道,和不同類型的運動賽事,然后分別用支持向量機集成SVM和內(nèi)核邏輯回歸(KLR)這兩種方法對視頻進行分類。之所以選擇這三類視頻作為測試數(shù)據(jù)是因為在之前發(fā)表的幾篇論文中使用的就是這三類數(shù)據(jù)。數(shù)據(jù)集中共有240個不同的視頻片段,22000幀關(guān)鍵幀,我們輸入的是未壓縮的數(shù)字視頻,每一幀都是RGB

15、圖片。采用以下五個標準評估預(yù)測結(jié)果:相關(guān)系數(shù)(MCC)、QTotal、陽性預(yù)測值(PPV)、靈敏度和特異度。FP=假陽性,F(xiàn)N=假陰性,TP=真陽性,TN=真陰性。相關(guān)系數(shù)取值在-1到1之間,1表示完全相關(guān),-1表示完全反相關(guān),0表示不相關(guān)。
  使用SVM的集成可以在減少時間的同時提高準確性,這甚至超出了我們的預(yù)設(shè)。盡管SVM的集成與單獨的SVM相比準確性只是有微弱的提高,但是結(jié)果顯示SVM的集成與單獨的SVM相比,在時間上有較

16、大的提高。
  在相同數(shù)據(jù)集下采用三種不同的視頻分類方法對IWKLR的性能進行測試。使用有著相同高斯內(nèi)核的KLR表明IWKLR方法在性能方面可以有很大的提升。對這篇論文中使用到的兩種方法進行比較,結(jié)果顯示SVM集成算法的性能與單一的SVM相差不多,但是與基于IWKLR的視頻分類算法相比,結(jié)果更好。另外,SVM在其他性能指標上,如MCC、精確度(Qpreddicted)、召回率(Qobserved),也比IWKLR優(yōu)越。但是KLR在

17、使用正確的算法時也可以得到和SVM相差無幾的結(jié)果。我們也相信有許多因素會影響結(jié)果,例如不同的特征提取的方法和預(yù)處理操作會產(chǎn)生不同的結(jié)果。
  到目前為止,大部分已完成的視頻分類研究中都沒有一套針對各類視頻的通用指南,因此實驗中的視頻種類數(shù),訓練集數(shù)和視頻長度長都有所不同。
  最后,我們設(shè)計了一種基于SVMa和邏輯回歸(LR)的視頻分類混合方法。首先將SVMs分類器隨機均分為不同集;然后采用集群模型中獲取的輸入訓練各個SVM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論