Ehancing Video Genre Classification Performance Using Support Vector Machine Ensemble and Kernel Logistic Regrssion.pdf_第1頁
已閱讀1頁,還剩138頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一個(gè)能夠加快搜索視頻的速度的方法是搜索特定類型的視頻。因此,我們十分需要能對這些視頻進(jìn)行歸類的計(jì)算工具,以此縮小語義鴻溝。對視頻進(jìn)行精確歸類需要視頻數(shù)據(jù)的良好表示,且需要有效和高效的模型來完成分類任務(wù)。提取適當(dāng)?shù)奶匦詫τ谠O(shè)計(jì)任何合理的模式分類器來說是至關(guān)重要的。因此,為了獲得對視頻內(nèi)容的完整的理解,發(fā)展出很多技術(shù),定義了很多視頻特征以得到視頻數(shù)據(jù)的良好表示。
  每一段視頻都包含三種類型的數(shù)據(jù),分別為視頻、音頻和文本,基于此,前人

2、已經(jīng)做了很多工作以解決視頻分類問題。這些視頻分類方法大致可分為四類:基于文本的方法、基于音頻的方法、基于視覺的方法以及混合方法,混合方法就是結(jié)合了前三種方法的一種方法。
  在本文中,為解決視頻分類問題,有兩個(gè)重要的任務(wù):
  視頻數(shù)據(jù)的高效表示
  執(zhí)行分類任務(wù)的高效、精確的模型
  為了完成這些任務(wù),本次研究中利用低級別的視覺特征來表示視頻,然后,首先我們探測視頻中的鏡頭,提取出鏡頭中的主幀,接著我們選擇主幀

3、的視覺特點(diǎn),并用它們來訓(xùn)練我們的模型,最后也使用在測試中。顏色是圖像表示的一個(gè)重要屬性。顏色直方圖表示了一副圖片中的色彩分布,是用于鏡頭檢測、關(guān)鍵幀提取和特征提取的最廣泛使用的顏色特征之一。許多研究者采用基于顏色直方圖比較的技術(shù)來達(dá)到箭頭檢測的目的,因?yàn)轭伾狈綀D比較技術(shù)有著很強(qiáng)的魯棒性。通常情況下,這個(gè)研究最關(guān)心的是整個(gè)視頻的分類而不是將幀分類,因此我們省略了鏡頭檢測的過程。所以,這個(gè)研究首先計(jì)算輸入視頻的顏色統(tǒng)計(jì)來提取主幀。這些幀包

4、含的顏色和顏色隨著時(shí)間的改變是最重要最基礎(chǔ)的數(shù)據(jù)。這個(gè)研究利用基于色彩的顏色直方圖來了解為什么兩個(gè)幀是相似的,正如前面所述,使用顏色直方圖是因?yàn)槠浜唵斡行У拿枋觥?br>  顏色直方圖一個(gè)普遍的問題就是很難通過使用顏色直方圖的特殊顏色來確定像素的位置,這種特殊顏能夠幫助精確地檢測到剪輯或相機(jī)移動(dòng),如同前面提到的一樣,一些學(xué)者喜歡將幀分割成區(qū)來獲得空間信息。但是對于我們這個(gè)模型,我們關(guān)心的不是這些歸類的鏡頭或者場景,而是整個(gè)視頻,因此,我

5、們經(jīng)常會(huì)忽略這個(gè)問題。顏色直方圖的另一個(gè)問題就是它對噪聲干擾很敏感,如照明強(qiáng)度的變化。例如,兩個(gè)幀可能在不同的光線條件下產(chǎn)生,那么比較這兩個(gè)幀就會(huì)出錯(cuò)。為了克服這個(gè)問題,本次研究中采取了一些學(xué)者提出的方法,為每一個(gè)框架規(guī)范顏色通道,并將其移動(dòng)到一個(gè)色度空間,這樣所有幀都在相同的照明條件下,所有的幀都被轉(zhuǎn)換為灰度。那么,本次研究中將通過以下步驟來選擇主幀:逐個(gè)提取視頻中的幀,然后計(jì)算出連續(xù)幀的直方圖差,然后再次計(jì)算出整個(gè)視頻幀間直方圖差,

6、并與閾值的差值進(jìn)行比較,然后將其作為關(guān)鍵幀。
  關(guān)鍵幀確定后,許多特征便可以從這些關(guān)鍵幀中提取,比如基于顏色的特征、基于紋理的特征、基于形狀的特征。使用低級別的特征,尤其是視覺特征的數(shù)據(jù)集所代表的大量的數(shù)據(jù),使得其計(jì)算上變得不可行或者學(xué)習(xí)困難。在我們的研究中,采用離散余弦變換(DCT)來變換框架,來提取特征和減少數(shù)據(jù)的維數(shù)。離散余弦變換(DCT)具有一些特殊的性質(zhì),這些性質(zhì)使它進(jìn)行圖像和視頻處理時(shí)產(chǎn)生強(qiáng)大的變換。DCT具有較強(qiáng)的

7、數(shù)據(jù)解相關(guān)能力,并且有實(shí)現(xiàn)離散余弦變換的快速算法?;贒CT變換的特征提取分為兩個(gè)步驟。
  第一步,將DCT應(yīng)用到整個(gè)框架得到DCT系數(shù),第二步,選擇一些系數(shù)構(gòu)成特征向量。
  對數(shù)據(jù)進(jìn)行充分的縮減后,然后下一步就是對視頻內(nèi)容建模,訓(xùn)練分類器,用分類器對各種不同類型的視頻進(jìn)行分類。其中,我們選用支持向量機(jī)(SVM)作為機(jī)器學(xué)習(xí)的方法,基于核心的邏輯回歸(KLR)作為統(tǒng)計(jì)方法。使用回歸模型來確定變量之間的關(guān)系,采用SVM分類

8、實(shí)例對象,支持向量機(jī)和模式分類是通過利用非線性變換(核函數(shù))將輸入模式映射到高維特征空間中,然后在特征空間上建立最優(yōu)超平面作為類間的決策面。輸入模式的非線性轉(zhuǎn)換使得模式類別在特征空間是線性可分的。根據(jù)覆蓋定理,當(dāng)將多維空間中的非線性可分模式轉(zhuǎn)換為一個(gè)新的很可能是線性可分的特征空間時(shí),這種轉(zhuǎn)換是非線性的,并且這個(gè)特征空間的維數(shù)足夠高。
  盡管可使用的集成技術(shù)已經(jīng)有很多了,比如貝葉斯方差分解,bagging,boosting和ran

9、dom forests,在我們的工作中,我們使用bagging技術(shù),構(gòu)建支持向量機(jī)的集成,通過引導(dǎo)方法獨(dú)自訓(xùn)練幾個(gè)支持向量機(jī)(SVM),然后使用合適的技術(shù)整合他們。為此,本次研究中使用的引導(dǎo)技術(shù)如下:引導(dǎo)程序從給定的數(shù)據(jù)集中,通過重復(fù)隨機(jī)采樣創(chuàng)建K個(gè)復(fù)制的訓(xùn)練數(shù)據(jù)集。給定訓(xùn)練集的每一個(gè)樣本在任意特定復(fù)制的訓(xùn)練數(shù)據(jù)集上可能出現(xiàn)多次或者一次也不出現(xiàn)。
  然后,在本次研究中,構(gòu)造了變量X和Y,X變量表示由經(jīng)過離散小波變換和主成分分析后

10、得到的視頻鏡頭的特征,Y變量決定是否手動(dòng)設(shè)置視頻鏡頭。訓(xùn)練這K個(gè)分類器后,一個(gè)測試實(shí)例歸于獲得最多票數(shù)的類中;bagging通過減少基本分類器的方差來改善泛化誤差。Bagging的性能取決于基本分類器的穩(wěn)定性,而對于這樣的任務(wù),支持向量機(jī)(SVM)被認(rèn)為是穩(wěn)定的分類器。
  內(nèi)核邏輯回歸(KLR)也作為統(tǒng)計(jì)方法來執(zhí)行分類任務(wù)。邏輯回歸(LR)的內(nèi)核版本,即之前提到的內(nèi)核邏輯回歸(KLR),證明了其作為分類器的效率,KLR提供了一個(gè)

11、基于最大似然參數(shù)而不是直接最小風(fēng)險(xiǎn)化的后驗(yàn)概率,并且擴(kuò)展到了多分類問題上。使用KLR的一個(gè)潛在的問題是,KLR的經(jīng)典的公示不能擴(kuò)展至大的問題,如在視頻分類中,并不像支持向量機(jī)(SVM)那樣,內(nèi)核邏輯回歸目標(biāo)優(yōu)化不會(huì)導(dǎo)致稀疏模式。為了解決這一問題,我們采用截?cái)嗯nD法,該方法能夠有效地解決大規(guī)模優(yōu)化問題。截?cái)嗯nD法首次被Komarek和Moore使用,他們表明截?cái)?正規(guī)化迭代加權(quán)最小二乘法(TR-IRLS)可以有效的在LR上實(shí)現(xiàn)分類大規(guī)模數(shù)

12、據(jù)集,并且能優(yōu)于支持向量機(jī)(SVM)算法。還有些作者采用的是信賴域牛頓法,該方法是一種分別用截?cái)嗯nD法和內(nèi)點(diǎn)截?cái)嗯nD法解決大規(guī)模LR問題的一種類型。對于牛頓法,大多采用共軛梯度(CG)算法,而不是執(zhí)行所有迭代直到滿足停止條件,在使用截?cái)嗯nD法可以更早打斷循環(huán),以此在收斂速度和迭代成本間取得良好的平衡。盡管計(jì)算機(jī)環(huán)境的演變增強(qiáng)了這些內(nèi)核邏輯回歸的優(yōu)化技術(shù)的性能,但是基于龐大數(shù)據(jù)的KLR計(jì)算方法依然是個(gè)挑戰(zhàn)。
  因此,為了將KLR用

13、于視頻分類,本研究采用IRLS來實(shí)現(xiàn)迭代加權(quán)核邏輯回歸極大似然估計(jì)(MLEIWKLR)。和SVM中過程一樣,構(gòu)建X和Y變量,X變量代表由DCT_ PCA數(shù)據(jù)表示的視頻鏡頭,Y變量表示手動(dòng)設(shè)置視頻鏡頭,然后IWKL是基于為分類準(zhǔn)備的數(shù)據(jù)上實(shí)現(xiàn),旨在獲得顯著的精度,使IWKLR成為視頻分類的一種有效方法。
  因此,在本研究中嘗試提出了一種能夠在工作效率上媲美SVM的KLR分類方法。
  為了驗(yàn)證我們的方法,首先需要收集真實(shí)的數(shù)

14、據(jù)。從youtube和youku網(wǎng)站下載視頻組成我們的數(shù)據(jù)集,并從TRECVid(Trec2002)獲取關(guān)鍵幀,這些視頻包括各種各樣的影片片段,新聞報(bào)道,和不同類型的運(yùn)動(dòng)賽事,然后分別用支持向量機(jī)集成SVM和內(nèi)核邏輯回歸(KLR)這兩種方法對視頻進(jìn)行分類。之所以選擇這三類視頻作為測試數(shù)據(jù)是因?yàn)樵谥鞍l(fā)表的幾篇論文中使用的就是這三類數(shù)據(jù)。數(shù)據(jù)集中共有240個(gè)不同的視頻片段,22000幀關(guān)鍵幀,我們輸入的是未壓縮的數(shù)字視頻,每一幀都是RGB

15、圖片。采用以下五個(gè)標(biāo)準(zhǔn)評估預(yù)測結(jié)果:相關(guān)系數(shù)(MCC)、QTotal、陽性預(yù)測值(PPV)、靈敏度和特異度。FP=假陽性,F(xiàn)N=假陰性,TP=真陽性,TN=真陰性。相關(guān)系數(shù)取值在-1到1之間,1表示完全相關(guān),-1表示完全反相關(guān),0表示不相關(guān)。
  使用SVM的集成可以在減少時(shí)間的同時(shí)提高準(zhǔn)確性,這甚至超出了我們的預(yù)設(shè)。盡管SVM的集成與單獨(dú)的SVM相比準(zhǔn)確性只是有微弱的提高,但是結(jié)果顯示SVM的集成與單獨(dú)的SVM相比,在時(shí)間上有較

16、大的提高。
  在相同數(shù)據(jù)集下采用三種不同的視頻分類方法對IWKLR的性能進(jìn)行測試。使用有著相同高斯內(nèi)核的KLR表明IWKLR方法在性能方面可以有很大的提升。對這篇論文中使用到的兩種方法進(jìn)行比較,結(jié)果顯示SVM集成算法的性能與單一的SVM相差不多,但是與基于IWKLR的視頻分類算法相比,結(jié)果更好。另外,SVM在其他性能指標(biāo)上,如MCC、精確度(Qpreddicted)、召回率(Qobserved),也比IWKLR優(yōu)越。但是KLR在

17、使用正確的算法時(shí)也可以得到和SVM相差無幾的結(jié)果。我們也相信有許多因素會(huì)影響結(jié)果,例如不同的特征提取的方法和預(yù)處理操作會(huì)產(chǎn)生不同的結(jié)果。
  到目前為止,大部分已完成的視頻分類研究中都沒有一套針對各類視頻的通用指南,因此實(shí)驗(yàn)中的視頻種類數(shù),訓(xùn)練集數(shù)和視頻長度長都有所不同。
  最后,我們設(shè)計(jì)了一種基于SVMa和邏輯回歸(LR)的視頻分類混合方法。首先將SVMs分類器隨機(jī)均分為不同集;然后采用集群模型中獲取的輸入訓(xùn)練各個(gè)SVM

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論