2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、圖像梯度方向直方圖描述子,重慶大學(xué)行業(yè)信息化工程中心 黃晟,圖像表征,什么是圖像的描述子?其實(shí)圖像描述子就是圖像的一種表征形式,我們所熟知的像素值便是最常見最樸素的一種圖像表征形式,也可以被看成一種描述形式。既然已經(jīng)存在像素這種描述子,為何我們還有尋求新的圖像描述子?,圖像梯度方向直方圖描述子,圖像梯度方向直方圖(Histogram of Oriented Gradient)HOG(Histogram of Oriented

2、 Gradient)是2005年CVPR會議上,法國國家計(jì)算機(jī)科學(xué)及自動控制研究所的Dalal等人提出的一種解決人體目標(biāo)檢測的圖像描述子,該方法使用梯度方向直方圖(Histogram of Oriented Gradients,簡稱HOG)特征來表達(dá)人體,提取人體的外形信息和運(yùn)動信息,形成豐富的特征集。,圖像梯度方向直方圖的生成步驟,生成步驟:,HOG描述子高維圖像特征向量生成步驟,HOG描述子高維圖像特征向量生成步驟:圖像歸一化利

3、用一階微分計(jì)算圖像梯度基于梯度幅值的方向權(quán)重投影HOG特征向量歸一化得出HOG最終的特征向量,圖像歸一化,step 1:圖像歸一化歸一化圖像的主要目的是提高檢測器對光照的魯棒性,因?yàn)閷?shí)際的人體目標(biāo)可能出現(xiàn)的各種不同的場合,檢測器,必須對光照不太敏感才會有好的效果。,利用一階微分計(jì)算圖像梯度,Step 2 利用一階微分計(jì)算圖像梯度圖像平滑梯度法求圖像梯度,圖像平滑,圖像平滑對于灰度圖像,一般為了去除噪點(diǎn),所以會先利用離

4、散高斯平滑模板進(jìn)行平滑:高斯函數(shù)在不同平滑的尺度下進(jìn)行對灰度圖像進(jìn)行平滑操作,Dalal等實(shí)驗(yàn)表明在下,人體檢測效果最佳(即不做高斯平滑),使得錯(cuò)誤率縮小了約一倍。不做平滑操作,可能原因:圖像時(shí)基于邊緣的,平滑會降低邊緣信息的對比度,從而減少圖像中的信號信息。,利用一階微分求解圖像梯度,一階微分處理一般對灰度階梯有較強(qiáng)的響應(yīng)一階微分:對于函數(shù)f(x,y),在其坐標(biāo)(x,y)上的梯度是通過如下二維列向量定義的:這個(gè)向量的模值由下

5、式給出:,因?yàn)槟V档挠?jì)算開銷比較大,一般可以按如下公式近似求解:Dalal等人利用許多一階微分模板進(jìn)行求梯度近似值,但在實(shí)驗(yàn)中表明模板[-1,0,1]效果最好。,,我將采用模板[-1,0,1]為例計(jì)算圖像梯度以及方向,通過梯度模板計(jì)算水平和垂直方向的梯度分別如下:其中,分別表示該像素點(diǎn)的水平,垂直梯度值。計(jì)算該像素點(diǎn)的梯度值(梯度強(qiáng)度)以及梯度方向:,,對于梯度方向的范圍限定,一般采用無符號的范圍,故梯度方向可表示為:,

6、,基于梯度幅值的方向權(quán)重投影,Step 3 基于梯度幅值的方向權(quán)重投影HOG結(jié)構(gòu)通常使用的HOG結(jié)構(gòu)大致有三種:矩形HOG(簡稱為R-HOG),圓形HOG和中心環(huán)繞HOG。它們的單位都是Block(即塊),,Dalal的試驗(yàn)證明矩形HOG和圓形HOG的檢測效果基本一致,而環(huán)繞形HOG效果相對差一些。并且,圓形與環(huán)繞形的HOG文獻(xiàn)比較少,應(yīng)用研究沒有矩形HOG普遍。所以在此,我將著重講解矩形HOG的情況。,矩形HOG塊的劃分:一般一

7、個(gè)塊(Block)都由若干單元(Cell)組成,一個(gè)單元都有如干個(gè)像素點(diǎn)組成。,,,在每個(gè)Cell中有獨(dú)立做梯度方向統(tǒng)計(jì),從而以梯度方向?yàn)闄M軸的的直方圖,前面我們已經(jīng)提到過,梯度方向可取0度到180度或0度~360度,但dalal實(shí)驗(yàn)表明,對于人體目標(biāo)檢測0度~180度這種忽略度數(shù)正負(fù)級的方向范圍能夠取得更好的結(jié)果。然后又將這個(gè)梯度分布平均分成 個(gè)方向角度(orientation bins),每個(gè)方向角度范圍都會對應(yīng)一個(gè)直方柱。,,根據(jù)

8、Dalal等人實(shí)驗(yàn),在人體目標(biāo)檢測中,在無符號方向角度范圍并將其平均分成9份(bins)能取得最好的效果,當(dāng)bin的數(shù)目繼續(xù)增大效果改變不明顯,故一般在人體目標(biāo)檢測中使用bin數(shù)目為9范圍0~180度的度量方式。如下圖所示:,,Block中各個(gè)參數(shù)的最終選?。?,,從圖中可以看出,對于人體對象檢測,塊的大小為3×3個(gè)單元格,單元格的大小為6×6個(gè)象素時(shí),檢測效果是最好的,錯(cuò)誤率約為10%左右。塊的大小為2×

9、2個(gè)單元格,單元格大小為8×8個(gè)象素時(shí),也相差無幾。6-8個(gè)象素寬的單元格,2-3個(gè)單元格寬的塊,其錯(cuò)誤率都在最低的一個(gè)平面上。塊的尺寸太大時(shí)標(biāo)準(zhǔn)化的作用被削弱了從而導(dǎo)致錯(cuò)誤率上升,而如果塊的尺寸太小時(shí),有用的信息反而會被過濾掉。在實(shí)際應(yīng)用中,在Block和Cell劃分之后,對于得到各個(gè)像區(qū)域中,有時(shí)候還會為了進(jìn)行一次高斯平滑,但是對于人體目標(biāo)檢測等問題,該步驟往往可以忽略,實(shí)際應(yīng)用效果不大,估計(jì)在主要還是去除區(qū)域中噪點(diǎn),

10、因?yàn)樘荻葘τ谠朦c(diǎn)相當(dāng)敏感,,對梯度方向的投影權(quán)重方式的選?。簩τ谔荻确较虻募訖?quán)投影,一般都采用一個(gè)權(quán)重投影函數(shù),它可以是像素點(diǎn)的梯度幅值,梯度幅值的平方根或梯度幅值的平方,甚至可以使梯度幅值的省略形式,它們都能夠一定程度上反應(yīng)出像素上一定的邊緣信息。根據(jù)Dalal等人論文的測試結(jié)果,采用梯度幅值量級本身得到的檢測效果最佳,使用量級的平方根會輕微降低檢測結(jié)果,而使用二值的邊緣權(quán)值表示會嚴(yán)重降低效果(約為5%個(gè)單位10-4FPPW(Fa

11、lse Positives Per Window))。,塊劃分所帶來的問題: 塊與塊之間是相互獨(dú)立的么?,,分塊之間的相關(guān)性問題解決,答:通常的將某個(gè)變量范圍固定劃分為幾個(gè)區(qū)域,由于邊界變量與相鄰區(qū)域也有相關(guān)性,所以變量只對一個(gè)區(qū)域進(jìn)行投影而對相鄰區(qū)域完全無關(guān)時(shí)會對其他區(qū)域產(chǎn)生混疊效應(yīng)。分塊之間的相關(guān)性問題的解決:方案一:塊重疊,重復(fù)統(tǒng)計(jì)計(jì)算方案二:線性插值權(quán)重分配,重疊塊:Datal等人在他們那篇關(guān)于HOG最為經(jīng)典的論文《H

12、istogram of Oriented Gradient for Human Detection》提出了利用塊與塊的重疊(Overlap)來解決混疊,并且取得了不錯(cuò)的效果。,,在重疊方式中,塊與塊之間的邊緣點(diǎn)被重復(fù)根據(jù)權(quán)重投影到各自相鄰塊(block)中,從而一定模糊了塊與塊之間的邊界,處于塊邊緣部分的像素點(diǎn)也能夠給相鄰塊中的方向梯度直方圖提供一定貢獻(xiàn),從而達(dá)到關(guān)聯(lián)塊與塊之間的關(guān)系的作用。Datal對于塊和塊之間相互重疊程度對人體目標(biāo)

13、檢測識別率影響也做了實(shí)驗(yàn)分析。,,利用線性插值的方法解決分塊之間聯(lián)系問題,利用線性插值的方法解決分塊之間聯(lián)系問題:有些文獻(xiàn)采用的不是塊與塊重疊的方法,而是采用線性插值的方法來削弱混疊效應(yīng)。這種方法的主要思想是每個(gè)Block都對臨近的Block都有影響,這種影響,我們可以以一種加權(quán)方式附加上去。,基于線性插值的基本思想,對于上圖四個(gè)方向(橫縱兩個(gè)45度斜角方向)個(gè)進(jìn)行一次線性插值就可以達(dá)到權(quán)重分配目的。下面介紹一維線性插值。假設(shè)x1和x

14、2是x塊相鄰兩塊的中心,且x1<x<x2。對w(即權(quán)重,一般可直接采用該block的直方圖值即h(x))進(jìn)行線性插值的方法如下式:其中b在橫縱方向取塊間隔,而在斜45度方向則可采用sqrt(2)倍的塊間隔。,,Step 4:HOG特征向量歸一化我們要對block塊內(nèi)的HOG特征向量進(jìn)行歸一化。對block塊內(nèi)特征向量的歸一化主要是為了使特征向量空間對光照,陰影和邊緣變化具有魯棒性。還有歸一化是針對每一個(gè)bloc

15、k進(jìn)行的,一般采用的歸一化函數(shù)有以下四種:,,在人體檢測系統(tǒng)中進(jìn)行HOG計(jì)算時(shí)一般使用L2-norm,Dalal的文章也驗(yàn)證了對于人體檢測系統(tǒng)使用L2-norm的時(shí)候效果最好。,,HOG最終的特征向量生成,Step 5 HOG最終的特征向量生成,HOG的應(yīng)用,HOG的應(yīng)用:主要用在object detection 領(lǐng)域,特別是行人檢測,智能交通系統(tǒng),當(dāng)然也有文章提到把HOG用在手勢識別,人臉識別等方面。,HOG與SIFT的區(qū)別,HOG

16、與SIFT的區(qū)別,HOG和SIFT都屬于描述子,以及由于在具體操作上有很多相似的步驟,所以致使很多人誤認(rèn)為HOG是SIFT的一種,其實(shí)兩者在使用目的和具體處理細(xì)節(jié)上是有很大的區(qū)別的。HOG與SIFT的主要區(qū)別如下:① SIFT是基于關(guān)鍵點(diǎn)特征向量的描述。② HOG是將圖像均勻的分成相鄰的小塊,然后在所有的小塊內(nèi)統(tǒng)計(jì)梯度直方圖。③ SIFT需要對圖像尺度空間下對像素求極值點(diǎn),而HOG中不需要。④ SIFT一般有兩大步驟,第一個(gè)步驟

17、是對圖像提取特征點(diǎn),而HOG不會對圖像提取特征點(diǎn)。,關(guān)于HOG的總結(jié),關(guān)于HOG的總結(jié):HOG的優(yōu)點(diǎn)HOG的缺點(diǎn)對于HOG的一些啟發(fā),,HOG的優(yōu)點(diǎn):HOG表示的是邊緣(梯度)的結(jié)構(gòu)特征,因此可以描述局部的形狀信息;位置和方向空間的量化一定程度上可以抑制平移和旋轉(zhuǎn)帶來的影響;采取在局部區(qū)域歸一化直方圖,可以部分抵消光照變化帶來的影響。由于一定程度忽略了光照顏色對圖像造成的影響,使得圖像所需要的表征數(shù)據(jù)的維度降低了。而且由

18、于它這種分塊分單元的處理方法,也使得圖像局部像素點(diǎn)之間的關(guān)系可以很好得到的表征。,,HOG的缺點(diǎn):,描述子生成過程冗長,導(dǎo)致速度慢,實(shí)時(shí)性差;很難處理遮擋問題。由于梯度的性質(zhì),該描述子對噪點(diǎn)相當(dāng)敏感,算法帶來的啟發(fā),算法帶來的啟發(fā):1.算法過程層面上的啟發(fā)(1條)。2.應(yīng)用和后期處理層面的啟發(fā)(2條)。3.在算法數(shù)學(xué)機(jī)理的角度上的啟發(fā)(1條),,感興趣的同學(xué)可以下載:http://iiec.cqu.edu.cn/sites

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論