2005年--外文翻譯--基于方向梯度直方圖的行人檢測(譯文)_第1頁
已閱讀1頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  中文1.1萬字,5820單詞,3萬英文字符</p><p>  出處:Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Confer

2、ence on. IEEE, 2005, 1: 886-893.</p><p><b>  外文譯文</b></p><p>  基于方向梯度直方圖的行人檢測</p><p>  作者: Navneet Dalal , Bill Triggs </p><p><b>  摘要</b>&l

3、t;/p><p>  我們采用基于線性 SVM(支持向量機)的行人檢測作為測試案例來研究關(guān) 于健壯的實物視覺檢測特征集的問題。在通過實驗測試了現(xiàn)存的所有基于邊緣與 直方圖的特征描述子滯后,我們認為在行人檢測的應(yīng)用上,由 HOG(方向梯度 直方圖)提取的特征集明顯優(yōu)于現(xiàn)存的其它特征集。我們研究了各階段計算對檢 測性能的影響,得出了這樣的結(jié)論:尺度精細的梯度,精確的方向分割,相對粗 略的空間分級以及在重疊的描述塊中高質(zhì)量

4、的局部對比度歸一化都對良好的檢 測結(jié)果起著重要的作用。新方法在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時幾 乎給出了完美的區(qū)分,因此我們引入了一個更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅標識的圖像,在這些圖像中行人的姿勢不同,背景各異。</p><p><b>  1.緒論</b></p><p>  鑒于在圖像中人的相貌各不相同、姿勢變化多端,要對其進行檢測

5、是一個富 有挑戰(zhàn)性的任務(wù)。首先我們需要的是一個健壯的特征集,在這個特征集中,即使 是在在光照很差、背景雜亂的情況下,人形也能夠清楚地辨認出來。我們對用于 行人檢測的特征集問題的研究顯示,相對于現(xiàn)存的包括小波在內(nèi)的其他特征集,基于局部歸一化方向梯度直方圖(HOG)的描述子表現(xiàn)出了極佳的性能。這一描述子讓人聯(lián)想到邊緣方向直方圖,SIFT 描述子和 shape context,但它們的計算 是基于一個由均勻間隔的胞元所形成的密集網(wǎng)格,而且為了

6、提高性能,使用了重 疊的局部對比度歸一化。以“行人檢測”(對大多可見并呈直立姿勢的人的檢測)為一個測試案例,我們對各種實施的判斷對檢測器性能的影響做了細致的研究。為了使整個研究更為簡單和快速,我們采用了線性SVM為一個基礎(chǔ)的分類器。新的檢測器在檢測原麻省理工學(xué)院行人數(shù)據(jù)庫中的信息時表現(xiàn)基本上完美,所以 我們創(chuàng)建了一個更具挑戰(zhàn)的數(shù)據(jù)集,它包含著超過 1800 幅圖像,在這些圖像中 行人的姿勢不同,背景各異。正在進行的工作表明,我們的特征集

7、在進行其他的 基于形狀的實物檢測時同樣表現(xiàn)良好。</p><p>  在論文的第二部分,我們簡要地討論了在行人檢測方面前人所做的工作,在 論文的第三部分,我們對自己的方法做了概述,在論文的第四部分,我們介紹了 自己的數(shù)據(jù)庫,在論文的第五和第六部分,我們對檢測過程的各個步驟給出了細 致的描述和實驗評價。而在論文的第七部分,則是我們得到的主要結(jié)論。</p><p><b>  2.前

8、人工作</b></p><p>  關(guān)于實物檢測的文獻為數(shù)眾多,但在這里我們僅僅列舉幾篇與行人檢測相關(guān) 的論文(見參考文獻 18,17,22,16,20)。參考文獻 6 是一份調(diào)查資料。Papageorgio 等人在參考文獻 18 中描述了一種基于多項式核函數(shù) SVM 分類算法的行人檢測 器,它使用修正 Haar 小波作為輸入的描述子,并有一個基于參考文獻 17 中的思 想變化而來的部件(子窗口)。而

9、 Depoortere 等人在參考文獻 2 中給出一個更優(yōu) 化的版本。Gavrila 和 Philomen 在慘老文獻 8 中則采取了更直接的辦法,他們提 取了邊緣圖像,并通過倒角距離,將它們與一系列已經(jīng)通過學(xué)習(xí)的例子進行匹配。 這些已經(jīng)在參考文獻 7 提及的一個實用化的實時行人檢測系統(tǒng)中得到了應(yīng)用。Viola 等人在參考文獻 22 中創(chuàng)建一個高效的移動行人檢測器,它使用 adaboost 算法來訓(xùn)練一個基于 Harr-like 小波和

10、時空差異的逐步復(fù)雜的區(qū)域拒絕規(guī)則鏈。Ronfard 等人在參考文獻 19 中通過引入基于 SVM 算法和一二階高斯濾波器的肢體分類器而創(chuàng)建了基于關(guān)節(jié)點的人體檢測器 , 這些都處于一個 類似于F</p><p><b>  3.方法概述</b></p><p>  這一章給出了我們進行特征提取流程的概述,參考圖 1 對其進行了總結(jié)。而 整個流程的細節(jié)部分我們將在第六章講

11、述。這種方法是基于在一個密集的網(wǎng)格中 評估完全歸一化后的圖像梯度方向的局部直方圖。在過去的十年中類似的特征得 到了越來越廣泛的應(yīng)用(見參考文獻 4,5,12,15)。其基本思想是,即使沒有確切 的相關(guān)梯度或邊緣位置的信息,物體局部的外觀和形狀也往往深受局部強度梯度 或者是邊緣方向的影響。在實際運用中,這是通過將圖片窗口劃分成小的空間區(qū) 域(胞元)而實現(xiàn)的,對于每個胞元,都要對其中的像素的一維梯度方向直方圖 或是邊緣方向進行累積統(tǒng)計。合并

12、后的直方圖就構(gòu)成了被檢測物的特征。為了使 其對光照、陰影等條件更加不敏感,在使用它們之前進行對比度歸一化也是有必 要的。這一歸一化是通過對更大的空間區(qū)域(塊)中某一特征的局部直方圖的“能 量”進行累積統(tǒng)計,進而對塊上的每一個胞元進行歸一化來實現(xiàn)的。我們把歸一 化后的描述子塊作為方向梯度直方圖(HOG)描述子。對行人的檢測工作的流 程包括在由 HOG 描述子組成的密集(事實上有重疊)的網(wǎng)格上平行滑動檢測窗 以及在基于 SVM 的窗口分類器

13、下使用組合特征</p><p>  參考圖 1.對我們特征提取和實物檢測流程的概述。檢測窗口由一些平鋪的重疊的塊組成的 網(wǎng)格構(gòu)成,在每個塊中提取方向梯度直方圖特征向量。合并后的向量送入一個線性 SVM 進行 檢測目標\非檢測目標分類。這個檢測窗口會掃描不同大小的圖片的所有位置,并且傳統(tǒng)的 無最大值限制在輸出端得到應(yīng)用來檢測對象實例,但是這篇論文重點在于特征提取的流程。</p><p>  

14、以前對方向直方圖的使用也并不少見(見參考文獻13,4,5),然而,直到把它與局部空間直方圖計算和歸一化結(jié)合起來時,這一方法才達到了成熟。Lowe 在參考文獻 12 中將尺度不變特征變換(SIFT)用于寬基線圖像匹配,并給出了 用于尺度不變關(guān)鍵點匹配的底端圖像層描述子?;?SIFT 的算法在這一應(yīng)用中 表現(xiàn)突出(見參考文獻 12,14)。Shape Context 算法則對胞元和塊得形狀進行了 研究(見參考文獻1),盡管它最初只進行了邊

15、緣像素的計數(shù),而沒有運用方向 直方圖計算這一能夠大大提高所提取特征的有效性的方法。這些基于并不常見的 算法的特征的成功稍稍掩蓋了HOG 特征在用作密集圖片描述子時所表現(xiàn)出的強力和簡單的特性。我們試圖通過自己的研究來糾正這一點。值得一提的是,我們非正式的實驗表明,在行人檢測這一方面,即使是當(dāng)今最好的基于關(guān)鍵點的方法,也要比我們密集網(wǎng)格的方法在假陽性率上高上 1 到 2 個數(shù)量級,這主要是因為在我們所知的基于關(guān)鍵點的描述子中,沒有一個能夠?qū)?/p>

16、人體結(jié)構(gòu)進行可靠的檢測。</p><p>  HOG/ SIFT 特征有幾處優(yōu)點。它不僅捕捉到了極具局部形狀代表性的邊緣或 是梯度結(jié)構(gòu),而且還捕捉到了一個局部特征,這一特征對局部的幾何和光學(xué)變換 的不敏感程度容易控制:如果它遠比局部的空間或是方向區(qū)間小,轉(zhuǎn)換或是旋轉(zhuǎn) 對它來說就沒什么區(qū)別。對于行人檢測,粗略空間采樣,精確方向采樣和完全的 光學(xué)條件歸一化才是最理想的策略,這可能是因為,只要對象保持大致直立的方 向,

17、可以容忍人的外觀由四肢和軀干各部分的活動而帶來的改變。</p><p><b>  4.數(shù)據(jù)庫和方法</b></p><p>  數(shù)據(jù)庫:我們在兩個不同的數(shù)據(jù)庫中測試了我們的檢測器的效果。第一個是 完善的麻省理工學(xué)院的行人數(shù)據(jù)庫(見參考文獻 18),含 509 張訓(xùn)練用和 200 張 測試用的以城市風(fēng)光為背景的行人圖片(加上它們的左右影射)。它只包含了前 視和后視圖,

18、而且其中的姿勢的種類也相對有限,因此我們制作了一個全新而且 更具挑戰(zhàn)性的數(shù)據(jù)庫“INRIA”,它包含 1805 張 64×128 尺寸的從不同的個人圖</p><p>  片集中裁剪而來的行人圖片。參考圖 2 顯示了其中的一些樣本。圖片中的人們通 常是站立的姿勢,但他們有可能朝著任何方向,其背景(甚至包括人群)也是多 種多樣。他們中的許多只是路人,所以他們的姿勢就不會有特殊的偏向。你可以 從以下網(wǎng)址下載

19、到這個數(shù)據(jù)庫 http://lear.inrialpes.fr/data for research purposes。</p><p>  參考圖 2.以上是我們新的行人檢測數(shù)據(jù)庫中的一些樣本圖片。樣本中的行人大多直立,但 也會有部分被遮擋,并且姿勢、外表、穿著、光照和背景變化多端。</p><p>  方法:我們選取了其中 1239 張圖片以及它們的左右影射(一共是 2478 張)<

20、;/p><p>  作為正樣本。從 1218 張行人訓(xùn)練用圖片中隨機抽取的 12180 個圖片塊組成的固 定集合構(gòu)成了最初的負樣本集。至于每個檢測器及其參數(shù)組合的確定,都會先訓(xùn) 練出一個基礎(chǔ)的檢測器,然后不斷對 1218 張訓(xùn)練用負養(yǎng)本圖片進行排查,找出假陽性的例子(即“難例子”)。該方法通過這個擴充集(最初的 12180 個樣本加上“難例子”)進行再訓(xùn)練,就得到了最終的檢測器。如果有必要的話,可以對“難例子”集進行

21、二次采樣,這樣最終訓(xùn)練集得描述子在進入 SVM 訓(xùn)練之前就恰好能占據(jù) 1.7Gb 的 RAM 容量。這一再訓(xùn)練的過程極大地提高了每一個檢測器的性能(在對我們默認檢測器進行的在窗口假陽性測試(FPPW)中在 10-4 數(shù)量 級上提高了 5%),但更多次數(shù)的再訓(xùn)練并沒有多大區(qū)別,所以我們沒有再進行下去。</p><p>  為了能夠定量地分析檢測器的性能,我們繪制了權(quán)衡檢測誤差的對數(shù)尺度曲線,即漏檢率(1—檢出率或者

22、是假陰率/真陽率與假陰率的和)對比誤檢率。其值越低則檢測器效果越好。DET 圖表在各類報告和美國國家標準技術(shù)研究院(NIST)的評估中得到了廣泛的應(yīng)用。它們傳達了類似接收端工作特性(ROC’s)的信息,但讓小概率的事件更容易加以區(qū)分。我們通常將漏檢率在10-4 數(shù)量級的窗口假陽性測試中用作參考點以得出結(jié)論。這有些專斷,但我們并沒有更多像位于 ROC 以下的區(qū)域這樣的可以觀測的指標。在一個多尺度的檢測器中,針對每幅 640×4

23、80 的測試圖像都給出80%為假陽性的原始錯誤率(由于沒有最大值的限制,整個檢測器的假陽率甚至都比它低)。我們的DET曲線的高度非常低,因此即使是在漏檢率上非常小的改進,也與在固定漏檢率下的窗口假陽性測試中大的提高相當(dāng)。例如,在10-4 數(shù)量級的窗口假陽性測試中,對于我們默認的檢測器,在漏檢率上每 1%絕對的(9%相對)的減少相當(dāng)于在在固定漏檢率下的窗口假陽 性測試中減少 1.57 倍。</p><p&

24、gt;<b>  5.檢測結(jié)果概述</b></p><p>  在進行具體的檢測流程和性能分析之前,我們將基于 HOG 特征的檢測器總 體性能與現(xiàn)存的其它方法的性能作了比較。即將基于矩形特征(R-HOG)或是 環(huán)形指數(shù)極坐標特征(C-HOG)塊和線性或核心 SVM 算法的檢測器分別同基于 Haar 小波,PCA-SIFT 和 shape context 的作了比較。簡而言之,這些方法如下所&

25、lt;/p><p>  示:廣義的 haar 小波:這是一個面向類 Harr 小波的擴展特征集,它與參考文獻17 中所用到的類似,但性能上占優(yōu)。這些特征是通過 9×9 和 12×12 大小、以 45 度為間隔的面向一階和二階導(dǎo)數(shù)盒子濾波器以及對應(yīng)的二階導(dǎo)數(shù)直角坐標濾波 器修正而來的參數(shù)。</p><p>  PCA-SIFT:這些描述子是通過將梯度圖像投影到用 PCA 對圖

26、像進行訓(xùn)練學(xué)習(xí)后得到的基礎(chǔ)上而產(chǎn)生的(見參考文獻 11)。Ke和Sukthankar 發(fā)現(xiàn)這些特征 在基于關(guān)鍵點的匹配上表現(xiàn)比 SIFT 更加優(yōu)秀,但這是有爭議的(見參考文獻 14)。 我們實驗中使用擁有相同導(dǎo)數(shù)級、重疊等特點的 16×16 大小的塊做為 HOG 描述 子。依據(jù)訓(xùn)練用的正樣本圖像,我們對 PCA 的基礎(chǔ)參數(shù)做了計算。</p><p>  Shape Contexts:最初的 Shape

27、Contexts(見參考文獻 1)是用二進制的邊緣 信息在指數(shù)極坐標的區(qū)間內(nèi)投影,而并沒有考慮邊緣方向的因素。我們使用 C-HOG 描述子(如下所示)以及一個方向區(qū)間來模擬這種算法。16 種角度和 3 段散開的間隔加上內(nèi)徑的 2 個像素與外徑的 8 個像素的參數(shù)設(shè)置給出了最佳的結(jié) 果?;谔荻葟姸刃畔⒑瓦吘壭畔⒌耐队岸歼M行了測試,其中邊緣閾值能夠自主 設(shè)定以最大化檢測器的性能(這些值在某種意義上可變,并都是從 20 到 50 灰度 級別

28、的區(qū)域中選取的)。</p><p>  實驗結(jié)果:參考圖 3 顯示了各種檢測器在檢測麻省理工學(xué)院和 INRIA 數(shù)據(jù) 庫時所表現(xiàn)的性能?;贖OG的檢測器表現(xiàn)出來的性能 要比基于小 波、 PCA-SIFT 和 Shape Context 的要好得多,它在檢測麻省理工學(xué)院的數(shù)據(jù)庫時作 出了幾乎完全正確的判別,而在檢測 INRIA 數(shù)據(jù)庫時則將誤檢率降低了一個數(shù) 量級。由于對輸出向量進行了二階求導(dǎo)和對比度歸一化,我們

29、的類 Haar 小波特 征也比麻省理工學(xué)院的小波特征表現(xiàn)得更為突出。參考圖 3也向我們展示了麻省理工學(xué)院最好的基于部分和整體的檢測器(這些信息是從參考文獻17中得來),然而,想進行一個確切的比較是不太可能的,這是因為我們不知道參考文獻 17 的數(shù)據(jù)庫中的信息是怎樣分成訓(xùn)練樣本和測試樣本的,并且我們也沒能得到副樣 本。最終矩形(R-HOG)和環(huán)形(C-HOG)表現(xiàn)出的性能極為相似,其中 C-HOG 稍稍占優(yōu)。使用 增廣R-HOG 特 征結(jié)

30、合原始的塊檢測器(面向二階導(dǎo)數(shù)—“R2-HOG”)會將要提取的特征尺寸擴大一倍,但最終能夠提高檢測性能(窗口假陽性測試中在 10-4 數(shù)量級上提高 2%)。將線性 SVM 算法替換成高</p><p>  參考圖 3.被選中測試的檢測器在(左側(cè))麻省理工學(xué)院和(右側(cè))INRIA 數(shù)據(jù)庫表現(xiàn)出的性能。 詳細內(nèi)容見論文中的表述。</p><p>  6.檢測流程與性能分析</p>

31、<p>  現(xiàn)在我們給出 HOG檢測流程并系統(tǒng)地分析一下不同的判斷對檢測性能的影 響。在這一章中我們所得到的結(jié)果都是由有著如下特性的默認檢測器得出的,具 體如下所示:RGB 色度空間且沒有伽馬校正;非平滑的[?1, 0, 1]梯度濾波器;線 性梯度在 0?–180?區(qū)間內(nèi)向九個方向的投影;16×16 像素塊以及 8×8 的像素胞元;高斯 σ= 8 像素空間窗口;L2-Hys(Lowe 式修正二級標準)塊歸

32、一化;8 像素的 塊滑動增量(因此每個胞元會被掃描 4 次);64×128 檢測窗口;線性 SVM 分類器。</p><p>  參考圖 4 顯示了不同的 HOG 特征參數(shù)對整體檢測性能的影響。這些在下面 的章節(jié)中將被仔細研究。主要的結(jié)論是,要想達到好的檢測效果,一個檢測器必 須用到適當(dāng)?shù)膶?dǎo)數(shù)級(基本上無平滑處理),更多方向區(qū)間,以及大小合適、歸 一化徹底并且重疊的描述塊。</p><

33、;p>  參考圖 4.詳細內(nèi)容見論文中的表述。</p><p>  6.1 伽馬/歸一化</p><p>  我們選擇性地運用伽馬均衡評估了輸入像素的幾個特征,包括灰度級,RGB 和 LAB 色度空間?;蛟S是因為后面的描述子歸一化達到了類似的效果,這些歸 一化對檢測性能的影響不大。如果可以的話,我們也會使用色度信息。RGB 和 LAB 色度空間對檢測性能的影響類似,但是真正的阻礙在

34、于灰度級,它使得檢 測性能在窗口假陽性測試中在 10-4 數(shù)量級上下降了 1.5%。對每個顏色通道進行 平方根的伽馬壓縮會使檢測性能有小幅的提高(窗口假陽性測試中在10-4數(shù)量級上提高1%),但使用對數(shù)壓縮,壓縮幅度就太大了,會使檢測性能惡化,在10-4數(shù)量級的窗口假陽性測試中下降2%。</p><p><b>  6.2 梯度計算</b></p><p>  檢測器

35、性能的好壞對梯度計算的方式十分敏感,然而最簡單的方式卻是最有 效的。在梯度計算時,我們對使用高斯平滑然后再加以離散導(dǎo)數(shù)掩膜的效果進行 了測試。我們嘗試了若干平滑尺度,包括 σ=0(即不進行高斯平滑)。我們還對 多種掩膜進行了實驗,包括不同的一維單點導(dǎo)數(shù)掩膜(無中心點的[?1, 1]、有中 心點的[?1, 0, 1]和三次校正的[1,?8, 0, 8,?1])、3×3 的 Sobel 掩膜和 2×2 的對角掩 膜(最密

36、集的二維導(dǎo)數(shù)掩膜)。使用面積更大的掩膜似乎總會降低檢測性能,而 對高斯導(dǎo)數(shù)而言,進行平滑會顯著地降低檢測性能,σ 的值從 0 上升到 2,窗口 假陽性測試中檢測率會在 10-4 數(shù)量級上從 89%下降到 80%。當(dāng) σ=0 時,一維三 次校正五次濾波掩膜在性能上會比掩膜為[?1, 0, 1]的窗口假陽性測試中在 10-4 數(shù)量級上差 1%,然而 2×2 的對角掩膜會差 1.5%。使用無中心點的導(dǎo)數(shù)掩膜[?1, 1] 同樣會降低

37、檢測性能(窗口假陽性測試中在 10-4 數(shù)量級上下降 1.5%),這大概是 由方向信息估值受到基于不同中心得直角坐標濾波器的影響所造成的。</p><p>  對于彩色圖像,我們會對每一個顏色通道計算各自的梯度,并且取其中幅值 最大的為像素的梯度向量。</p><p><b>  6.3 方向區(qū)間</b></p><p>  接下來的是基本為非

38、線性的描述子。計算每個像素對基于以自身為中心的方 向梯度元素的邊緣方向直方圖通道的加權(quán)投影,并且將這些投影累積到我們叫做 胞元的局部空間區(qū)域中的方向區(qū)間。胞元可以是長方形的或是環(huán)形的(對數(shù)級區(qū) 域)。方向區(qū)間在 0?–180?(“無符號”梯度)或是 0?–360?(“有符號”梯度)之間 均勻分布。為了減少混疊,我們對每個投影在方向和位置上都進行了鄰近區(qū)間的 雙線性插值。這些投影是像素梯度幅值的函數(shù),無論是幅值本身,還是它的平方、 它的平

39、方根或是一種修正的幅值都代表了在像素邊緣的軟存在/缺失。在實際應(yīng) 用中,使用幅值本身能夠達到最好的效果。而取它的平方根會使檢測性能稍微降 低,使用二進制邊緣信息投影則會大大降低檢測性能(窗口假陽性測試中在10-4 數(shù)量級上下降 5%)。</p><p>  精確的方向編碼對于好的檢測性能是必不可少的,而(見下文)空間分割就 可以相當(dāng)粗糙了。如參考圖 4(b)所示,增加方向區(qū)間的數(shù)量直到 9 個都能顯</p&

40、gt;<p>  著地提高檢測性能,但是再增加的話效果就不明顯。這是對于位于 0?–180?的方 向區(qū)間而言,也就是說梯度的“符號”忽略不計。即使方向區(qū)間的數(shù)量也加倍以 保持原有的方向分辨率,有符號梯度(方向區(qū)間位于 0?–360?,如最原始的 SIFT 描述子)還是會降低檢測性能。對于人類而言,穿著和背景顏色的多種多樣可能 會使得符號的標識不能提供任何有用信息。然而,不要忘記有符號的信息確實在 其它的實物檢測中大幅提高了

41、其檢測性能,如汽車、摩托車檢測。</p><p>  6.4 歸一化和描述塊</p><p>  由于局部光照和前景背景對比的差異,梯度幅值分布在一個很寬的范圍之 內(nèi),因此有效的局部對比度歸一化對好的檢測性能就顯得尤為重要。我們評估了 許多不同的歸一化方案。大多數(shù)方案都是將胞元分組到更大的區(qū)域塊中并將每個 塊分別進行對比歸一化。然后,在檢測窗口中的所有圖像塊返回的歸一化胞元的 所有部分組成

42、的向量就是最終的描述子。事實上,我們通常會使各塊重疊,這樣 就能使每個標量的胞元返回值同時對最終的描述子中的幾個部分產(chǎn)生作用,其中 不同的塊都進行了歸一化。這似乎是多此一舉,但是良好的歸一化非常關(guān)鍵,并 且包括重疊在內(nèi)的措施顯著地提高了檢測性能。參考圖 4(d)表明,由于我們 加入了重疊,從無(步長 16)到 16 倍區(qū)域/4 倍線性覆蓋(步長 4),使得檢測性 能在窗口假陽性測試中在 10-4 數(shù)量級上上升了 4%。</p>

43、;<p>  我們評估了兩類幾何形狀的塊,正方形或長方形的塊被分割成正方形或長方 形空間胞元的網(wǎng)格,而環(huán)形的塊則被分割成對數(shù)極的形態(tài)。我們將這兩種不同的 塊分別叫做 R-HOG 和 C-HOG(代表方形和環(huán)形 HOG)。</p><p>  R-HOG: R-HOG 與 SIFT 描述子(見參考文獻 12)有很多相同點,但用法卻 有很多差異。它們經(jīng)過在密集網(wǎng)格中以單一的大小且沒有定向?qū)R的計算,并作

44、 為與檢測窗口相關(guān)的隱式編碼空間的一個更大的編碼向量的一部分,而 SIFT 描 述子則是在一個稀疏的關(guān)鍵點集中計算,通過旋轉(zhuǎn)使其方向?qū)R,然后單獨使用。 SIFT描述子適合稀疏的寬基線匹配,而R-HOG.描述子則適合致密健壯的空間形 態(tài)編碼。其它類似的描述子包括 Freeman 和 Roth 在參考文獻 4 中提到的邊緣方 向直方圖。我們通常使用方形的 R-HOG.描述子,即由 η×η 像素胞元組成的 ?×? 網(wǎng)格,

45、而每個網(wǎng)格中有 β 個方向區(qū)間,在這里 ?,η,β 都是描述子的參數(shù)。</p><p>  參考圖 5 繪制了窗口假陽性測試中在 10-4 數(shù)量級上胞元大小以及胞元構(gòu)成的 塊的大小與漏檢率的關(guān)系。對于行人檢測而言,6×6 像素組成的胞元以及 3×3 這 樣的胞元組成的塊表現(xiàn)出來的檢測性能最好,在窗口假陽性測試中在 10-4 數(shù)量級上漏檢率為 10.4%。我們的標準是 8×8

46、像素組成的胞元以及 2×2 這樣的胞元組成 的塊,它表現(xiàn)出的性能與前者非常接近,排在第二位。事實上,不論塊大小如何, 胞元寬度為 6 到 8 個像素時表現(xiàn)出的性能最佳——這與人類的肢體大概就在圖像 中占 6—8 個像素是一個有趣的巧合。2×2 和 3×3 個胞元組成的塊效果最好。隨 著塊變得更大,局部圖像信息會相應(yīng)地被弱化,而塊太</p><p>  小時(1×1胞元組成的

47、塊, 也就是只在方向上進行歸一化),重要的空間信息就得不到運用。</p><p>  參考圖 5.不同胞元和塊大小在窗口假陽性測試中在 10-4 數(shù)量級上的漏檢率?;瑝K(塊重疊) 固定為塊大小的一半。3×3 個由 6×6 個像素組成的胞元構(gòu)成的塊的檢測性能最佳,漏檢率 為 10.4%。</p><p>  正如參考文獻 12 中所說,在累積計算方向在胞元上的投影之前,通

48、過使用</p><p>  高斯空間窗口濾波減小在塊邊緣的像素的權(quán)重是有必要的。這樣做在使用 σ 值為 塊大小一半的高斯濾波時能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上 提高 1%。</p><p>  我們也在整個描述子之內(nèi)嘗試了多種大小的塊和胞元組合。這能稍稍提高檢 測性能(在窗口假陽性測試中在 10-4 數(shù)量級上大約提高 3%),其代價是會大大增 加描述子的大小。<

49、/p><p>  除了方形的 R-HOG 塊,我們也測試了垂直的(2×1 胞元)和水平的(1×2 胞元)的塊以及一個既有水平部分也有垂直部分的描述子。垂直的和垂直加水平 的塊比只有水平的在性能上明顯要好得多,但不如 2×2 或 3×3 個胞元組成的塊(窗口假陽性測試中在 10-4 數(shù)量級上差 1%)。</p><p>  C-HOG:我們的環(huán)形塊狀描述子

50、(C-HOG)容易讓人聯(lián)想到 Shape Contexts, 但其中最重要的區(qū)別在于,每個胞元空間都包含了一堆有梯度權(quán)重的方向胞元而 不是單一的與方向無關(guān)的邊緣信息計數(shù)。對數(shù)極網(wǎng)絡(luò)原本是基于這樣一個思想, 那就是它可以將鄰近結(jié)構(gòu)的精確編碼與邊遠區(qū)域的粗略編碼相結(jié)合,而事實上從 從視覺領(lǐng)域轉(zhuǎn)換到靈長類動物的大腦中的影像也是對數(shù)變換(見參考文獻21)。 然而,小型且徑向區(qū)間很少的描述子表現(xiàn)出的性能最佳,因此在實際應(yīng)用中幾乎 沒有不均勻參數(shù)或

51、是相關(guān)背景。我們也可以把C-HOG描述子簡單地比作一種先 進的中心環(huán)繞編碼方式。</p><p>  我們評估了兩種不同幾何形狀的C-HOG,其中之一是單一的環(huán)形中心胞元(與參考文獻 14 中提到的 GLOH 相似),另外一個是中心胞元被劃分成幾個類 似 shape contexts 中的角度區(qū)域。由于環(huán)形中心胞元的 C-HOG 比中心分割的 C-HOG 在實際應(yīng)用中表現(xiàn)相同性能時所需的空間胞元更少,因此我們只對

52、前者 進行實驗并得出結(jié)果。技術(shù)報告將提供進一步的細節(jié)。這種C-HOG描述子總體有四個參數(shù):角度和徑向區(qū)間的數(shù)量;中心區(qū)間像素的半徑;其它區(qū)間半徑的補 償值。良好的檢測性能需要至少兩個徑向區(qū)間(一個中心和一個周邊)和四個角度區(qū)間(四等分)。包含額外的徑向區(qū)間不會使檢測性能有太大的改變,而增加角度區(qū)間則會使檢測性能下降(區(qū)間數(shù)目從 4 增長到 12,在窗口假陽性測試中 在 10-4 數(shù)量級上下降 1.3%)。4 像素是中心區(qū)間最佳的半徑大小

53、,但 3 個或是 5個得到的檢測效果區(qū)別不大。將補償參數(shù)從 2 提高到 3 基本上不會改變檢測性能。這些參數(shù)一經(jīng)確定,對其進行高斯空間加權(quán)或是逆加權(quán)都不會改變檢測性能,但 是把二者結(jié)合起來就會讓性能稍微降低。得到這些值需要精確的方向采樣。Shap</p><p>  塊歸一化方案:我們對以上每種幾何形狀的HOG都測試了四種不同的歸一優(yōu)化方案。令 v 為未歸一化的描述子向量,||v||k 為它的 k-范數(shù)(k=1,

54、2),</p><p>  而ε為一個值為小的常數(shù)。具體方案是:</p><p><b> ?。╝)L2-范數(shù);</b></p><p><b>  (</b></p><p> ?。╞)L2-Hys,取 L2-范數(shù)之后再進行裁剪(將 v 的最大值限制在 0.2 之內(nèi))并且如參考文獻 12中所說進行

55、反歸一化;</p><p> ?。╟)L1-范數(shù),;</p><p>  還有(d)L1-sqrt,取L1-范數(shù)之后再取平方根,</p><p>  這相當(dāng)于將描述子向量用作率分布并且利用他們之間的 Bhattacharya 距離。參考圖 4(c)顯示,L2-Hys, L2- 范數(shù)和 L1-sqrt 表現(xiàn)出的性能一樣好,而單一的 L1-范數(shù)會使檢測性能在窗口假 陽性

56、測試中在 10-4 數(shù)量級上下降 5%,而完全不進行歸一化則會使其下降 27%。 由于我們對包括空的部分的所有描述子進行密集地估值,因此需要一個規(guī)則化因 子ε,但檢測結(jié)果卻在一個大的區(qū)間內(nèi)對ε的值十分敏感。</p><p>  中心周邊歸一化:我們同樣也評估了另一種中心周邊式的胞元歸一化方案,其中圖像被劃分為一系列平鋪的胞元組成的網(wǎng)格,而對每個胞元而言,它的總權(quán) 重和周圍區(qū)域(統(tǒng)計了方向信息并集中使用了高斯加權(quán)濾

57、波)被用來對該胞元進 行歸一化。然而,正如參考圖4(c)(“窗口規(guī)范”)所示,這種方法與對應(yīng)的基 于塊的方案相比降低了檢測性能(在窗口假陽性測試中在 10-4 數(shù)量級上下降 2%, 濾波時胞元寬度σ=1)。其中的一個原因是塊之間不再重疊,這樣每個胞元在最 終的描述子里僅僅編碼計算一次?;诓煌瑸V波尺度σ的胞元中加入幾種歸一化 并不能明顯地改變檢測性能,因此,在這里似乎是幾處濾波區(qū)域的存在和相關(guān)胞 元中空間區(qū)域的偏移顯得更為重要,而不是濾

58、波的尺度。</p><p>  為了解釋清楚這一點,我們考慮使用了包含重疊塊的 R-HOG 檢測器。根據(jù) 線性 SVM 訓(xùn)練所得的系數(shù)來賦予每個塊中的每個胞元在最終的判決中應(yīng)占的權(quán) 重。仔細分析參考圖 6(b,f)就能得出,通常那些包含人體輪廓(特別是頭, 肩和腳)的才是最重要的胞元,歸一化時與輪廓周圍的胞元相關(guān)。換句話說—除 了在我們的訓(xùn)練集中常見的復(fù)雜混亂的背景—檢測器主用關(guān)注的是輪廓線條與 背景的對比,而不

59、是內(nèi)部邊緣信息或輪廓線條與前景的對比。服裝圖案與行人姿</p><p>  態(tài)的千變?nèi)f化可能會使內(nèi)部區(qū)域信息不能用作可靠的檢測依據(jù),而前景到輪廓的 轉(zhuǎn)換同樣可能會受到平滑著色和陰影效果的混淆。相似的是,參考圖 6(c,g) 證明了人體內(nèi)部的直方圖(尤其是垂直的)通常算作反面的檢測依據(jù),這可能是 因為它在長的垂線一定與垂直的頭部與腿部胞元相關(guān)的基礎(chǔ)之上減少了誤報。</p><p>  參考圖

60、 6.我們的 HOG 檢測器主要的檢測線索是輪廓線條(特別是頭部,肩膀和腳)。最有用 是以正好在輪廓外圍的圖片背景為中心的塊。參考圖 a:訓(xùn)練樣本的平均梯度圖像。參考圖 b:每個“像素”顯示在塊中的最大正 SVM 權(quán)重。參考圖 c:與上圖對應(yīng)的負 SVM 權(quán)重。參 考圖 d:一張測試圖像。參考圖 e:由這張圖像計算而來的 R-HOG 描述子。參考圖(f,g): 該 R-HOG 分別在 SVM 中的正負權(quán)重。</p><

61、;p>  6.5 檢測窗口與背景</p><p>  我們 64×128 的檢測窗口包含了在人四周邊緣的約16 個像素。參考圖(e)</p><p>  表明這一邊界提供了大量有助于檢測的信息。將這個邊界從16 個像素降至 8 個像素(即 48×112 的檢測窗口)會使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上下降下降 4%。保持 64×128 的

62、檢測窗口大小不變,增大窗口中人的大小(同 時減少邊界像素個數(shù))會導(dǎo)致類似的檢測性能下降,即便人的分辨率確實是上升 了。</p><p><b>  分類器</b></p><p>  默認情況下,我們使用一個軟(C=0.01)線性 SVM 和參考文獻 10 中的 SVMLight(略作修改以減少在處理高密度描述子向量問題時內(nèi)存的占用率)來 訓(xùn)練。使用高斯核心 SVM

63、能夠使檢測性能在窗口假陽性測試中在 10-4 數(shù)量級上 提高3%,其代價是檢測時間會大大增長。</p><p><b>  分析</b></p><p>  總的來說,在這項工作中有幾個值得注意的發(fā)現(xiàn)。HOG 的檢測性能大大強 于小波,并且在計算梯度之前任何相當(dāng)程度的平滑都會損害 HOG 的檢測效果, 這些事實都強調(diào)了大部分的圖像信息都來源于合適尺度的陡峭邊緣,而將其

64、模糊 化以希望達到減少對空間位置的敏感性的做法是不可取的。相反,應(yīng)該在最適合 的尺度下在現(xiàn)有的層次計算梯度,修正或是利用方向投影的方法,而之后才能進 行空間模糊。鑒于此,相對粗糙的空間量化就足夠了(胞元中 6 到 8 個像素的寬/一段肢體的寬度)。另一方面,至少是對于行人檢測而言,它對于方向信息的采</p><p>  樣更為精確,而小波和 shape contexts 在這方面就差遠了。其次,徹底的局部對比度歸

65、一化對于好的檢測結(jié)果是必要的,而傳統(tǒng)的中心周邊式的方案則不是最好的選擇。要達到更好的效果,需要歸一化與不同局域特征相關(guān)所有的元素(邊緣信息,胞元)數(shù)次,并且將這些結(jié)果當(dāng)作獨立的標識。在我們標準的檢測器中,每個 HOG 胞元在不同的歸一化中一共用到四次,而將 這一“重復(fù)”的信息加入進來能夠使檢測率在窗口假陽性測試中在 10-4 數(shù)量級上 從 84%提高到 89%。</p><p><b>  7.結(jié)論&l

66、t;/b></p><p>  我們已經(jīng)表明,在密集重疊的網(wǎng)格中,使用與參考文獻 12 中提到的 SIFT 描述子類似的局部歸一化方向梯度直方圖,在行人檢測方面效果甚佳,比參考文 獻 17 中提到的最好的基于 Haar 小波特征的檢測器在假陽率上減少了超過一個數(shù)量級。我們研究了各種描述子參數(shù)對檢測性能的影響,總結(jié)得出,合適大小的梯度,精確的方向區(qū)間劃分,相對粗糙的空間區(qū)域劃分和在重疊的描述子塊中高質(zhì) 量的局

67、部對比度歸一化對于好的檢測性能來說都很重要。我們也創(chuàng)建了一個新的且更具挑戰(zhàn)性的行人數(shù)據(jù)庫,并將其公之于眾。</p><p>  未來的工作:雖然我們目前的線性 SVM 檢測器相當(dāng)高效—檢測一張 320×240 的圖片(4000 檢測窗口)用時不到一秒—但是仍有繼續(xù)優(yōu)化的空間,并能夠在未來加快檢測的速度,在開發(fā)從粗到精或是基于 HOG 描述子的拒絕鏈式檢測器 時派上用場。我們也研究了基于 HOG 描述子的

68、檢測器,它將塊匹配或是光學(xué)流 動區(qū)域有機地結(jié)合起來。最后,盡管現(xiàn)在的固定模板式檢測器在總體可見的行人檢測方面難以被超越,鑒于人類有高度的關(guān)節(jié)性,我們還是相信加入一個局部空 間有更大不變性的基于部分的模型將會使檢測性能在更廣泛的領(lǐng)域得到提高。</p><p><b>  致謝</b></p><p>  這項工作得到了研究項目 ACEMEDIA 和 PASCAL 的幫助

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論