图像分类
圖像物體分類與檢測算法綜述
轉自《計算機學報》
目錄
- 圖像物體分類與檢測算法綜述
- 目錄
- 圖像物體分類與檢測概述
- 物體分類與檢測的難點與挑戰
- 物體分類與檢測數據庫
- 物體分類與檢測發展歷程
- 圖像物體分類與檢測算法綜述
圖像物體分類與檢測是計算機視覺研究中的兩個重要的基本問題,也是圖像分割、物體跟蹤、行為分析等其他高層視覺任務的基礎。
本文從物體分類與檢測問題的基本定義出發,首先從實例、類別、語義三個層次對物體分類與檢測研究中存在的困難與挑戰進行了闡述。
接下來,本文以物體檢測和分類方面的典型數據庫和國際視覺競賽PASCAL VOC為主線對近年來物體分類與檢測的發展脈絡進行了梳理與總結,指出表達學習和結構學習分別對于物體分類與檢測的作用。
最后本文對物體分類與檢測的發展方向進行了思考和討論,探討了這一領域下一步研究的方向。
關鍵詞 物體分類 物體檢測 計算機視覺 特征表達 結構學習
圖像物體分類與檢測概述
物體分類與檢測是計算機視覺、模式識別與機器學習領域非常活躍的研究方向。物體分類與檢測在很多領域得到廣泛應用,包括安防領域的人臉識別、行人檢測、智能視頻分析、行人跟蹤等,交通領域的交通場景物體識別、車輛計數、逆行檢測、車牌檢測與識別,以及互聯網領域的基于內容的圖像檢索、相冊自動歸類等。
可以說,物體分類與檢測已經應用于人們日常生活的方方面面,計算機自動分類與檢測技術也在一定程度了減輕了人的負擔,改變了人類生活方式。計算機視覺理論的奠基者,英國神經生理學家馬爾認為,視覺要解決的問題可歸結為“What is Where”,即什么東西在什么地方,即計算機視覺的研究中,物體分類和檢測是最基本的研究問題之一。
如圖 1 所示,給定一張圖片,物體分類要回答的問題是這張圖片中是否包含某類物體(比如牛);物體檢測要回答的問題則是物體出現在圖中的什么地方,即需要給出物體的外接矩形框,如圖 1(b)所示。
物體分類與檢測的研究,是整個計算機視覺研究的基石,是解決跟蹤、分割、場景理解等其他復雜視覺問題的基礎。欲對實際復雜場景進行自動分析與理解,首先就需要確定圖像中存在什么物體(分類問題),或者是確定圖像中什么位置存在什么物體(檢測問題)。鑒于物體分類與檢測在計算機視覺領域的重要地位,研究魯棒、準確的物體分類與檢測算法,無疑有著重要的理論意義和實際意義。
本文從物體分類與檢測問題的基本定義出發,首先從實例、類別、語義三個層次對物體分類與檢測研究中存在的困難與挑戰進行了闡述。接下來,本文以物體檢測和分類方面的主流數據庫和國際視覺競賽 PASCAL VOC 競賽為主線對近年來物體分類與檢測算法的發展脈絡進行了梳理與總結,指出物體分類與檢測算法的主流方法:基于表達學習和結構學習。在此基礎上,本文對物體分類與檢測算法的發展方向進行了思考和討論,指出了物體檢測和物體分類的有機統一,探討了下一步研究的方向。
物體分類與檢測的難點與挑戰
物體分類與檢測是視覺研究中的基本問題,也是一個非常具有挑戰性的問題。物體分類與檢測的難點與挑戰在本文中分為三個層次:實例層次、類別層次、語義層次,如圖 2 所示。
實例層次:
針對單個物體實例而言,通常由于圖像采集過程中光照條件、拍攝視角、距離的不同,物體自身的非剛體形變以及其他物體的部分遮擋使得物體實例的表觀特征產生很大的變化,給視覺識別算法帶來了極大的困難。
類別層次:
困難與挑戰通常來自三個方面,首先是類內差大,也即屬于同一類的物體表觀特征差別比較大,其原因有前面提到的各種實例層次的變化,但這里更強調的是類內不同實例的差別,例如圖 3(a)所示,同樣是椅子,外觀卻是千差萬別,而從語義上來講,有“坐”的功能的器具都可以稱椅子;其次是類間模糊性,即不同類的物體實例具有一定的相似性,如圖 3(b)所示,左邊的是一只狼,右邊的是一只哈士奇,但我們從外觀上卻很難分開二者;再次是背景的干擾,在實際場景下,物體不可能出現在一個非常干凈的背景下,往往相反,背景可能是非常復雜的、對我們感興趣的物體存在干擾的,這使得識別問題的難度大大加大。
本文從物體分類與檢測問題的基本定義出發,首先從實例、類別、語義三個層次對物體分類與檢測研究中存在的困難與挑戰進行了闡述。
接下來,本文以物體檢測和分類方面的主流數據庫和國際視覺競賽 PASCAL VOC 競賽為主線對近年來物體分類與檢測算法的發展脈絡進行了梳理與總結,指出物體分類與檢測算法的主流方法:基于表達學習和結構學習。在此基礎上,本文對物體分類與檢測算法的發展方向進行了思考和討論,指出了物體檢測和物體分類的有機統一,探討了下一步研究的方向。
語義層次:
困難與挑戰與圖像的視覺語義相關,這個層次的困難往往非常難以處理,特別是對現在的計算機視覺理論水平而言。一個典型的問題稱為多重穩定性。如圖所示,圖 3(c)左邊既可以看成是兩個面對面的人,也可以看成是一個燃燒的蠟燭;右邊則同時可以解釋為兔子或者小鴨。同樣的圖像,不同的解釋,這既與人的觀察視角、關注點等物理條件有關,也與人的性格、經歷等有關,而這恰恰是視覺識別系統難以很好處理的部分。
物體分類與檢測數據庫
數據是視覺識別研究中最重要的因素之一,通常我們更多關注于模型、算法本身,事實上,數據在視覺任務的作用正越來越明顯,大數據時代的到來,也使得研究人員開始更加重視數據。在數據足夠多的情況下,我們甚至可以使用最簡單的模型、算法,比如最近鄰分類,樸素貝葉斯分類器都能得到很好的效果。鑒于數據對算法的重要性,我們將在本節對視覺研究中物體分類與檢測方面的主流數據進行概述,從中也可以一窺目標分類、檢測的發展。在介紹不同數據庫時,將主要從數據庫圖像數目、類別數目、每類樣本數目、圖像大小、分類檢測任務難度等方面進行闡述,如表 3 中所示。
早期物體分類研究集中于一些較為簡單的特定任務,如 OCR、形狀分類等。OCR 中數字手寫識別是一個得到廣泛研究的課題,相關數據庫中最著名的是 MNIST數據庫。MNIST 是一個數字手寫識別領域的標準評測數據集,數據庫大小是60000,一共包含 10 類阿拉伯數字,每類提供 5000張圖像進行訓練,1000 張進行測試。MNIST 的圖像大小為 28×28,即 784 維,所有圖像手寫數字,存在較大的形變。形狀分類是另一個比較重要的物體分類初期的研究領域,相關數據庫有 ETHZ Shape Classes,MPEG-7等。其中 ETHZ ShapeClasses 包含 6 類具有較大差別的形狀類別:蘋果、商標、瓶子、長頸鹿、杯子、天鵝,整個數據庫包含 255 張測試圖像。
CIFAR-10&CIFAR-100 數 據 庫 是 Tiny images的兩個子集,分別包含了 10 類和 100 類物體類別。這兩個數據庫的圖像尺寸都是 32×32,而且是彩色圖像。CIFAR-10 包含 6 萬的圖像,其中 5 萬用于模型訓練,1 萬用于測試,每一類物體有 5000 張圖像用于訓練,1000 張圖像用于測試。
CIFAR-100 與 CIFAR-10 組成類似,不同是包含了更多的類別:20 個大類,大類又細分為 100 個小類別,每類包含 600 張圖像。CIFAR-10 和 CIFAR-100數據庫尺寸較小,但是數據規模相對較大,非常適合復雜模型特別是深度學習模型訓練,因而成為深度學習領域主流的物體識別評測數據集。
Caltech-101是第一個規模較大的一般物體識別標準數據庫,除背景類別外,它一共包含了 101類物體,共 9146 張圖像,每類中圖像數目從 40 到800 不等,圖像尺寸也達到 300 左右。Caltech-101是以物體為中心構建的數據庫,每張圖像基本只包含一個物體實例,且居于圖像中間位置,物體尺寸相對圖像尺寸比例較大,且變化相對實際場景來說不大,比較容易識別。Caltech-101 每類的圖像數目
差別較大,有些類別只有很少的訓練圖像,也約束了 可以使 用的訓 練集大小 。
Caltech 256 與Caltech-101 類似,區別是物體類別從 101 類增加到了 256 類,每類包含至少 80 張圖像。圖像類別的增加,也使得 Caltech-256 上的識別任務更加困難,使其成為檢驗算法性能與擴展性的新基準。15Scenes 是由 Svetlana Lazebnik 在 FeiFei Li 的13 Scenes 數據庫的基礎上加入了兩個新的場景構成的,一共有 15 個自然場景,4485 張圖像,每類大概包含 200 到 400 張圖像,圖像分辨率約為300 × 250。15 Scenes 數據庫主要用于場景分類評測,由于物體分類與場景分類在模型與算法上差別不大,該數據庫也在圖像分類問題上得到廣泛的使用。
PASCAL VOC 從 2005 年到 2012 年每年發布關于分類、檢測、分割等任務的數據庫,并在相應數據庫上舉行了算法競賽,極大地推動了視覺研究的發展進步。最初 2005 年 PASCAL VOC 數據庫只包含人、自行車、摩托車、汽車 4 類,2006 年類別數目增加到 10 類,2007 年開始類別數目固定為 20 類,以后每年只增加部分樣本。PASCAL VOC數據庫中物體類別均為日常生活常見的物體,如交通工具、室內家具、人、動物等。PASCAL VOC 2007數據庫共包含 9963 張圖片,圖片來源包括 Filker等互聯網站點以及其它數據庫,每類大概包含96-2008 張圖像,均為一般尺寸的自然圖像。PASCAL VOC 數據庫與 Caltech-101 相比,雖然類別數更少,但由于圖像中物體變化極大,每張圖像可能包含多個不同類別物體實例,且物體尺度變化很大,因而分類與檢測難度都非常大。該數據庫的提出,對物體分類與檢測的算法提出了極大的挑戰,也催生了大批優秀的理論與算法,將物體識別研究推向了一個新的高度。
隨著分類與檢測算法的進步,很多算法在以上提到的相關數據庫上性能都接近飽和,同時隨著大數據時代的到來,硬件技術的發展,也使得在更大規 模 的 數 據 庫 進 行 研 究 和 評 測 成 為 必 然 。
ImageNet是由 FeiFei Li 主持構建的大規模圖像數據庫,圖像類別按照 WordNet 構建,全庫截至2013 年共有 1400 萬張圖像,2.2 萬個類別,平均每類包含 1000 張圖像。這是目前視覺識別領域最大的有標注的自然圖像分辨率的數據集,盡管圖像本身基本還是以目標為中心構建的,但是海量的數據和海量的圖像類別,使得該數據庫上的分類任務依然極具挑戰性。除此之外,ImageNet 還構建了一個包含 1000 類物體 120 萬圖像的子集,并以此作為ImageNet 大尺度視覺識別競賽的數據平臺,逐漸成為物體分類算法評測的標準數據集。
SUN 數據庫的構建是希望給研究人員提供一個覆蓋較大場景、位置、人物變化的數據庫,庫中的場景名是從 WordNet 中的所有場景名稱中得來。SUN 數據庫包含兩個評測集,一個是場景識別數據集,稱為 SUN-397,共包含 397 類場景,每類至少包含 100 張圖片,總共有 108,754 張圖像。另一個評測集為物體檢測數據集,稱為 SUN2012,包含 16,873 張圖像。Tiny images是一個圖像規模更大的數據庫,共包含 7900 萬張 32×32 圖像,圖像類別數目有 7.5 萬,盡管圖像分辨率較低,但還是具有較高的區分度,而其絕無僅有的數據規模,使其成為大規模分類、檢索算法的研究基礎。我們通過分析表 1 可以看到,物體分類的發展過程中,數據庫的構建大概可以分為 3 個階段,經歷了一個從簡單到復雜,從特殊到一般,從小規模到大規模的跨越。
早期的手寫數字識別 MNIST,形狀分類 MPEG-7 等都是研究特定問題中圖像分類,之后研究人員開始進行更廣泛的一般目標分類與檢 測 的 研 究 , 典 型 的 數 據 庫 包 括 15 場 景 ,Caltech-101/256, PASCAL VOC 2007 等;隨著詞包模型等算法的發展與成熟,更大規模的物體分類與檢測研究得到了廣泛的關注,這一階段的典型數據庫包括 SUN 數據庫、ImageNet 以及 Tiny 等。
近年來,數據庫構建中的科學性也受到越來越多的關注,Torralba 等人對數據庫的 Bias、泛化性能、價值等問題進行了深入的討論,提出排除數據庫構建過程中的選擇偏好,拍攝偏好,負樣本集偏好是構造更加接近真實視覺世界的視覺數據庫中的關鍵問題。伴隨著視覺處理理論的進步,視覺識別逐漸開始處理更加真實場景的視覺問題,因而對視覺數據庫的泛化性、規模等也提出了新的要求和挑戰。
我們也可以發現,物體類別越多,導致類間差越小,分類與檢測任務越困難,圖像數目、圖像尺寸的大小,則直接對算法的可擴展性提出了更高的要求,如何在有限時間內高效地處理海量數據、進行準確的目標分類與檢測成為當前研究的熱點。
物體分類與檢測發展歷程
圖像物體識別的研究已經有五十多年的歷史。各類理論和算法層出不窮,在這部分,我們對物體分類與檢測的發展脈絡進行了簡單梳理,并將其中里程碑式的工作進行綜述。特別的,我們以國際視覺競賽 PASCAL VOC競賽為主線對物體分類與檢測算法近年來的主要進展進行綜述,這個系列的競賽對物體分類檢測的發展影響深遠,其工作也代表了當時的最高水平。
物體分類 任務要求回答一張圖像中是否包含某種物體,對圖像進行特征描述是物體分類的主要研究內容。一般說來,物體分類算法通過手工特征或者特征學習方法對整個圖像進行全局描述,然后使用分類器判斷是否存在某類物體。
物體檢測 任務則更為復雜,它需要回答一張圖像中在什么位置存在一個什么物體,因而除特征表達外,物體結構是物體檢測任務不同于物體分類的最重要之處。總的來說,近年來物體分類方法多側重于學習特征表達,典型的包括詞包模型(Bag-of-Words)、深度學習模型;物體檢測方法則側重于結構學習,以形變部件模型為代表。
這里我們首先以典型的分類檢測模型來闡述其一般方法和過程,之后以 PASCAL VOC(包含 ImageNet)競賽歷年來的最好成績來介紹物體分類和物體檢測算法的發展,包括物體分類中的詞包模型、深度學習模型以及物體檢測中的結構學習模型,并分別對各個部分進行闡述。
4.1 基于詞包模型的物體分類
從表 2 我們可以發現,詞包模型是 VOC 競賽中物體分類算法的基本框架,幾乎所有的參賽算法都是基于詞包模型。我們將從底層特征、特征編碼、空間約束、分類器設計、模型融合幾個方面來展開闡述。
詞包模型(Bag-of-Words)最初產生于自然語言處理領域,通過建模文檔中單詞出現的頻率來對文檔進行描述與表達。Csurka 等人于 2004 年首次將詞包的概念引入計算機視覺領域, 由此開始大量的研究工作集中于詞包模型的研究,并逐漸形成了由下面四部分組成的標準目標分類框架:
1. 底層特征提取
底層特征是物體分類與檢測框架中的第一步,底層特征提取方式有兩種:一種是基于興趣點檢測,另一種是采用密集提取的方式。
興趣點檢測算法通過某種準則選擇具有明確定義的、局部紋理特征比較明顯的像素點、邊緣、角點、區塊等,并且通常能夠獲得一定的幾何不變性,從而可以在較小的開銷下得到更有意義的表達,最常用的興趣點檢測算子有 Harris 角點檢測子、FAST(Features from Accelerated Segment Test) 算子、LoG (Laplacian of Gaussian)、DoG (Difference ofGaussian)等。近年來物體分類領域使用更多的則是密集提取的方式,從圖像中按固定的步長、尺度提取出大量的局部特征描述,大量的局部描述盡管具有更高的冗余度,但信息更加豐富,后面再使用詞包模型進行有效表達后通常可以得到比興趣點檢測 更 好 的 性 能 。
常 用 的 局 部 特 征 包 括 SIFT(Scale-invariant feature transform,尺度不變特征轉換)、HOG(Histogram of Oriented Gradient, 方向梯度直方圖) 、LBP(Local Binary Pattern, 局部二值模式) 等。從表 2 可以看出,歷年最好的物體分類算法都采用了多種特征,采樣方式上密集提取與興趣點檢測相結合,底層特征描述也采用了多種特征描述子,這樣做的好處是,在底層特征提取階段,通過提取到大量的冗余特征,最大限度的對圖像進行底層描述,防止丟失過多的有用信息,這些底層描述中的冗余信息主要靠后面的特征編碼和特征匯聚得到抽象和簡并。事實上,近年來得到廣泛關注的深度學習理論中一個重要的觀點就是手工設計的底層特征描述子作為視覺信息處理的第一步,往往會過早的丟失有用的信息,直接從圖像像素學習到任務相關的特征描述是比手工特征更為有效的手段。
2.特征編碼
密集提取的底層特征中包含了大量的冗余與噪聲,為提高特征表達的魯棒性,需要使用一種特征變換算法對底層特征進行編碼,從而獲得更具區分性、更加魯棒的特征表達,這一步對物體識別的性能具有至關重要的作用,因而大量的研究工作都集中在尋找更加強大的特征編碼方法,重要的特征編碼算法包括向量量化編碼、核詞典編碼、稀疏編碼、局部線性約束編碼、顯著性編碼、Fisher 向量編碼、超向量編碼等。最簡單的特征編碼是向量量化編碼,它的出現甚至比詞包模型的提出還要早。向量量化編碼是通過一種量化的思想,使用一個較小的特征集合(視覺詞典)來對底層特征進行描述,達到特征壓縮的目的。向量量化編碼只在最近的視覺單詞上響應為 1,因而又稱為硬量化編碼、硬投票編碼,這意味著向量量化編碼只能對局部特征進行很粗糙的重構。但向量量化編碼思想簡單、直觀,也比較容易高效實現,因而從 2005 年第一屆PASCAL VOC 競賽以來,就得到了廣泛的使用。
在實際圖像中,圖像局部特征常常存在一定的模糊性,即一個局部特征可能和多個視覺單詞差別很小,這個時候若使用向量量化編碼將只利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞。為了克服這種 模糊性問題,Gemert 等提出了軟量化編碼(又稱核視覺詞典編碼)算法,局部特征不再使用一個視覺單詞描述,而是由距離最近的 K 個視覺單詞加權后進行描述,有效解決了視覺單詞的模糊性問題,提高了物體識別的精度。稀疏表達理論近年來在視覺研究領域得到了大量的關注,研究人員最初在生理實驗中發現細胞在絕大部分時間內是處于不活動狀態,也即在時間軸上細胞的激活信號是稀疏的。稀疏編碼通過最小二乘重構加入稀疏約束來實現在一個過完備基上響應的稀疏性。
? 約束是最直接的稀疏約束,但通常很難進行優化,近年來更多使用的是 ? 約束,可以更加有效地進行迭代優化,得到稀疏表達。2009 年楊建超等人 將稀疏編碼應用到物體分類領域,替代了之前的向量量化編碼和軟量化編碼,得到一個高維的高度稀疏的特征表達,大大提高了特征表達的線性可分性, 僅僅使用線性分類器就得到了當時最好的物體分類結果,將物體分類的研究推向了一個新的高度上。稀疏編碼在物體分類上的成功也不難理解,對于一個很大的特征集合(視覺詞典),一個物體通常只和其中很少的特征有關,例如,自行車通常和表達車輪、車把等部分的視覺單詞密切相關,與飛機機翼、電視機屏幕等關系很小,而行人則通常在頭、四肢等對應的視覺單詞上有強響應。稀疏編碼存在一個問題,即相似的局部特征可能經過稀疏編碼后在不同的視覺單詞上產生響應,這種變換的不連續性必然會產生編碼后特征的不匹配,影響特征的區分性能。
局部線性約束編碼的提出就是為了解決這一問題,它通過加入局部線性約束,在一個局部流形上對底層特征進行編碼重構,這樣既可以保證得到的特征編碼不會有稀疏編碼存在的不連續問題,也保持了稀疏編碼的特征稀疏性。局部線性約束編碼中,局部性是局部線性約束編碼中的一個核心思想,通過引入局部性,一定程度上改善了特征編碼過程的連續性問題,即距離相近的局部特征在經過編碼之后應該依然能夠落在一個局部流形上。
局部線性約束編碼可以得到稀疏的特征表達,與稀疏編碼不同之處就在于稀疏編碼無法保證相近的局部特征編碼之后落在相近的局部流形。從表 2 可以看出,2009 年的分類競賽冠軍采用了混合高斯模型聚類和局部坐標編碼(局部線性約束編碼是其簡化版本),僅僅使用線性分類器就取得了非常好的性能。不同于稀疏編碼和局部線性約束編碼,顯著性編碼引入了視覺顯著性的概念,如果一個局部特征到最近和次近的視覺單詞的距離差別很小,則認為這個局部特征是不“顯著的”,從而編碼后的響應也很小。顯著性編碼通過這樣很簡單的編碼操作,在 Caltech 101/256, PASCAL VOC 2007 等數據庫上取得了非常好的結果,而且由于是解析的結果,編碼速度也比稀疏編碼快很多。黃等人發現顯著性表達配合最大值匯聚在特征編碼中有重要的作用,并認為這正是稀疏編碼、局部約束線性編碼等之所以在圖像分類任務上取得成功的原因。
超向量編碼,Fisher 向量編碼是近年提出的性能最好的特征編碼方法,其基本思想有相似之處,都可以認為是編碼局部特征和視覺單詞的差。 Fisher 向量編碼同時融合了產生式模型和判別式模型的能力,與傳統的基于重構的特征編碼方法不同,它記錄了局部特征與視覺單詞之間的一階差分和二階差分。超向量編碼則直接使用局部特征與最近的視覺單詞的差來替換之前簡單的硬投票。這種特征編碼方式得到的特征向量表達通常是傳統基于重構編碼方法的M 倍(這里 M 是局部特征的維度)。盡管特征維度要高出很多,超向量編碼和 Fisher 向量編碼在PASCAL VOC、ImageNet 等極具挑戰性、大尺度數據庫上獲得了最好的性能,并在圖像標注、圖像分類、圖像檢索等領域得到應用。
2011 年 ImageNet分類競賽冠軍采用了超向量編碼,2012 年 VOC 競賽冠軍則是采用了向量量化編碼和 Fisher 向量編碼。
3.特征匯聚
空間特征匯聚是特征編碼后進行的特征集整合操作,通過對編碼后的特征,每一維都取其最大值或者平均值,得到一個緊致的特征向量作為圖像的特征表達。這一步得到的圖像表達可以獲得一定的特征不變性,同時也避免了使用特征集進行圖像表達的高額代價。最大值匯聚在絕大部分情況下的性能要優于平均值匯聚,也在物體分類中使用最為廣泛。由于圖像通常具有極強的空間結構約束,空間金字塔匹配 (Spatial Pyramid Matching, SPM)提出將圖像均勻分塊,然后每個區塊里面單獨做特征匯聚操作并將所有特征向量拼接起來作為圖像最終的特征表達。空間金字塔匹配的想法非常直觀,是金字塔匹配核 (Pyramid Matching Kernel, PMK) 的圖像空間對偶,它操作簡單而且性能提升明顯,因而在當前基于詞包模型的圖像分類框架中成為標準步驟。實際使用中,在Caltech 101/256 等數據庫上通常使用 1×1, 2×2, 4×4的空間分塊,因而特征維度是全局匯聚得到的特征向量的 21 倍,在 PASCAL VOC 數據庫上,則采用1×1,2×2,3×1 的分塊,因而最終特征表達的維度是全局匯聚的8倍。
4.使用支持向量機等分類器進行分類
從圖像提取到特征表達之后,一張圖像可以使用一個固定維度的向量進行描述,接下來就是學習一個分類器對圖像進行分類。這個時候可以選擇的分類器就很多了,常用的分類器有支持向量機、K 近鄰、神經網絡、隨機森林等。基于最大化邊界的支持向量機是使用最為廣泛的分類器之一,在圖像分類任務上性能很好,特別是使用了核方法的支持向量機。楊建超等人提出了 ScSPM 方法,通過學習過完備的稀疏特征,可以在高維特征空間提高特征的線性可分性,使用線性支持向量機就得到了當時最好的分類結果,大大降低了訓練分類器的時間和空間消耗。隨著物體分類研究的發展,使用的視覺單詞大小不斷增大,得到的圖像表達維度也不斷增加,達到了幾十萬的量級。這樣高的數據維度,相比幾萬量級的數據樣本,都與傳統的模式分類問題有了很大的不同。隨著處理的數據規模不斷增大,基于在線學習的線性分類器成為首選,得到了廣泛的關注與應用。
4.2 深度學習模型
深度學習模型是另一類物體識別算法,其基本思想是通過有監督或者無監督的方式學習層次化的特征表達,來對物體進行從底層到高層的描述 。 主 流 的 深 度 學 習 模 型 包 括 自 動 編 碼 器(Auto-encoder) 、受限波爾茲曼機(Restricted Boltzmann Machine, RBM)、深度信念網絡(Deep Belief Nets, DBN)、卷積神經網絡(Convolutional Neural Netowrks, CNN)、生物啟發式模型等。
自動編碼器(Auto-encoder)是上世紀 80 年代提出的一種特殊的神經網絡結構,并且在數據降維、特征提取等方面得到廣泛應用。自動編碼器由編碼器和解碼器組成,編碼器將數據輸入變換到隱藏層表達,解碼器則負責從隱藏層恢復原始輸入。隱藏層單元數目通常少于數據輸入維度,起著類似“瓶頸”的作用,保持數據中最重要的信息,從而實現數據降維與特征編碼。自動編碼器是基于特征重構的無監督特征學習單元,加入不同的約束,可以 得 到 不 同 的 變 化 , 包 括 去 噪 自 動 編 碼 器(Denoising Autoencoders)、 稀疏 自動編 碼器(Sparse Autoencoders)等,在數字手寫識別、圖像分類等任務上取得了非常好的結果。
受限玻爾茲曼機是一種無向二分圖模型,是一種典型的基于能量的模型(Enery-based Models,EBM)。之所以稱為“受限”,是指在可視層和隱藏層之間有連接,而在可視層內部和隱藏層內部不存在連接。受限玻爾茲曼機的這種特殊結構,使得它具有很好的條件獨立性,即給定隱藏層單元,可視層單元之間是獨立的,反之亦然。這個特性使得它可以實現同時對一層內的單元進行并行 Gibbs 采樣。受限玻爾茲曼機通常采用對比散度(Contrastive Divergence,CD算法進行模型學習。受限玻爾茲曼機作為一種無監督的單層特征學習單元,類似于前面提到的特征編碼算法,事實上加了稀疏約束的受限玻爾茲曼機可以學到類似稀疏編碼那樣的Gabor 濾波器模式。
深度信念網絡(DBN)是一種層次化的無向圖模型。DBN 的基本單元是 RBM(Restricted Boltzmann Machine),首先先以原始輸入為可視層,訓練一個單層的RBM,然后固定第一層 RBM 權重,以 RBM 隱藏層單元的響應作為新的可視層,訓練下一層的 RBM,以此類推。通過這種貪婪式的無監督訓練,可以使整個 DBN 模型得到一個比較好的初始值,然后可以加入標簽信息,通過產生式或者判別式方式,對整個網絡進行有監督的精調,進一步改善網絡性能。DBN 的多層結構,使得它能夠學習得到層次化的特征表達,實現自動特征抽象,而無監督預訓練過程則極大改善了深度神經網絡在數據量不夠時嚴重的局部極值問題。Hinton 等人通過這種方式,成功將其應用于手寫數字識別、語音識別、基于內容檢索等領域。
卷積神經網絡(CNN)最早出現在上世紀80 年代,最初應用于數字手寫識別,取得了一定的成功。然而,由于受硬件的約束,卷積神經網絡的高強度計算消耗使得它很難應用到實際尺寸的目標識別任務上。Wisel 和 Hubel 在貓視覺系統研究工作的基礎上提出了簡單、復雜細胞理論,設計卷積神經網絡(CNN)最早出現在上世紀80 年代,最初應用于數字手寫識別,取得了一定的成功。然而,由于受硬件的約束,卷積神經網絡的高強度計算消耗使得它很難應用到實際尺寸的目標識別任務上。Wisel 和 Hubel 在貓視覺系統研究工作的基礎上提出了簡單、復雜細胞理論,設計這里我們將最為流行的詞包模型與卷積神經網絡模型進行對比,發現兩者其實是極為相似的。在詞包模型中,對底層特征進行特征編碼的過程,實際上近似等價于卷積神經網絡中的卷積層,而匯聚層所進行的操作也與詞包模型中的匯聚操作一樣。不同之處在于,詞包模型實際上相當于只包含了一個卷積層和一個匯聚層,且模型采用無監督方式進行特征表達學習,而卷積神經網絡則包含了更多層的簡單、復雜細胞,可以進行更為復雜的特征變換,并且其學習過程是有監督過程,濾波器權重可以根據數據與任務不斷進行調整,從而學習到更有意義的特征表達。從這個角度來看,卷積神經網絡具有更為強大的特征表達能力,它在圖像識別任
務中的出色性能就很容易解釋了。
下面我們將以 PASCAL VOC 競賽和 ImageNet競賽為主線,來對物體分類的發展進行梳理和分析。2005 年第一屆 PASCAL VOC 競賽數據庫包含了 4 類物體:摩托車、自行車、人、汽車, 訓練集加驗證集一共包含 684 張圖像,測試集包含 689 張圖像,數據規模相對較小。從方法上來說,詞包模型開始在物體分類任務上得到應用,但也存在很多其他的方法,如基于檢測的物體分類、自組織網絡等。從競賽結果來看,采用“興趣點檢測-SIFT 底層特征描述-向量量化編碼直方圖-支持向量機”得到了最好的物體分類性能。對數線性模型和logistic 回歸的性能要略差于支持向量機,這也說明了基于最大化邊緣準則的支持向量機具有較強的魯棒性,可以更好得處理物體的尺度、視角、形變等變化。
2006 年瑪麗王后學院的張等人使用詞包模型獲得了 PASCAL VOC 物體分類競賽冠軍。與以前不同,在底層特征提取上,他們采用了更多的興趣點檢測算法,包括 Harris-Laplace 角點檢測和Laplacian 塊檢測。除此以外,他們還使用了基于固定網格的密集特征提取方式,在多個尺度上進行特征提取。底層特征描述除使用尺度不變的 SIFT 特征外,還使用了 SPIN image 特征。
詞包模型是一個無序的全局直方圖描述,沒有考慮底層特征的空間信息,張等人采用了 Lazebnik 提出的空間金字塔匹配方法,采用 1×1, 2×2, 3×1 的分塊,因而最終特征表達的維度是全局匯聚的 8 倍。另一個與之前不同的地方在于,他們使用了一個兩級的支持向量機來進行特征分類,第一級采用卡方核 SVM對空間金字塔匹配得到的各個詞包特征表達進行分類,第二級則采用 RBF 核 SVM 對第一級的結果進行再分類。通過采用兩級的 SVM 分類,可以將不同的 SPM 通道結果融合起來,起到一定的通道選擇作用。2007 年來自 INRIA 的 Marcin Marsza?ek 等人獲得物體分類冠軍,他們所用的方法也是詞包模型,基本流程與 2006 年的冠軍方法類似。不同在于,他們在底層特征描述上使用了更多的底層特征描述子,包括 SIFT, SIFT-hue, PAS edgel histogram等,通過多特征方式最大可能保留圖像信息,并通過特征編碼和 SVM 分類方式發掘有用信息成為物體分類研究者的共識。另一個重要的改進是提出了擴展的多通道高斯核,采用學習線性距離組合的方式確定不同 SPM 通道的權重, 并利用遺傳算法進行優化。
2008 年阿姆斯特丹大學和薩里大學組成的隊伍獲得了冠軍,其基本方法依然是詞包模型。
有三個比較重要的不同之處,首先是他們提出了彩色描述子來增強模型的光照不變性與判別能力;其次是使用軟量化編碼替代了向量量化編碼,由于在實際圖像中,圖像局部特征常常存在一定的模糊性,即一個局部特征可能和多個視覺單詞相似性差別很小,這個時候使用向量量化編碼就只使用了距離最近的視覺單詞,而忽略了其他同樣很相似的視覺單詞。為了克服這種模糊性問題,Gemert提出了軟量化編碼(又稱核視覺詞典編碼)算法,有效解決了視覺模糊性問題,提高了物體識別的精度。另外,他們還采用譜回歸核判別分析得到了比支持向量機更好的分類性能。2009 年物體分類研究更加成熟,冠軍隊伍不再專注于多底層特征、多分類器融合,而是采用了密集提取的單 SIFT 特征,并使用線性分類器進行模式分類。他們的研究中心放在了特征編碼上,采用了混合高斯模型 (Gaussian Mixture Model,GMM)和局部坐標編碼(Local Coordinate Coding,LCC)兩種特征編碼方法對底層 SIFT 特征描述子進行編碼,得到了高度非線性的、局部的圖像特征表達,通過提高特征的不變性、判別性來改進性能。另外,物體檢測結果的融合,也進一步提升了物體分類的識別性能。局部坐標編碼提出的“局部性”概念,對物體分類中的特征表達具有重要的意義 , 之 后 出 現 的 局 部 線 性 約 束 編 碼(Locality-constrained linear coding,LLC)也是基于局部性的思想,得到了“局部的”、“稀疏的”特征表達,在物體分類任務上取得了很好的結果。
2010 年冠軍依舊以詞包模型為基礎,并且融合了物體分割與檢測算法。一方面通過多底層特征、向量量化編碼和空間金字塔匹配得到圖像的詞包模型描述,另一方面,通過使 Mean shift、過分割、基于圖的分割等過分割算法,得到Patch 級的詞包特征表達。這兩種表達作為視覺特征表達,與檢測結果以多核學習的方式進行融合。
在分類器方面,除使用了 SVM 核回歸外,還提出了基于排他上下文的 Lasso 預測算法。所謂排他上下文是指一個排他標簽集合中至多只能出現一種類別。排他標簽集合的構建使用 Graph Shift 方法,并采用最小重構誤差加稀疏約束也即 Lasso 進行預測。排他上下文作為一種不同于一般共生關系的上下文,高置信度預測可以大大抑制同一排他標簽集中其他類別的置信度,改善分類性能。
2011 年冠軍延續了 2010 年冠軍的基本框架。來自阿姆斯特丹大學的隊伍從最顯著窗口對于物體分類任務的作用出發,在詞包模型基礎上進行了新的探索。他們發現單獨包含物體的圖像區域可以得到比整個圖像更好的性能,一旦物體位置確定,上下文信息的作用就很小了。在物體存在較大變化的情況下,部件通常比全局更具有判別性,而在擁擠情況下,成群集合通常要比單個物體更加容易識別。基于此,他們提出了包含物體部件,整個物體,物體集合的最顯著窗口框架。檢測模型訓練使用人工標注窗口,預測使用選擇性搜索定位。詞包模型和最顯著窗口算法融合得到最終的分類結果。
2012 年冠軍延續了 2010 年以來的算法框架,在詞包模型表達方面,使用了向量量化編碼、局部約束線性編碼、Fisher 向量編碼替代原來的單一向量量化編碼。這里有兩個比較重要的改進,一個是廣義層次化匹配算法。考慮到傳統的空間金字塔匹配算法在物體對齊的假設下才有意義,而這在實際任務中幾乎不能滿足,為解決這個問題,他們使用 Side 信息得到物體置信圖,采用層次化的方式對局部特征進行匯聚,從而得到更好的特征匹配。另一個重要的改進是子類挖掘算法,其提出的主要目的是改進類間模糊與類內分散的問題。
基本步驟是:
1)計算樣本類內相似度;
2)計算類間模糊性;
3)使用 Graph Shift 算法來檢測密集子圖;
4)子圖向子類的映射。
相比 PASCAL VOC 競賽, ImageNet 競賽的圖像數據規模更大,類別數更多,對傳統的圖像分類、檢測算法都是一個大的挑戰。下面將近年 ImageNet競賽的主流算法也做一個簡要介紹。2010 年冠軍由美國 NEC 研究院和 UIUC 獲得,其方法基于詞包模型,底層特征采用了密集提取的HOG 和 LBP 特征,特征編碼算法使用了局部坐標編碼和超向量編碼,并且采用了空間金字塔匹配。最終圖像的分類采用了基于平均隨機梯度下降的大尺度 SVM。相比 PASCAL 競賽算法,這里的算法更多采用了在計算上極為高效的底層特征和編碼算法,分類器及其優化也專門針對大規模數據進行了設計,最終獲得了 71.8%的 top 5 分類精度。
2011 年冠軍是施樂歐洲研究中心,其基本方法仍舊是基于詞包模型,主要改進在三個方面:
特征編碼方法采用 Fisher 向量編碼,可以引入更多的高階統計信息,得到更具判別性的表達;使用乘積量化(Product Quantization,PQ) 算法進行特征壓縮;分類器使用基于隨機梯度下降的線性支持向量機。
2012 年加拿大多倫多大學的 Hinton 教授及其學生 Krizhevsky 利用 GPU 在 ImageNet 競賽上獲得了前所未有的成功,他們訓練了一個參數規模非常大的卷積神經網絡,并通過大量數據生成dropout 來抑制模型的過擬合,在大規模圖像分類任務上獲得了非常好的效果,取得了第一名的成績,top 5 分類精度達到了 84.7%,比第二名使用 Fisher向量編碼算法要高大約 10 個百分點,充分顯示了深度學習模型的表達能力。
對比 PASCAL 競賽,ImageNet 競賽中使用的算法更加簡單高效,因而也更加接近實用。在大規模圖像識別場景下,傳統圖像識別的很多算法和技術面臨極大的挑戰,包括高計算強度,高內存消耗等,多特征、非線性分類器等這些在 PASCAL 競賽中廣為使用的算法和策略無法在 ImageNet 這樣規模的數據庫上高效實現。在性能和效率的權衡中,逐漸被更為簡單高效的算法(單特征、特征壓縮、線性分類器等)替代。大數據時代的來臨,更激發了數據驅動的深度學習模型的發展,實現了更高效的特征提取與圖像分類,將圖像分類的發展推向一個新的高度。
4.3 物體檢測
PASCAL VOC 競賽從 2005 年第一屆開始就引入了物體檢測任務競賽,主要任務是給定測試圖片預測其中包含的物體類別與外接矩形框。物體檢測任務與物體分類任務最重要的不同在于,物體結構信息在物體檢測中起著至關重要的作用,而物體分類則更多考慮的是物體或者圖像的全局表達。物體檢測的輸入是包含物體的窗口,而物體分類則是整個圖像,就給定窗口而言,物體分類和物體檢測在特征提取、特征編碼、分類器設計方面很大程度是相通的,如表 3 所示。根據獲得窗口位置策略的不同,物體檢測方法大致可分為滑動窗口和廣義霍夫變換兩類方法。滑動窗口方法比較簡單,它是通過使用訓練好的模板在輸入圖像的多個尺度上進行滑動掃描,通過確定最大響應位置找到目標物體的外接窗口。廣義霍夫投票方法則是通過在參數空間進行累加,根據局部極值獲得物體位置的方法,可以用于任意形狀的檢測和一般物體檢測任務。滑動窗口方法由于其簡單和有效性,在歷年的 PASCAL VOC 競 賽 中 得 到 了 廣 泛 的 使 用 。 特 別 是HOG(Histograms of Oriented Gradients)模型、形變部件模型的出現和發展,使得滑動窗口模型成為主流物體檢測方法。
與物體分類問題不同,物體檢測問題從數學上是研究輸入圖像 X 與輸出物體窗口 Y 之間的關系,這里 Y 的取值不再是一個實數,而是一組“結構化”數據,指定了物體的外接窗口和類別,是一個典型的結構化學習問題。結構化支持向量機(Structrual SVM, SSVM) 基于最大化邊緣準則,將普通支持向量機推廣到能夠處理結構化輸出,有效擴展了支持向量機的應用范圍,可以處理語法樹、圖等更一般的數據結構,在自然語言處理、機器學習、模式識別、計算機視覺等領域受到越來越多的關注。隱 變 量 支 持 向 量 機 (Latent SVM, LSVM) 是Pedro Felzenszwalb 等人在 2007 年提出用于處理物體檢測問題,其基本思想是將物體位置作為隱變量放入支持向量機的目標函數中進行優化,以判別式方法得到最優的物體位置。弱標簽結構化支持向量機(weak-label Structrual SVM,WL-SSVM)是一種更加一般的結構化學習框架,它的提出主要是為了處理標簽空間和輸出空間不一致的問題,對于多個輸出符合一個標簽的情況,每個樣本標簽都被認為是“ 弱 標 簽 ”。 SSVM 和 LSVM 都 可 以 看 做 是WL-SSVM 的特例,WL-SSVM 通過一定的約簡可以轉化為一般的 SSVM 和 LSVM。條件隨機場(Conditional Random Field, CRF)作為經典的結構化學習算法,在物體檢測任務上也得到一定的關注。Schnitzspan 等人將形變部件模型與結構化學習結合,提出了一種隱條件隨機場模型(latent CRFs),通過將物體部件標簽建模為隱藏節點并且采用 EM算法來進行學習,該算法突破了傳統 CRF 需手動給定拓撲結構的缺點,能夠自動學習到更為靈活的結構,自動發掘視覺語義上有意義的部件表達。張等提出了基于數據驅動的自動結構建模與學習來從訓練數據中學習最為合適的拓撲結構。由于一般化的結構學習是一個 NP 難問題,張提出了混合結構學習方案,將結構約束分成一個弱結構項和強結構項。弱結構項由傳統的樹狀結構模型得到,而強結構項則主要依靠條件隨機場以數據驅動方式自動學習得到。
下面我們將以歷年 PASCAL VOC 物體檢測競賽來探討物體檢測的方法演變與發展。
2005 年物體檢測競賽有 5 支隊伍參加,采用的方法呈現多樣化,Darmstadt 使用了廣義霍夫變換,通過興趣點檢測和直方圖特征描述方式進行特征表達,并通過廣義 Hough 投票來推斷物體尺度與位置,該方法在他們參加的幾類中都得到了最好的性能。INRIA 的 Dalal 則采用了滑動窗口模型,底層特征使用了基于 SIFT 的描述,分類器使用支持向量機,通過采用在位置和尺度空間進行窮盡搜索,來確定物體在圖像中的尺度和位置,該方法在汽車類別上取得了比廣義 Hough 變換更好的性能,但在人、自行車等非剛體類別上性能并不好。
2006 年最佳物體檢測算法是 Dalal 和 Triggs 提出的HOG(Histograms of Oriented Gradients)模型。他們的工作主要集中于魯棒圖像特征描述研究,提出了物體檢測領域中具有重要位置的 HOG 特征。HOG 是梯度方向直方圖特征,通過將圖像劃分成小的 Cell,在每個 Cell 內部進行梯度方向統計得到直方圖描述。與 SIFT 特征相比,HOG 特征不具有尺度不變性,但計算速度要快得多。整體檢測框架依然是滑動窗口策略為基礎,并且使用線性分類器進行分類。這個模型本質上是一個全局剛性模板模型,需要對整個物體進行全局匹配,對物體形變不能很好地匹配處理。
2007 年 Pedro Felzenszwalb 等人提出了物體檢測領域里程碑式的工作:形變部件模型(Deformable Part-based Model),并以此取得了 2007 年 PASCAL VOC 物體檢測競賽的冠軍。底層特征采用了Dalal 和 Triggs 提出的 HOG 特征,但與 Dalal 等人的全局剛體模板模型不同的是,形變部件模型由一個根模型和若干可形變部件組成。另一個重要的改進是提出了隱支持向量機模型,通過隱變量來建模物體部件的空間配置,并使用判別式方法進行訓練優化。形變部件模型奠定了當今物體檢測算法研究的基礎,也成為后續 PASCAL VOC 競賽物體檢測任務的基礎框架。
2008 年物體檢測冠軍同樣采用了滑動窗口方式。特征表達利用了 HOG 特征和基于密集提取SIFT 的詞包模型表達。訓練過程對前、后、左、右分別訓練獨立的模型,并使用線性分類器和卡方核SVM 進行分類。測試過程采用了兩階段算法,第一階段通過滑動窗口方式利用分類器得到大量可能出現物體的位置,第二階段基于 HOG 和 SIFT 特征對前面一階段得到的檢測進行打分,最后使用非極大抑制算法去除錯誤檢測窗口,并融合分類結果得到最終檢測結果。這里分類信息可以看成是一種上下文信息,這個也是物體檢測研究的一個重要內容。
2009 年除了形變部件模型以外,牛津大學視覺幾何研究組在滑動窗口框架下,基于多核學習將灰度 PHOW、顏色 PHOW、PHOC、對稱 PHOG、SSIM、視覺詞典等多種特征進行融合,取得了與形變部件模型相近的效果,獲得共同檢測冠軍。多核學習是進行多特征、多模型融合的重要策略,可以自動學習多個核矩陣的權重,從而得到最佳的模型融合效果。考慮到滑動窗口搜索的效率問題,提出了
類似級聯 Adaboost 方式的多級分類器結構。第一級分類器采用線性 SVM 分類器以滑動窗口或者跳躍窗口方式快速對圖像窗口進行粗分類;第二級采用擬線性 SVM,利用卡方核進行進一步細分類;第三級采用更強的非線性卡方-RBF 分類器,這一步準確度更高但比前面步驟計算代價更大,由于前面兩級已經快速濾除大部分備選窗口,這一級可以專注于更難的樣本分類。
2010 年中國科學院自動化研究所模式識別國家重點實驗室獲得了物體檢測冠軍,其方法是以形變部件模型為基礎,對底層 HOG 特征進行了改進,提出了 Boosted HOG-LBP 特征,利用Gentle Boost 選擇出一部分 LBP 特征與 HOG 特征融合,使得物體檢測結果產生顯著提升。另一個重要改進是采用了多種形狀上下文,包括空間上下文、全局上下文、類間上下文。空間上下文由包含了窗口位置尺度信息的 6 維向量構成,全局上下文包括 20 維的物體分類分數和 20 維的最大窗口分數,其中分類方法采用了黃等人提出的顯著性編碼、詞典關系算法計算詞包模型表達。類間上下文用于建模相鄰物體之間的弱空間關系,分別由20 維的窗口附近最強的 HOG 特征分數和 LBP 特征分數構成。最終得到 87 維的特征,使用 RBF SVM進行上下文學習。該方法在 VOC2010 數據庫上取得了 6 項第一,5 項第二,平均精度達到了 36.8%。
2011 年物體檢測冠軍依然是中國科學院自動化研究所模式識別國家重點實驗室,算法上與2010 年不同之處是針對形變部件模型提出了一種數據分解算法,并引入了空間混合建模和上下文學習。
2012 年阿姆斯特丹大學獲得物體檢測冠軍,其方法主要創新在于選擇性搜索、混合特征編碼、新的顏色描述子、再訓練過程。圖像中物體本身構成一種層次結構,通常很難在一個尺度上檢測所有物體,因而對圖像塊進行層次化組織,在每個層次上進行選擇搜索,可以有效提升檢測的召回率。考慮到經典的向量量化編碼使用小的特征空間分塊能夠捕獲更多圖像細節,而丟失了分塊內部的細節,而超向量編碼和 Fisher 向量量化編碼等差異編碼方法則可以很好的描述分塊內部細節,更大空間分塊可以描述更大范圍的圖像細節,綜合這兩種編碼模式,提出了混合特征編碼算法,將兩種編碼的優點融合到一起。
5 對物體分類與檢測的思考
物體分類與檢測的研究在以 PASCAL VOC 競賽為平臺的理論和算法研究上已經取得了一系列的進展,分類模型建立了以詞包模型和深度學習模型為基礎的體系框架,檢測模型則以可形變模型為核心發展出多種方法。在分析目前物體分類和檢測算法的基礎上,本文接下來對物體分類和檢測算法的統一性和差異性進行了討論,并探討了物體分類與檢測算法發展的方向。
5.1 物體檢測和物體分類的統一性
– 物體檢測可以取代物體分類?
物體檢測的任務是解決物體所在的位置問題,物體分類的任務是判斷物體的種類,從直觀上而言,物體檢測的隱含信息包括了物體的類別信息,也就是需要事先知道需要定位的物體的類別信息,比如需要檢測人,那么就需要先驗的給出人的標注信息,以此來判斷人的位置,從這個角度而言,物體檢測似乎包括了物體分類的步驟,也就是物體檢測就能夠回答“什么物體在什么地方”,但這里有一個誤區,其中的“什么物體”是先驗給出的,也就是在訓練過程中標注出的,并不一定是真實的結果。在模型區分性比較強的情況下,也就是物體檢測能給出準確的結果的情況下,物體檢測在一定程度上可以回答“什么物體在什么地方”,但在真實的世界中,很多情況下模版不能唯一的反映出物體類別的唯一性,只能給出“可能有什么物體在什么地方”,此時物體分類的介入就很有必要了。由此可見,物體檢測是不能替代物體分類的。
– 物體檢測和物體分類之間的差異性和互補性
以 PASCAL VOC 競賽為例,從模型的角度而言,物體檢測主要采用的是可變的部件模型, 更多的關注局部特征,物體分類中主要的模型是詞包模型,從兩者的處理流程來看,他們利用的信息是不同的,物體檢測更多的是利用了物體自身的信息,也就是局部信息,物體分類更多的是利用了圖像的信息,也就是全局的信息。他們各有優劣,局部信息考慮了更多的物體結構信息,這使得物體檢測和分類的準確性更高,但同時也帶來物體分類的魯棒性不強的問題;全局信息考慮了更多的是圖像的全局統計信息,尤其是圖像的語義信息,這使得能考慮更多的信息來進行判斷,但信息量的增加可能帶來準確度的提高,也可能由于冗余降低分類的性能,但是從統計意義而言,其魯棒性是能夠得到一定的提高的。由此可見,物體檢測和物體分類之間存在著較大的差異性,同時也就說明存在著比較大的互補性。
5.2 物體分類與檢測的發展方向
物體分類任務要確定圖像中是否包含物體,全局表達更關鍵;物體檢測任務則要確定圖像中物體的位置和尺度,物體結構更為關鍵。因此,物體分類檢測的研究也主要有兩種思路:
? 專注于學習結構,即結構化學習。觀察變量與其他變量構成結構化的圖模型,通過學習得到各個變量之間的關系,結構包括有向圖模型(貝葉斯網絡)、無向圖模型(馬爾科夫網絡)。結構化學習通常變量具有顯式的物理意義,變量之間的連接也具有較強的因果關系,解釋性較好。
? 專注于學習層次化表達,即深度學習。深度學習從人腦的層次化視覺處理和函數表達理論出發,采用層次化特征表達的思想來進行特征從底層到高層語義的提取。深度學習專注于表達的學習,也即更注重一個輸入得到的相應輸出,對中間的特征變換缺少自然的解釋,更像一個黑盒系統。
兩條思路各有側重,但并不是說是互相獨立的。在這兩條發展線路的基礎上,建立更為統一的物體識別框架,同時處理物體分類與檢測任務,也是一個重要的研究課題。如何利用物體檢測和物體分類之間的互補性去構建統一的物體識別框架是計算機視覺和視覺認知領域的研究熱點,也是視覺認知計算模型研究的重點之一。
5.3 結構化學習存在的難點與挑戰
? 模型表達問題。對于一個特定問題,選擇什么樣的模型,如有向圖模型、無向圖模型,模型如何進行參數化,都是值得研究的。
? 模型學習問題。在給定模型表達后,如何從給定數據中學習模型的參數,是結構化學習中的一個核心問題。目前通常有基于概率的學習方法,如最大似然估計、最大后驗估計等,也有基于最小化損失函數的方法。不同的方法,在學習的效率,準確性上都具有差異,研究快速有效的學習算法,具有特別重要的價值。
? 模型推斷問題。給定學習好的模型,進行快速、準確的模型推斷是至關重要的。目前經典的方法包括消息傳播算法、變分推斷算法、采樣算法等。不同方法在速度、準確度上各有差異。研究大規模圖模型,實現人類視覺系統快速識別人臉那樣的快速準確推斷,是一個重要研究方向。
5.4 層次化學習 (深度學習) 存在的難點與挑戰
在大數據時代,海量的圖像、視頻數據絕大多數是沒有標簽的,大量進行標注也是不現實的。從大量的沒有標簽的圖像數據中自動挖掘知識,無疑有著重要的意義。Google Brain 計劃也驗證了數據驅動的自主學習的可行性與有效性。但目前深度學習還存在一些難點和挑戰。
?解釋性差。層次化表達在視覺皮層理論和函數論等方面具有其理論依據,然而,在實際應用中,學習到的模型通常沒有很好的解釋性。第一層網絡可以通過可視化的方式進行直接查看,在大多數視覺數據中,第一層學習到的是類似 Gabor的濾波器,可以實現基本的邊緣檢測。然而,對于更高層的特征,通常很難直觀的查看其學習到的是什么。研究有效的高層特征解釋方式,無疑對于深度學習的發展具有非常重要的意義。
?模型復雜度高,優化困難。神經網絡的容量沒有上限,表達能力非常強,這是它的一個重要的優點。另一方面也對模型的優化造成了非常大的困難。網絡越復雜,模型的能量面越高低崎嶇,到處是極小點。研究模型初始化方式、優化算法,對于提高神經網絡的判別能力,是深度學習的一個重要研究內容。
? 計算強度高。目前雖然每層是高度并行化的前饋網絡,但是計算強度還是比較高,需要采用GPU 等硬件來完成。對于一個刺激信號,人腦中絕大多數細胞是處于不活動狀態,只有相關的細胞才會有活動,這是一種非常經濟的響應形式。而對于深度學習,輸入一個視覺信號,所有的神經元都會進行計算,人為加的一些稀疏約束只是會使某些神經元輸出為 0,但不代表該神經元“處于不活動”狀態。這方面是將來建立龐大學習網絡時實現實時推理的一個可行思路。
? 模型缺少結構約束。深度學習模型通常只對網絡的“ 輸入–輸出”進行建模,卻缺少必要的結構先驗的約束。例如,對人臉關鍵點可以采用卷積神經網絡進行回歸,網絡學習到的是一種隱式的“輸入–輸出”結構,卻完全沒有加入顯式的結構先驗,包括預測輸出的位置點處的表觀特征。這個問題的直接后果就是單個網絡盡管可以做到任意的復雜度,卻無法得到很高的精度,很多檢測錯誤看起來是非常簡單的:本來應該落在具有明顯特征的嘴角處,卻落在了嘴角旁邊的臉部區域。為了克服這個問題,就需要采用從粗到細,從全局到局部的策略,級聯多個網絡來不斷糾正網絡預測。在大數據時代,海量視頻數據所帶來的紛繁復雜的易變性(variability)將給傳統的特征學習方法帶來巨大挑戰。而深度學習模型天然的強大數據表達能力,無疑將會對大數據背景下的整個視覺的研究產生極大的影響,也必然會將圖像物體檢測、分類的研究推向新的高度。當然,目前深度學習模型還存在著解釋性差、模型復雜度高,優化困難、計算強度高等諸多問題,這些都需要研究者們進一步的思考。例如,將顯式結構先驗嵌入深度學習模型中,可以有效降低網絡參數空間的規模,減少局部極值的問題,從而可以更加有效地解決檢測、分割等任務。
6.結論
物體分類與檢測在計算機視覺研究中具有重要的理論意義和實際應用價值,同時目前也存在諸多困難與挑戰。本文以計算機視覺目標識別競賽PASCAL VOC 為主線,對物體分類與檢測歷年最佳算法的發展進行了詳盡的闡述,強調了表達學習和結構學習分別在物體分類和物體檢測中的重要意義。以此為基礎,本文還討論了物體分類與檢測的統一性與差異性,對物體分類與檢測的發展方向進一步思考,從基于深度學習的表達學習和結構學習兩個方向進行了分析與展望。
(完)
文檔下載地址:中國知網
http://kns.cnki.net/KCMS/detail/detail.aspx?dbcode=CJFQ&dbname=CJFD2014&filename=JSJX201406001&v=MjkzMjhZK1p1Rnlyblc3M0pMejdCZHJHNEg5WE1xWTlGWllSOGVYMUx1eFlTN0RoMVQzcVRyV00xRnJDVVJMMmY=
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎
總結
- 上一篇: 16 万元的 Model Q 要来了?特
- 下一篇: 直降 300 元 + 180 天只换不修