《人脸识别原理及算法——动态人脸识别系统研究》—1章1.2节人脸识别相关学科的进展...
本節書摘來自異步社區《人臉識別原理及算法——動態人臉識別系統研究》一書中的1章1.2節人臉識別相關學科的進展,作者 沈理 , 劉翼光 , 熊志勇,更多章節內容可以訪問云棲社區“異步社區”公眾號查看。
1.2 人臉識別相關學科的進展
人臉識別原理及算法——動態人臉識別系統研究
過去的30多年來,人們試圖從神經生理學、神經病理學、心理學、腦神經學以及計算視覺的角度對人臉的識別進行研究,并都取得了不同程度的進展,同時也促進了相應學科的發展。計算機技術的迅猛發展以及計算成本的迅速下降使得以前比較費時費空間的一些模式匹配算法,如大樣本的引入、多維特征參數的提取、建模等,又重新引起人們的重視。
1.2.1 神經生理學方面的進展
神經生理學在這方面的研究對象主要是那些患視覺認知不能的病人,他們雖然都是視力正常的人,但對于所看見的物體,他們往往不能意識到物體是什么。例如,有的病人能夠認出一個個的字符,但卻無法說出每個字符所表達的意思[1];同樣,有的病人也能夠認出一張張的人臉以及人臉上的特征,如鼻子、眼睛、嘴等,但卻無法將每張人臉與具體的人聯系起來[2]。這說明,這些病人的感知事物的能力是存在的,但識別事物的能力卻很差。為了解釋這種現象,19世紀德國神經學家Heinrich Lissauer[3]假設人類的認知現象由兩個部分組成,一個是感知部分,另一個是聯想部分,且兩部分缺一不可。感知部分接受外界的視覺刺激,并形成一種內部表示;而聯想部分根據這種內部表示,在相應的存儲區域進行搜索,以期得到對應的表示,并做出反應。
根據這個假設,可以認為那些視覺認知不能的病人雖然能夠感受外界的視覺刺激,卻可能不能形成相應的視覺表示,從而不能識別事物;或者有的病人也能夠形成視覺表示,卻無法在存儲區域內找到相應的視覺表示,從而也造成視覺不能。同時這個假設對于了解人類視覺的形成以及識別事物的能力也有一定幫助。上面所述的視覺感知部分相當于目標的提取或特征的提取;而關聯部分相當于目標的識別,通過各種識別技術將待識目標與庫中的對象進行比較,以完成分類、識別等任務。
1.2.2 腦神經學方面的進展
英國St. Andrews大學的心理學教授Perrett等人[4]在研究中發現,人腦右半球的某些區域受到損害后,可能會影響其對于人臉的識別,因此,他們認為人腦中可能存在專門執行臉部識別的細胞,并稱之為臉部細胞。其他一些研究者[5, 6]在用于實驗的恒河猴的下腦皮層中,也發現了具有類似視覺行為的細胞,并由此推斷,在下腦皮層中有專門用于分析人臉的機制。
對于這種現象,一種解釋認為不存在專門的臉部細胞,否則,也有可能存在類似的其他細胞,這樣的話,大腦中將充滿許多專門的細胞,顯然這與事實不符;另外一種解釋認為不存在所謂的臉部細胞,而存在由某些細胞組成的視覺區域,用于解釋外界的視覺刺激,而不單用于臉部的識別。
1.2.3 計算機視覺方面的進展
20世紀40年代計算機的出現改變了傳統的計算方法,實現了計算自動化。隨著計算機能力的增強,計算技術不斷向各個領域滲透,從傳統的計算領域到各種工程以及生活中。過去人們強調的是計算機的計算能力,隨著計算能力的增強和人工智能研究的深入,人們對計算機與人類的交互能力提出了更高的要求:使用計算機來直觀描述客觀世界物體,而不是采用過去模型化的抽象表示形式。計算機視覺是人工智能研究的一個分支,是人工智能的目標之一:計算機視覺研究的目標是使計算機能夠處理傳感器輸入的現實信號。
人臉識別系統需要對圖像進行處理,圖像處理是與計算機視覺緊密相關的,因此人臉識別研究需要對計算機視覺有深入理解,這里首先討論計算機視覺中的一些基本問題[7]:
如何區分光的亮度及強度的不同?
眼睛的空間分辨率是什么樣的?
如何精確地比較和估計面積和距離?
如何感知色彩?
檢測和區分物體時利用的是什么特征?
上面的基本問題是人類視覺系統的一些主要問題。加拿大McGill大學智能機器中心的Levine教授[8]比較了人類視覺系統和計算機視覺系統。計算機視覺的發展不僅與計算機科學中圖形學等方向有很大聯系,它還與心理學、解剖學、機器人學等領域有較密切的聯系。計算機視覺研究關心的最基本的問題是,采用物理學和光學的基本假設,如何從一幅圖像中提取出物體的信息和采用什么數學模型來建立客觀世界,這決定了計算機視覺需要使用認知處理、幾何模型、目標和規劃方面的知識。
在人臉識別中,有許多問題同樣與視覺系統有關,比如如何從圖像的描述中抽象出實際的物體塊,并根據人臉圖像的特點區分出人臉屬性,這些都是人臉圖像系統識別討論的問題。
本節將介紹計算機視覺理論、Marr視覺理論、基于推理的視覺理論,使讀者從不同角度理解計算機視覺。
1.計算機視覺理論
計算機視覺就是用各種成像系統代替視覺器官作為視覺信息輸入手段,由計算機來代替大腦完成處理和解釋,并根據解釋結果作出相應的決策。計算機視覺的最終研究目標就是使計算機能像人那樣通過對視覺信息的處理來觀察和理解世界,具有自主適應環境的能力[9]。
人類的視覺系統是功能最強大和完善的視覺系統,但人們并不能描述和解釋自身的視覺系統是如何進行信息處理的,通過對計算機視覺的研究、模擬,人們有可能逐步地揭開人類視覺的信息處理機制,從而了解人類的思維機制、推理機制等。因此,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,也是一個非常重要和有趣的研究領域。同樣地,通過其他途徑(如神經解剖學、心理學等方面)對人類視覺的研究,也會給計算機視覺的研究提供啟發和指導,兩者有相互促進作用[10, 11]。
除了神經解剖學、心理學,對計算機視覺的研究還要借助其他學科的知識,如圖像處理、模式識別(圖像識別)、圖像理解(景物分析)、圖像生成等。
(1)圖像處理
圖像處理技術把輸入圖像轉換成具有所希望特性的另一幅圖像。例如,可通過處理使輸出的圖像平滑或有較高的信噪比,同時還可通過增強處理來突出圖像的細節,以便于對圖像特征的檢驗。在計算機視覺研究中經常需要利用圖像處理技術進行預處理和特征抽取,如各種數學變換技術等。
(2)模式識別(圖像識別)
模式識別技術根據從圖像抽取的統計特性或結構信息,把圖像分成預定的類別,如人臉識別、文字識別或指紋識別等。在計算機視覺中模式識別技術經常用于對圖像中的某些部分進行處理,例如分割區域的識別和分類。
(3)圖像理解(景物分析)
給定一幅圖像,圖像理解程序不僅描述圖像本身,而且描述和解釋圖像所代表的景物,以便對圖像代表的內容作出決定。在人工智能視覺研究的初期經常使用景物分析這個術語,以強調二維圖像與三維景物之間的區別。圖像理解除了需要復雜的圖像處理技術外還需要關于景物成像的物理規律的知識以及與景物內容有關的知識。
(4)圖像生成
根據圖像的特性如對稱性、紋理漸變性以及圖像目標的動力學知識和其他的先驗知識,可以生成一幅圖像,或者當圖像信息存在部分缺失時,能夠將缺失的那一部分信息補上,從而得到完整的圖像信息。例如,對于二維圖像,通過圖像生成技術能夠得到其三維結構信息,這一點如應用在模式識別研究中,則能夠大大地提高識別系統的健壯性。
視覺表示的能力分為高級和低級能力[12]。通常知識和目標只是視覺過程中的高級能力,視覺還需要許多被認為是低級能力的能力。能力的區分是由對概念的表現程度和表示程度決定的。比如,一個物體的“亮度”、“顏色”、“距離”、“長度”等圖像特征屬性都屬于低級能力。例如一個物體的反光,如果采光是在復雜背景遇到黑色部分后反射出來的光線,物體也會被感知為黑色。當然感知的顏色不僅僅只和反射光的波長有關,因為看到的顏色并不會隨光照度的變化而完全不同。這種形成立體合成是近距離三維感知的低級能力,還有對物體感知和從背景中分離都是視覺系統的低級能力。
前面的一些論述都采用了一個假設前提:視覺系統的基礎是客觀世界的一些基本假設必須是永遠不變的,即視覺感知的效果是建立在非虛擬的基礎上的。
低級能力和高級能力之間最明顯的差別在于:低級處理能力是難以捉摸的、無意識的,并與其他直接內省的系統聯系不緊密;高級能力是在低級處理能力基礎上的綜合反應,這一過程和人類本身智能緊密地結合在一起。例如,在記憶時,對于一個圖像的視覺記憶印象是很深刻的,而對于圖像定量的言語描述和細節反應則相對膚淺。生物學中對人類的記憶機制和視覺感官機制都不是非常清楚,因此計算機視覺研究也將在高級能力方面進行深入探討。
在計算機視覺中面臨的一個非常困難的問題是,必須用普通的數字式硬件來重新構造專門的、并行的和部分生物視覺系統所具有的、最基本的、但卻難達到的能力。計算機視覺既涉及“前處理”的低級能力,又涉及知識的高級認知利用,二者密不可分。視覺終止于何處,對這個問題了解得并不清楚。但是對于任何先進的視覺系統,都需要對客觀世界有一個強有力、協調一致而又富有成效的表示法。沒有這些表示法,任何系統都不可能從輸入中找出固定不變的有關信息,因為輸入中含有不斷變化的采光、視點以及形狀的少許差別,噪聲和其他較大的但無關的種種變異等信息。這些表示法通過對視覺世界的結構進行預測和設想可以免去某些計算工作。另一方面,如果一個系統要成功地用于各種不同的任務,則需要某些“元”能力:它必須對其本身的目標和能力以及所采用方法的結果進行模擬和推理,即使感知過程并不總是“感到”它與認知一樣,然而這些復雜而相關聯的模型仍必須用類似于認知方法來處理。
通過上面對計算機視覺能力的分層分析,結合計算機的表示特點進行探討,采用數字化方法來描述視覺表示。視覺感知是視覺輸入和已有客觀世界模型間的關系,在圖像與解釋、描述和提取圖像信息的模型間存在著表示方法上的很大距離,為了溝通它們,計算機視覺系統通常有一系列表示法,用于連接圖像輸入和輸出(即最終描述、判決或解釋)。計算機視覺包括這些中間表示法的設計和通過各種算法來構造它們,并把它們彼此聯系起來。
一般這些表示法可以概括為4類:廣義圖像表示、分割圖像表示、幾何表示、關系表示。物體的每個部分可能有幾層表示法或幾個聯合表示法,雖然表示法從前期的低級信號到后期的認知符合存在著不嚴格的次序,但它們之間的實際工作順序和信息流并不是單方向的,當然并非每一個計算機視覺應用都需要所有級上的處理,有些級可以跳過,或者處理過程可能從某一級開始向上或向下進行到某一級就結束。
廣義圖像是輸入數據的圖像(圖像型)和類比表示法,圖像最初可能由幾種不同方法產生,通過域無關處理可以產生對以后處理更直接有用的其他圖像表示法,例如邊緣元素(灰度)陣列。有時在這一級可以產生特征圖像,這些圖像揭示出被成像景物的物理特性(例如表面方向、距離或表面反射能力)。并行處理通常可以產生廣義圖像。更普遍地大多數“低級”處理可以用并行計算來實現。
分割圖像是由廣義圖像通過將其元素聚集成可能與景物中有意義物體相聯的集合而得到的。分割一個平面多面體景物可能得到一組對應于多面體端面的二維區域。在產生分割圖像時,有關該問題特定域的知識對于節省計算和克服因噪聲和不合適數據所引起的問題都是很重要的。比如針對一平面多面體,利用這種知識可以事先就知道線段應當是直的,另外還可以知道紋理和運動在分割中是很重要的。這對計算機視覺研究有重要意義。
幾何表示用于獲取有關二維及三維形狀的所有重要概念,形狀的定量表示既困難又重要,這些幾何表示法必須具有充分的能力以實現復雜和通用的處理,例如對于采光及運動效應的仿真。幾何結構對于編碼以前獲得的知識和重新表示當前的視覺輸入都很有用,因此計算機視覺需要某些基本的數學工具。
關系模型是復雜高級處理中所用各種表示的集合。知識表達中的一個重要工具是語義網絡,它可以簡單地用作組織知識的一種手段,或用它來對知識形式化。高級處理經常要利用先驗知識和感性經驗前所得到的模型、基本的處理方式,即先建立表達方法,再與這些表達進行匹配。在高級處理中命題表達變得更重要,它們由關于一個模型是真或假的一些斷言所組成,并且由推理規則來處理。推理型方法也可以用于規劃,由于規劃中自始至終建立情況和動作的模型,因此它必須對隨時間變化的、假設的客觀世界進行推理,表示的級越高,朝向低級的控制流就越顯著,呈現串行處理算法的趨勢也就越大。對于復雜的信息處理,這些控制問題是基本的。
計算機視覺本身的研究是與應用無關的,但其結果與很多領域都是相關的。下面列舉一些相關應用與計算機視覺研究的關系[10]。
機器人學:描述三維景物和機械零件,通過光和X射線對工業任務和物體辨識描述,表現出物體模型和物體反射光模型。
航空圖像:主要對地形和建筑物采用可見光、紅外、雷達等方式對地圖或者外界的幾何模型進行資源分析、圖像改善、天氣預報和一些軍事上的用途。
天文學:利用天體輻射光描述其幾何形體,并對天體組成進行成分分析。
醫學:既可用于描述身體器官,還可用于描述細胞的組成、染色體成分、蛋白質鏈的分析。一般對于身體器官觀察使用X射線、超聲波等;對細胞采用電子顯微鏡,通過形體的模型分析病理學原理和診斷結果。
化學:對化學模型進行分析,采用電子密度得到分子結構。
神經解剖學:用于神經元結構的分析,通過電子顯微鏡確定神經元的空間位置,描述神經元之間的連通性及神經元之間的傳導關系。
物理學:對于新粒子的發現,尋找新粒子徑跡的辨識,找出粒子的運動規律。
上面是計算機視覺常見的一些應用。人臉識別的基礎就是計算機視覺。
2.Marr視覺理論
美國麻省理工學院的David Marr的視覺計算理論[13]立足于計算機科學,系統地概括了心理物理學、神經生理學、臨床神經病理學等方面已取得的所有重要成果,是迄今為止最系統的視覺理論。Marr視覺理論的出現對神經科學的發展和人工智能的研究產生了深遠的影響。
Marr認為視覺是一個信息處理過程,這個過程根據外部世界的圖像產生對觀察者有用的描述,而且這個處理過程是有層次的。整個處理過程如圖1-1所示。
低層視覺(即視覺處理的第一階段)的目的就是要確定圖像信息的變化是由哪些因素引起的。這個過程要經過兩個步驟來完成。第一步是獲得表示圖像中的變化和結構的表象。這包括檢測灰度的變化、表示和分析局部的幾何結構以及檢測照明的效應等處理,第一步得到的結果被稱為初始簡圖(primal sketch)的表象。
第二步對初始簡圖進行一系列運算得到能反映可見表面幾何特征的表象,這種表象被稱為二維半(2.5 D)簡圖,這些運算中包括由立體視覺運算提取深度信息,根據灰度影調、紋理等信息恢復表面方向,由運動視覺運算獲取表面形狀和空間關系信息等。這些運算的結果都集成到2.5 D圖像這個中間表象層次,因為這個中間表象已經從原始的圖像中去除了許多的多義性,純粹地表示了物體表面的特征,其中包括光照、反射率、方向、距離等。根據2.5 D圖像表示的這些信息可以可靠地把圖像分成有明確含義的區域(分割),從而可得到比線條、區域、形狀等更為高層次的描述。這個層次的處理稱為中層處理(intermediate processing)。
Marr視覺理論中的下一個表象層次是三維模型,它適用于物體的識別,當圖像數據具有與目標模型相同的表示形式時,就能夠對圖像進行識別。這個層次的處理涉及物體本身,并且要依靠和應用與領域有關的先驗知識來構成對景物的描述,因此被稱為高層視覺處理。
Marr的視覺計算理論雖然是首次提出的關于視覺的系統理論,并已對計算機視覺的研究起了巨大的推動作用,但還遠未解決人類視覺的理論問題,在實踐中也已遇到了嚴重困難。英國NewCastle大學的心理學教授Bruce、Young等人[14]認為Marr的三層表示模式是對目標的一種較粗略表示,對于一般的目標識別可能是有效的,但對于需要很精確地對目標加以描述,從而進行識別的情況卻可能不適用。例如對于人臉圖像的識別,不同目標具有相同的形狀,同時同一目標具有不同的表現形式,單純地使用上述的三層表示模式將無法區分不同的人臉圖像。
3.基于推理的視覺理論
由于只根據圖像數據本身不能對相應的物體空間結構提供充分的約束,也就是說這是一個約束不充分(underconstrained)的問題。因此,為了理解圖像的內容必須要有附加的約束條件。德國柏林學院的實驗心理學家Gestalt[15]發現的感知組織現象是一種非常有力的關于像素整體性的附加約束,為視覺推理提供了基礎。
心理學家Gestalt所研究的出發點是“形”,他認為任何“形”都是知覺進行了積極組織或構造的結果或功能,而不是客體本身就有的。在視覺研究中,Gestalt理論認為把點狀數據聚集成整體特征的聚集過程是所有其他有意義的處理過程的基礎。人的視覺系統具有在對景物中的物體一無所知的情況下從景物的圖像中得到相對的聚集(grouping)和結構的能力。這種能力被稱為感知組織。
感知組織把點狀的傳感數據變換成客觀的表象。在這些表象中用于描述的詞藻不是在點狀定義的圖像中的灰度,而是如形狀、形態、運動和空間分布這樣的描述。感知組織通過對傳感器數據進行整體的分析,得到一組宏觀的表象。這樣的宏觀表象就是進行認知活動時的基本構件,用它們可構成對外部世界的描述。
Gestalt理論反映了人類視覺本質的某些方面,但它對感知組織的基本原理只是一種公理性的描述,而不是一種機理性的描述。因此自從在20世紀20年代該理論被提出以來未能對視覺研究產生根本性的指導作用。但是研究者對感知組織原理的研究一直沒有停止。特別是在20世紀80年代以后,加拿大British Columbia 大學的Lowe[15]、美國Carnegie Mellon大學的Witkin和Tenenbaum[16]等人在感知組織的原理以及其在視覺處理中的應用方面取得了新的重要研究成果。
本文僅用于學習和交流目的,不代表異步社區觀點。非商業轉載請注明作譯者、出處,并保留本文的原始鏈接。
總結
以上是生活随笔為你收集整理的《人脸识别原理及算法——动态人脸识别系统研究》—1章1.2节人脸识别相关学科的进展...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Exchange Server 201
- 下一篇: 《CCNP TSHOOT 300-135