读后感和机翻《他们在看哪里,为什么看?在复杂的任务中共同推断人类的注意力和意图》
以下是研究朱松純FPICU概念中I(intent)的相關論文記錄:
?
讀后感:
-  
作者干了什么事?
- 算法可以從視頻中預估人類的注意力位置和意圖。
 
 -  
怎么實現的?
- 提出了一個人-注意力-對象(HAO)圖來聯合表示視頻中(人)的任務、注意力和意圖。
 - 給定一個RGB-D視頻,一個波束搜索算法被用來聯合推斷任務標簽、意圖和注意力
 
 -  
有哪些前置條件或特有數據集?
- 數據集總共包含809個視頻,大約330,000幀。在每個視頻幀中手工標注任務標簽、意圖標簽、注意點位置、對象標簽和邊框。每一幀包含四種類型的數據:分辨率為1920 1080的RGB圖像、深度圖像、3D人體骨架和分辨率為1280 960的以自我為中心的RGB圖像。
 
 
?
《Where and Why Are They Looking??Jointly Inferring Human Attention and Intentions in Complex Tasks》
《他們在看哪里,為什么看?在復雜的任務中共同推斷人類的注意力和意圖》,CVPR2018,作者Ping Wei等5人,沒找到開源源碼。
?
摘要
本文提出了一個新問題——從視頻中聯合推斷人類的注意力、意圖和任務。給我們看一個人執行一項任務的RGB - d視頻,我們同時回答三個問題:1)人在看什么——注意力預測;2)人為什么看那里——意圖預測;3)人類在執行什么任務——任務識別。我們提出了一個人的注意力-對象(HAO)的層次模型,它在一個統一的框架下表示任務、意圖和注意力。任務表示為相互轉換的順序意圖。意圖是由人的姿勢、注意力和物體組成的。采用波束搜索算法對HAO圖進行推理,輸出注意、意圖和任務結果。我們建立了一個新的任務、意圖和注意力的視頻數據集。包含14個任務類,70個意向類,28個對象類,809個視頻,約33萬幀。實驗表明,我們的方法優于現有的方法。
1 介紹
在過去的幾十年里,雖然人們對在視頻中識別人在做什么進行了廣泛的研究,但推斷人在想什么是一個很少被研究但很重要的問題。例如,在一個人機協作的場景中,一個人站著不動,環顧四周,沒有任何身體動作。為了與人合作,機器人需要知道人在想什么,比如人在搜索什么或者檢查什么物體的狀態
回答這些問題需要推斷人類在任務中的注意力和意圖。任務是一個復雜的目標驅動的人類活動[18],執行任務是一個眼手協調[23]的過程,如圖1所示的任務拖把地板。人類注意力描述的是人類在看什么。包括三維位置、三維方向和二維位置屬性,如圖1所示。
圖1:人類在拖把地板任務中的注意和意圖。在拖地板的時候,這個人會看著地板,他的意圖是檢查地板是否清潔過。
在我們的研究中,人類意圖描述了人類看一個地方的心理動機。在認知研究中,Land et al.[16]定義了四種人類固定角色的基本類型——定位、指導、引導和檢查。如圖2所示,我們擴展了四種注視角色來解釋人類在復雜任務中的意圖:1)定位是識別場景中物體的位置;2) direct指的是人將手指向某物或做某件事;3)引導是指人引導一個對象接近另一個對象;4)檢查是檢查對象狀態。由于不同任務中對象和動作的構成不同,這四種基本類型可以擴展為許多類別,如locate mop、locate coffee jar等。我們將這些擴展的類別定義為人類在任務中的意圖。意圖預測是用意圖類別中的一個來標記每個視頻幀。
圖2:人類執行任務時的四種基本意圖類型。
俗話說,眼睛是心靈的窗戶。在一項任務中,人的注意力和意圖是密切相關的。通過感知人在看什么,我們可以推斷出人的意圖。例如,在圖2所示的“煮咖啡”任務中,當從飲水機取水時,這個人的注意力集中在杯子上,他的意圖是檢查杯子的狀態(滿了或沒有)。另一方面,人的意圖驅動人的注意,這使得注意在不同的意圖[38]中呈現出不同的特征。例如,在圖2中,當人的意圖是檢查杯子的狀態時,他的注意力集中在杯子上;當一個人的目的是定位杯子時,他的注意力迅速轉移到桌子上。
在本文中,我們提出了一個人-注意-對象(HAO)的層次圖模型來聯合表示和推斷視頻中人的注意、意圖和任務。任務表示為相互轉換的順序意圖。意圖是由人的姿態、人的注意和意圖相關的對象組成的。注意是人與物在時空上的橋梁。對于一個RGB-D視頻,我們采用波束搜索算法來聯合推斷每個視頻幀中的任務標簽、意圖、3D注意方向、2D和3D注意位置。我們收集了一個新的大規模的任務、意圖和注意力(TIA)視頻數據集。實驗結果證明了該方法的有效性。
本文有三大貢獻:
1)它研究一個新問題,從識別一個人在做什么到推斷一個人在想什么,發展視頻理解。
2)它提出了一個層次模型來表示任務作為過渡意圖,并描述了人的姿態、注意力和對象。
3)它展示了任務、意圖和注意力的RGB-D視頻數據集。
1.1 相關工作
人的意圖和思想。意向大致可以分為行動意向[31、24、32]和心理意向[36、12、27、3、16、23、6、41、40]。行動意圖描述了隨后的行動。心靈意圖描述了人類心靈中無形的動機或運動[16,36]。這種意圖不能從視覺特征中直接感知,只能從時空線索中推斷出來。此外,思維意圖通常先于行動意圖出現,因為人類的思維驅動著他們隨后的行動。我們工作中的意向屬于心靈意向。
人類的注意力和凝視。視覺突出[13]描述吸引圖像外部觀察者注意的圖像區域。內部數據注意力描述了圖像內部的一個人正在看的位置[25,11]。我們工作中的注意力屬于數據內部的注意力。
眼睛或面部特征經常被用來估計人類注視的次數[25,35,42,22,33,14,10,19,7,11]。然而,在大規模的日常活動場景中,由于分辨率較低,很難獲得可用的眼或人臉特征。在這種情況下,人體特征是推斷注視量的一種替代方法[21,38,40]。
一些研究模型注視對象或動作信息[28,34,5,4,20,2,9,17,40]。然而,注意力也是由意圖驅動的。在一個任務中,人不一定總是看相關的對象。有必要對注意力、意圖、任務和對象進行聯合建模。
行動和任務。傳統的動作識別關注的是人類在圖像或視頻中所做的事情[29,37,39]。用可見的特征來解釋行動,較少強調目標。任務是目標驅動的活動,具有更復雜的時空結構[12,18]。
2 模型
我們提出了一個分層的人注意-對象(HAO)圖來表示任務、人的意圖和注意,如圖3所示。圖中包含四層,分別對應任務、意圖、注意力橋接的人體和物體以及視頻。
圖3:人的注意力-對象(HAO)圖。注意節點下的圖像斑塊是人類注視的注意區域。
在時域內,將一個任務劃分為多個任務意向。如圖3所示,制作咖啡的任務由八個順序意圖組成,如定位咖啡罐、引導杯子接近分配器、檢查杯子狀態等。這些意圖可以相互轉換。
意圖是通過人的身體、人的注意力和物體的暗示來揭示的。因此,意圖分解為人體姿態、人的注意和與意圖相關的物體,如圖3所示。人的注意力是連接人體和物體的橋梁。
2.1 表示法和公式
我們使用Kinect等動作捕捉技術錄制的RGB-D視頻作為輸入。每一幀包括一幅RGB圖像、一幅深度圖像和由三維關節位置組成的三維人體骨架。
。。。。。。
在第t-th RGB幀中,我們定義一個以二維注意點為中心的正方形圖像patch來提取注意外觀特征。這個圖像補丁就像是人類正在觀察的中心區域,如圖3所示。
。。。。。。
2.2 HAO的特征匹配
人類姿態匹配
注意特征匹配
目標匹配
圖4:注意圖。每個地圖像素值是人類按照如下意圖查看像素的概率。
2.3 HAO的幾何關系
人的姿勢和注意力的關系
注意力與目標物關系
2.4?注意力和意圖的暫時轉移
注意力轉換
意圖轉換
3 推理
給定一個輸入RGB-D視頻I,帶有3D人體骨架H,我們的目標是共同輸出:1)每幀人的意圖;2)每幀的三維注意方向;3)視頻的任務標簽。這個問題可以表述為:
我們使用類似于波束搜索[39]的算法來求解Eq.(15),如圖5所示。它包括三個步驟。
- 提出假設的注意點。,,,
 - 提出假設對象。,,,
 - Graph-guided優化。,,,
 
從訓練樣本中,我們為每個任務類別構造HAO圖。這些圖表說明了意圖、相關對象、幾何關系和時間關系。設為時間1到時間t的視頻片段,圖導優化總結如下:
。。。。
圖5:推理算法。為了清晰起見,只有部分被提議的對象框和注意點被可視化。
4 實驗
我們用意圖預測、注意預測和任務識別三個實驗來評估我們的方法。意圖預測準確率定義為標記正確的幀數與所有測試幀數的比值。注意預測誤差定義為所有測試幀中預測值與地基真值之間的平均距離。任務識別的準確率是正確標記的視頻數與所有測試視頻數的比率。
4.1 TIA數據集
我們構建了一個包含任務、意圖和注意力(TIA)的大規模數據集。圖6顯示了一些框架示例。數據由兩種類型的相機同時捕獲。一個Kinect攝像頭固定在場景中,以第三人稱視角捕捉人類活動的RGBD視頻。14名志愿者在不同的場景中自由的完成和獨立的完成不同的任務。
圖6:TIA數據集中的樣本。每一行都是一個任務。
志愿者頭上戴著一個眼球追蹤攝像機,在每一幀中拍攝以人類注視點為中心的視頻。以自我為中心的視頻和注視點是用于注釋第三人稱視屏視頻中的地面真相注意點,而不是用于我們的實驗中的訓練或測試。
我們在每個視頻幀中手工標注任務標簽、意圖標簽、2D注意點、對象標簽和邊框。數據集總共包含809個視頻和大約330,000幀。每一幀包含四種類型的數據:分辨率為1920 1080的RGB圖像、深度圖像、3D人體骨架和分辨率為1280 960的以自我為中心的RGB圖像。
數據集包含14類任務:掃地、拖地、在黑板上寫字、擦黑板、使用電梯、從罐子里倒液體、煮咖啡、讀書、扔垃圾、微波食品、使用電腦、搜索抽屜、移動瓶子到分機、開門。包含70類人類意圖,如定位掃帚、直接手持拖把、檢查微波爐狀態等;28類物體,如掃帚、拖把、粉筆、咖啡罐、抽屜等。
4.2 實現細節
我們將809個視頻樣本按視頻數比分別為0.5、0.25和0.25劃分為訓練集、驗證集和測試集。
對于Eq.(3)中的位姿匹配模型,我們從三維骨架中提取關節特征[37]。使用l2正則邏輯回歸[8]對分類器進行訓練。
對于Eq.(4)中的注意匹配模型,我們裁剪以groundtruth注意點為中心大小為6464的注意斑塊。利用這些圖像補丁,我們用VGG16模型[30]訓練CNN分類器。學習率為0.0001,批大小為64。
對于Eq.(5)中的目標匹配模型,我們使用VGG16特征[30]對我們的訓練數據進行Faster R-CNN模型[26]的微調。非最大抑制閾值和置信閾值分別為0.6和0.5。
4.3 意圖的預測
意圖預測是對每個視頻幀進行意圖標記。表1給出了70個意向類別的總體預測精度。圖7給出了一些示例。
圖7:意圖預測、注意預測和任務識別結果可視化。RGB框架上的文本分別是任務標簽和意圖標簽。
我們將HAO方法與其他方法進行比較,如表1所示。SVM-JF和NN-JF方法使用了從三維人體骨架中提取的關節特征[37]。利用這些特性,SVM-JF用支持向量機訓練分類器,NN-JF訓練三層全連接神經網絡。SVM-JF和NNJF用單幀特征預測所有測試幀的意圖。RGB幀CNN使用整個RGB幀作為輸入。它訓練一個基于VGG16模型[30]的分類器。學習率為0.0001,批大小為64。
表1:注意力預測精度比較。
我們的模型將不同的信息術語組合在一起。為了診斷每一項的影響,我們計算利用人體姿態(H)、注意斑塊(A)、物體(O)信息以及它們之間的幾何關系的方法的性能。所有的診斷方法采用相同的模型參數和推理算法,只有不同的信息項。
表1顯示,我們的HAO在很大程度上優于其他方法。人體特征,如NN-JF和NN-JF中使用的關節特征[37],描述了人體動作信息。實驗結果表明,僅僅依靠動作特征很難區分人的意圖。
RGB幀CNN[30]方法使用整個幀作為輸入。幀中包含了大量的場景和背景信息。這樣的信息對于理解物體和場景是有效的,但是對于區分人的意圖卻不是很有效,因此導致了較低的性能。
我們的HAO利用了人體姿態、注意力斑塊、物體及其相互作用關系的聯合信息。因此,取得了較好的效果。這也反映在表1的診斷結果中。使用純H、A或O信息來預測意圖是無效的。當引入它們之間的關系時,性能有了很大的提高。我們的HAO通過將所有信息整合到一個統一的框架中進一步提高了性能。
圖7表明,即使人類沒有明顯的行為,我們的HAO也可以合理地預測意圖。例如,在清掃一個人站著的地板的任務中,我們的HAO根據物體和注意位置預測了人的意圖是檢查地板的狀態。
4.4 注意力預測
注意預測是預測每一幀的三維注意方向、三維和二維注意位置。預測誤差見表2。圖7顯示了部分注意力預測結果。以米為單位的三維定位誤差在場景點云中定義。對于三維注意方向,我們對所有注意方向進行了標準化,以便所有方向向量從范數為1的三維原點開始。在分辨率為960540的圖像中定義以像素為單位的二維定位誤差。
我們與多元回歸(Mv-Reg)、線性動態系統與卡爾曼濾波(ds - kf)[1]和神經網絡回歸(n - reg)進行了比較。NN-Reg采用3層全連通回歸網絡。這三種方法在HAO中使用相同的輸入框架特性。
表2顯示了HAO優于其他比較方法。與Mv-Reg、ds - kf[1]和NNReg相比,我們的方法聯合利用了人體姿態、注意力斑塊和物體的信息,在2D和3D中都顯著提高了性能。
4.5 任務識別
任務識別就是給每個視頻貼上任務標簽。我們將HAO與以下幾種方法進行了比較:4DHOI[39]、幀CNN[15]和雙流CNN[29]。4DHOI[39]聯合使用人體姿勢、交互對象和人-物關系來為視頻進行標簽。[15]基于CNN的幀分類,通過投票對視頻進行標簽。雙流CNN[29]將RGB和光流特性與卷積神經網絡結合起來對視頻進行標簽。表3給出了整體識別精度比較。圖7顯示了一些示例。
與意圖預測相似,我們也計算使用人體姿態(H)、注意斑塊(A)、物體(O)和它們之間的關系的方法的性能。通過分析這些方法的性能,我們可以診斷出不同因素對任務識別的影響。
從表3可以看出,我們的HAO方法優于其他方法。傳統的活動識別方法主要依靠人體的外觀和動作來對視頻進行標記。然而,一個復雜的任務視頻往往很長,并且包含許多不同形式的動作,這使得僅憑外觀和動作信息很難區分任務。HAO將任務分解為意向過程,更加靈活。它綜合利用人、注意力和物體信息對任務進行識別,從而取得較好的效果。診斷實驗結果也顯示了我們的聯合模型的優點。
5 結論
在本文中,我們研究了一個從RGB-D視頻中聯合推斷意圖、注意力和任務的新問題。我們的工作從識別人類在做什么到推斷人類在想什么發展了對視頻的理解。我們提出了一個人-注意力-對象(HAO)圖來聯合表示視頻中的任務、注意力和意圖。任務在時間上被分解為意圖,意圖被分解為人的姿態、人的注意和相關的對象。給定一個RGB-D視頻,一個波束搜索算法被用來聯合推斷任務標簽、意圖和注意力。我們提出了一個新的大規模視頻數據集的任務,意圖,和注意。意圖預測、注意預測和任務識別實驗證明了該方法的有效性。
實驗表明,人的注意對人的意圖和任務建模起著重要的作用。在未來的工作中,我們將學習機器人思維建模。
總結
以上是生活随笔為你收集整理的读后感和机翻《他们在看哪里,为什么看?在复杂的任务中共同推断人类的注意力和意图》的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 读后感与机翻《整体的三维场景解析和重建从
 - 下一篇: 读后感与机翻《从视频中推断力量和学习人类