【人脸表情识别】情绪识别相关会议、比赛汇总(2018-2020)
前面專欄中,我們介紹了有關基于圖片/視頻的人臉表情識別的相關內容,也了解了通過回歸的方式來理解表情的方式——基于連續模型的人臉表情識別。在專欄的最后一篇文章中,我們將分享計算機視覺領域中圍繞情緒識別主題的一些會議和相關競賽。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 作者&編輯 | Menpinland
隨著計算能力的提升、神經網絡研究的步步深入,人工智能在機器翻譯、行為識別、語音識別以及圖像分割、分類、檢測等任務中取得了重大突破,推進了這些領域的發展。配以圖像、語音識別的人工智能已經逐漸能夠“看見”、“聽見”,然而人機交互的過程中,讓機器真正看得懂、聽得懂情感豐富的人類的情緒狀態,依然是一個很大的挑戰。
未來想讓計算機實現真正的人工智能并服務于人,并與人類產生自然的智能化的人機交互,計算機必須具備情緒識別和表達能力,需要具備情感。情緒識別是與人工智能相關的領域,它可以幫助計算機智能的識別人類情感。隨著情緒識別領域的不斷發展,人們對情緒識別的研究也越來越多,并在人機交流等不同的應用領域中占有重要的地位 [1]。由于人臉表情是最容易獲取且最直觀反映人的情緒狀態的模式,因此在所有情緒識別研究的分支中,基于人臉表情的情緒識別是最早也是最熱門的一個分支。
早期的研究者將表情定義為六種基本的情緒:開心、悲傷、驚訝、害怕、厭惡、生氣,并通過讓相關研究人員或專業的演員在實驗室條件下進行“擺拍”獲得不同類別表情的方式構建數據集(后續有相關研究對基本情緒類別進行了擴充)。但隨著研究的深入,人們發現通過上述的方式進行情緒識別的研究存在著一些弊病:(1)現實當中人臉會出現遮擋、頭部姿態變換以及光照變換等更復雜的情況,而且人在自然條件下的表情也不會有在實驗室條件下通過“擺拍”得到的表情那么明顯。因此,在理想條件下訓練得到的算法模型面對現實更苛刻的條件,識別率自然大大下降。(2)將情緒定位為若干類別并不適用于每一種應用場景,如識別駕駛員的情緒更關注的是他的疲勞程度或憤怒程度,教育應用中識別學生的情緒更關注的是他的專注情況。因此,對于不同場景下不同的情緒識別需求應該有不同的評價指標。(3)人可以通過控制自己的面部表情來隱藏自己的情緒,基于單一視覺模態很難有效對情緒進行識別。針對這三大弊病,當前情緒識別也逐步偏向于自然條件下、更多應用場景、更多模態背景下的研究。在每一年的一些涉及到多媒體、人機交互等主題的會議中,都有一些非常前沿的情緒識別競賽或者主題研討會(workshop),它們重點關注的是當前情緒識別研究尚未解決的難點或者貼近實際生活的新穎點,了解這些信息可以掌握當前情緒識別研究的趨勢,同時學習新穎的研究方法。筆者為大家歸納了2018年至今的一些大型國際情緒識別競賽和主題研討,供大家參閱:
1 EmotiW?
EmotiW(Emotion Recognition in the Wild Challenge)是一項圍繞現實環境中不同的情感計算問題算法競賽。該挑戰提出的初衷是為情感計算研究人員提供一個競爭性平臺。這項挑戰是ACM 多模態交互國際會議(ACM International Conference on Multimodal Interaction,ICMI)中其中一個挑戰。自2013開始,EmotiW每年都會舉辦一次,挑戰的子項目每年都會有所變化。?
tips:EmotiW每年其官網對于子挑戰的描述可能會存在一定的滯后性,對于子挑戰更準確的描述應該參考每年的總結論文。
EmotiW 2018
EmotiW 2018包含三個子挑戰:
---群體情緒識別(Group-level Emotion Recognition ,GReco)
---學生專注度預測(Student Engagement Prediction ,EngReco)
---音視頻情緒識別(Audio-Video Emotion Recognition,VReco)
群體情緒識別是將一個群體的感知情緒分為積極,中立或消極。社交網絡用戶通過Internet上傳社交活動期間捕獲的大量圖像。這些圖像來自積極的社會事件,例如典禮,婚禮,派對或像會議這樣的中立事件,以及一些消極事件,例如葬禮,抗議等。此子挑戰中的圖像來自the Group Affect Database 3.0 [2]。標簽用效價值進行表示。數據集分成三個子集:訓練集,驗證集和測試集。Baseline是利用Inception V3+3個全連接層(4096)當作三分類任務來做,在驗證集和測試集上的準確率分別為65%、61%。
圖1|群體情緒識別數據圖例
學生專注度預測是預測視頻中學生的專注程度。數據集來源于Kaur 等人的研究 [3]。在數據集中,每位學生志愿者被要求觀看在線教育視頻(MOOC),然后通過筆記本電腦、手機或者網絡攝像頭等設備錄取他們觀看的過程。每個視頻樣本約5分鐘時長,錄制視頻的背景也各不相同,包括有計算機實驗室、操場、食堂、旅館房間等。同時為了突出非受限環境的特點,數據集分散到一天不同時間進行錄制,從而實現了包含多種光照條件的目的。數據集分成三個子集:訓練集,驗證集和測試集。標簽的話,專注度被劃分為四個等級,0代表極度不專注,3代表極度專注。但最后實現上,是把專注度預測轉化為回歸問題,同時把0-3的專注度歸一化到[0-1]。Baseline是將每個樣本分割成不同的片段,每個片段利用LBPTOP或者是借助OpenFace提取特征,最后再利用LSTM完成回歸任務,在驗證集和測試集上的均方誤差分別為0.10和0.15。
圖2|學生專注度預測數據圖例
音視頻情緒識別是將一段音視頻中的人的情緒進行識別。挑戰采用的數據集為Acted Facial Expressions in the Wild (AFEW) database [4]。視頻數據通過關鍵字檢索電影和電視劇片段得到。情緒標簽是基本的7類表情(開心、悲傷、驚訝、害怕、厭惡、生氣、中立)。數據集同樣分成三個子集:訓練集,驗證集和測試集。Baseline是利用LBPTOP提取特征,用SVR進行訓練分類,在驗證集和測試集上的準確率為38.81%和41.07%。
EmotiW 2019
EmotiW 2019包含三個子挑戰
---群體凝聚力預測(Group-level Cohesion prediction ,GC)
---音視頻情緒識別(Audio-Video emotion recognition,AV)
---學生專注度預測(Student Engagement Prediction ,EP)。
tips:EmotiW 2019中的音視頻情緒識別、學生專注度預測兩項子挑戰內容跟EmotiW 2018并無差異,因此不再做詳細的描述。
群體凝聚力預測是預測圖片中一個群體的凝聚力。數據集是在the Group Affect Database 3.0的基礎上進行擴展以及重新修改標簽,具體可參考文獻[5]。在此項任務中,圖片的凝聚力從0到3分為四個等級,0表示極低凝聚力,1表示低凝聚力,2表示強凝聚力,3表示很強凝聚力,問題也像學生專注度預測一樣被定義為回歸問題。(之所以在等級劃分的時候,沒有一個介于低凝聚力以及強凝聚力的中間值,是因為這些等級是通過許多人進行標注的,即便受過相關的培訓,當標注者比較模棱兩可或者比較疏忽大意沒仔細看,就會偏向打中間值,這樣就很容易出現中間值偏多的樣本不均情況,這種標注方式是參考學生專注度的標注方式,具體可參考文獻[6])Baseline是用Inception V3+3個全連接層(4096)作為基礎模型,權重以ImageNet預訓練的權重作為初始化并進行微調,在驗證集和測試集上的均方誤差分別為:0.84和0.50。
圖3|群體凝聚力預測數據圖例
EmotiW 2020
EmotiW 2020包含四個子挑戰:
---自然狀態下專注度預測(Engagement Prediction in the Wild)
---基于音視頻的群體情緒識別(Audio-video Group Emotion Recognition)
---駕駛員注視預測(Driver Gaze Prediction)
---基于生理信號的情緒識別(Physiological signal based emotion recognition)
基于音視頻的群體情緒識別。此項任務跟EmotiW 2018的群體情緒識別相似,只是樣本輸入類型變成了音視頻了。Baseline就是利用在基于圖片的群體情緒識別數據集上進行預訓練的模型來提取特征,最后在驗證集上的準確率為50.05%。
駕駛員注視預測是判斷駕駛員眼睛所注視的方向(可看做是對駕駛員專注度預測的一種方式)。數據來源為Driver Gaze in the Wild (DGW) dataset [7]。數據采集的方式比較特殊。首先人為將車內區域劃分為9個區域,然后通過指令的方式,依次讓模擬的駕駛員朝9個區域看,看的時間持續大約15-20s。同時數據采集設計了是在多種光照條件下進行采集,增加了任務的難度。數據的標簽通過語音轉文字的方法進行標注。這項任務將預測駕駛員注視方向轉化為預測駕駛員朝哪個方向看的問題,因此是分類任務。
雖然是視頻采集,但是baseline采用的是基于圖片的網絡模型,如Alexnet,Resnet和Inception Network(筆者猜測可能是將視頻中代表性幀選出來然后匹配視頻的標簽,從而構成了一個圖片的數據集)。同時為了避免人臉檢測算法失效導致樣本不含人臉的問題,baseline采用密集光流的方法,如果連續兩幀光流的Frobenius 范數超過某個閾值則拋棄后面的那幀(類似于于相似度算法)。最后在驗證集上達到了56%的準確率。
圖4|駕駛員注視預測數據圖例
基于生理信號的情緒識別是利用生理信號來對情緒進行識別。數據集來源于PAFEW [8]。該數據集包含的生理信號包括:皮膚電活動(electrodermal activity,EDA), 皮膚溫度(skin temperature,SKT),光容積掃描術(Photoplethysmography,PPG,監測心率和氧飽和度最常見和簡單的方法之一 [9]),心搏間期(inter beat intervals),心跳(heart rate)和瞳孔信息(pupil information)。志愿通過觀看AFEW中的視頻產生生理信號,因此每個生理信號樣本對應的情緒標簽也是基本的七種。這項挑戰里僅采用EDA進行比賽。
Baseline先利用多種運算,將信號轉化為特征向量。然后分兩個階段用深度神經網絡(DNN,僅包含全連接層)訓練。第一階段是以高/低喚醒值或者正/負效價值二分類得到一個中間向量,然后再進行情緒的七分類。如果僅使用單階段DNN進行七分類,準確率為42.08%,使用雙階段DNN訓練,準確率最高可達42.57%,提高了0.49%(論文中此項數據有誤)。
2 AVEC
AVEC是ACM MultiMedia的子活動。挑戰賽舉辦的目的是為多模態信息處理提供通用的基準測試集,并將基于聽覺,視覺和視聽覺情緒識別社區聚集在一起,從而能在確定的條件下對不同的健康和情感分析方法的進行相互比較。同時希望借助這個比賽能改進健康和情緒識別系統,以便能夠處理大量的未細分、非原型和非預選數據中的完全自然行為,因為這正是現實條件下多媒體和人機交互必須面對的問題。所有比賽參與者都必須在完全相同的條件下競爭,以比較各自用于自動聽覺、視覺以及視聽覺健康和情緒感知的多媒體處理和機器學習方法。
tips:AVEC各項子挑戰各種基準實驗做得比較詳盡,因此baseline建議去每一年的總結性論文查看;同時AVEC各項子挑戰跟前幾年的相關性較強,單獨看某一年的任務,會比較難理解。
AVEC 2018
AVEC 2018包含三個子挑戰:
---雙向情感障礙子挑戰(Bipolar Disorder Subchallenge,BDS)
---跨文化情緒子挑戰(Cross-cultural Emotion Sub-challenge,CES)
---“黃金標準”情緒子挑戰(Gold-standard Emotion Sub-challenge ,GES)。
雙向情感障礙子挑戰。在此項任務中,參與者必須根據年輕躁狂癥評分量表(Young Mania Rating Scale,YMRS)將躁狂發作后入院并出院的BD患者分為躁狂癥,低躁狂癥和緩解三類。數據集采用的是BD corpus [10]。數據集包含的47位BD患者從入院到出院之日定期錄制的訪談視聽記錄。該問題被定為三分類問題,評價指標是這三類的未加權平均召回率(Unweighted Average Recall,UAR)。
跨文化情緒子挑戰。在此項任務中,參與者必須從視頻對話數據集中,借助一種文化的數據,跨文化(德國-->匈牙利)去連續預測另一種文化的三個情感維度(喚醒值,效價值和喜好值)的水平。數據集在SEWA [11] 的基礎上進行跨文化的拓展。評價指標是在維度上平均的一致性相關系數(total Concordance Correlation Coeffcient,CCC)。
“黃金標準”情緒子挑戰。該項挑戰要求參與者融合由多個注釋者提供按時間連續的情緒維度標注生成可靠的“黃金標準”。然后,將獲得的標簽用于訓練和評估基于RECOLA數據集的基準多模態情感識別系統 [12]。該數據集包括法國人交互時的視聽和生理記錄,標簽由法語為母語的標注者的標注。評價指標是在維度上平均的一致性相關系數(total Concordance Correlation Coeffcient,CCC)。
AVEC 2019
AVEC 2019包含三個子挑戰:
---心理狀態子挑戰(State-of-Mind Sub-challenge,SoMS)
---AI檢測抑郁癥子挑戰(Detecting Depression with AI Sub-challenge,DDS)
---跨文化情緒子挑戰(Cross-cultural Emotion Sub-challenge,CES)。
tips:跨文化情緒子挑戰跟AVEC 2018差距不大,只是加多了中國人視頻對話數據,因此不再另外補充。
心理狀態子挑戰。此項任務將關注人類持續適應的心理狀態(State-of-Mind,SOM)。SOM對于人的心理功能和行為調節至關重要。人類的SOM由于內部和外部刺激而不斷變化,習慣性使用適應性或適應不良性SOM會影響心理健康。參賽者需要從視聽記錄的個人敘述中預測報敘述者的情緒。使用的是 Ulm State-of-Mind in Speech (USoMS) 數據集 [13]。采用的是評價指標是一致性相關系數(Concordance Correlation Coefficient,CCC)。(tips:在介紹了是用“audiovisual record”的字眼描述這個任務,但是在數據集公布的論文[13]中貌似只有音頻信息。)
AI檢測抑郁癥子挑戰。此項任務會給定被采訪者與AI虛擬采訪人員的對話,參賽者需要通過這些對話去評估被采訪者的抑郁嚴重程度。數據集是Distress Analysis Interview (DAIC) [14] 的一個子集Wizard-of-Oz。這個子集只包含被采訪者與虛擬采訪人員的對話,因此也只有語音數據。采用的是評價指標是一致性相關系數(Concordance Correlation Coefficient,CCC)
3 MuSe
2020 ACM MultiMedia里有關情感挑戰的Workshop不再是AVEC,而是換成了MuSe(Multimodal Sentiment Analysis)。最主要的區別是,MuSe關注的內容增加了基于文本的情感分析,突出三種模態(視覺、聽覺、文本)方法的對比以及融合。過往的比賽要么專注于視聽的方式,將情感轉化為連續的喚醒度或者效價度,但這經常忽略文本信息的潛在貢獻;要么專門研究用于符號信息分析的NLP方法去完成離散情感標簽類別的預測。這兩大類情感分析的方法有很多相似的地方,尤其是都受到深度學習方法的巨大影響,因此如果綜合三種模態的信息,對于真實場景下的情感識別可能會有明顯的提升。
2020年包含了三個子挑戰,與以往AVEC不同的是,三個子挑戰使用的數據集是相同的,也是因為這個比賽第一次公布的MuSe-CaR數據集。該數據集是包含著有三種模態標注的信息。比較神奇的是,雖然挑戰主題是情緒識別,但是該數據集主題卻是與汽車相關的,所探究的情緒,更多關注是車主對其愛車的”情緒“或者他自身駕駛的情緒狀態,因此比賽呈現出來的商業性質稍微濃了一點。
MuSe三個子挑戰分別為:
---Multimodal Sentiment in-the-Wild Sub-challenge(MuSe-Wild):參賽者必須從視聽數據中連續地預測情緒維度(喚醒-效價)的水平。
---Multimodal Emotion-Target Sub-challenge (MuSe-Topic):參賽者預測視頻中討論特定主題(10類,一般信息,成本,性能,質量和美學,安全,舒適,外觀特征,內部特征,操作/駕駛體驗,用戶體驗)以及每段視頻討論者的喚醒、效價值的程度(高、中、低)。
---Multimodal Trustworthiness Sub-challenge (MuSe-Trust):參賽者需預測視聽數據的可信程度。
除了上述比賽,比較有名的還有每年Conference on Automatic Face and Gesture Recognition(FG)下的各種Workshop以及Challenge/Competition,更多情緒識別的相關內容,請參考:https://github.com/EvelynFan/AWESOME-FER
4 參考文獻
[1] 鄔晶晶. 基于深度學習的情緒識別技術[D].中國科學院大學(中國科學院深圳先進技術研究院),2020.
[2] Dhall A, Joshi J, Sikka K, et al. The more the merrier: Analysing the affect of a group of people in images[C]//2015 11th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2015, 1: 1-8.
[3] Kaur A, Mustafa A, Mehta L, et al. Prediction and localization of student engagement in the wild[C]//2018 Digital Image Computing: Techniques and Applications (DICTA). IEEE, 2018: 1-8.
[4] Dhall A, Goecke R, Lucey S, et al. Collecting large, richly annotated facial-expression databases from movies[J]. IEEE multimedia, 2012 (3): 34-41.
[5] Ghosh S, Dhall A, Sebe N, et al. Predicting group cohesiveness in images[C]//2019 International Joint Conference on Neural Networks (IJCNN). IEEE, 2019: 1-8.
[6] Whitehill J, Serpell Z, Lin Y C, et al. The faces of engagement: Automatic recognition of student engagementfrom facial expressions[J]. IEEE Transactions on Affective Computing, 2014, 5(1): 86-98.
[7] Ghosh S, Dhall A, Sharma G, et al. Speak2Label: Using Domain Knowledge for Creating a Large Scale Driver Gaze Zone Estimation Dataset[J]. arXiv preprint arXiv:2004.05973, 2020.
[8] Liu Y, Gedeon T, Caldwell S, et al. Emotion Recognition Through Observer's Physiological Signals[J]. arXiv preprint arXiv:2002.08034, 2020.
[9]https://www.linkedin.com/pulse/photoplethysmography-ppg-kaveh-mohamadabadi
[10] ?ift?i E, Kaya H, Güle? H, et al. The turkish audio-visual bipolar disorder corpus[C]//2018 First Asian Conference on Affective Computing and Intelligent Interaction (ACII Asia). IEEE, 2018: 1-6.
[11] Kossaifi J, Walecki R, Panagakis Y, et al. SEWA DB: A rich database for audio-visual emotion and sentiment research in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019.
[12] Ringeval F, Sonderegger A, Sauer J, et al. Introducing the RECOLA multimodal corpus of remote collaborative and affective interactions[C]//2013 10th IEEE international conference and workshops on automatic face and gesture recognition (FG). IEEE, 2013: 1-8.
[13] Rathner E M, Terhorst Y, Cummins N, et al. State of mind: Classification through self-reported affect and word use in speech[C]//INTERSPEECH. 2018: 267-271.
[14] Gratch J, Artstein R, Lucas G M, et al. The distress analysis interview corpus of human and computer interviews[C]//LREC. 2014: 3123-3128.
總結
本文分享了計算機視覺領域中圍繞情緒識別主題的一些會議和相關競賽,了解到當前國內外在情緒識別領域研究的熱點。到這里,人臉表情識別專欄內容就已全部更新完畢。由于筆者研究范圍有限加上時間的原因,像基于人臉活動單元的人臉表情識別以及一些更小眾的表情識別領域就沒有涵蓋到專欄之中。同時當前專欄僅含理論上的分析,還缺乏實踐性的指導,如果還有條件,就等之后再來更新了~
最后感謝有三AI提供的平臺,感謝三哥在專欄更新過程中給予的耐心指導,希望本專欄內容能夠對研究該領域的小伙伴有所幫助,也希望有三AI越來越好,共勉~
有三AI秋季劃-人臉圖像組
人臉圖像小組需要掌握與人臉相關的內容,學習的東西包括8大方向:人臉檢測,人臉關鍵點檢測,人臉識別,人臉屬性分析,人臉美顏,人臉編輯與風格化,三維人臉重建。了解詳細請閱讀以下文章:
【CV秋季劃】人臉算法那么多,如何循序漸進地學習好?
轉載文章請后臺聯系
侵權必究
往期精選
【人臉表情識別】基于圖片的人臉表情識別,基本概念和數據集
【人臉表情識別】如何做好表情識別任務的圖片預處理工作
【人臉表情識別】不得不讀的重要論文推薦(2015-2018篇)
【人臉表情識別】不得不讀的重要論文推薦(2019-2020篇)
【人臉表情識別】基于視頻的人臉表情識別數據集與基本方法
【人臉表情識別】基于視頻的人臉表情識別不得不讀的論文
【人臉表情識別】基于回歸模型的人臉表情識別方法
【CV秋季劃】模型優化很重要,如何循序漸進地學習好?
【CV秋季劃】人臉算法那么多,如何循序漸進地學習好?
【CV春季劃】170分鐘學習OpenCV與經典圖像處理算法基礎
【CV秋季劃】人臉關鍵點檢測,人臉識別視頻更新
【CV秋季劃】人臉檢測,活體人臉檢測,偽造人臉檢測視頻更新
【CV秋季劃】人臉識別經典難題介紹,抗遮擋,跨年齡,異質源,少樣本等
【CV秋季劃】人臉三維重建視頻更新
【CV秋季劃】人臉年齡,表情,姿態等屬性識別視頻更新
【CV秋季劃】人臉美顏與風格化視頻上新
【CV秋季劃】人臉編輯之統一屬性編輯方法視頻更新
【CV秋季劃】人臉編輯之表情,年齡,姿態編輯方法視頻更新
【CV秋季劃】深度學習換臉算法視頻更新
總結
以上是生活随笔為你收集整理的【人脸表情识别】情绪识别相关会议、比赛汇总(2018-2020)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【直播课】有三AI直播答疑服务上线,如何
- 下一篇: 【杂谈】从CV小白到人脸表情识别专栏作者