Visual Question Answering概述
目錄
- 任務描述
- 應用領域
- 主要問題
- 主流框架
- 常用數據集
- Metrics
部分數據集介紹摘自這篇博客
任務描述
- 輸入:圖片III、由nnn個單詞組成的問題Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1?,...,qn?}
- 輸出:由mmm個單詞組成的問題的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1?,...,am?}
應用領域
- 盲人導航
- 圖靈測試
主要問題
-
魯棒性差
模型的魯棒性差可多個方面體現,如缺乏可解釋性、回答不一致等。造成這個問題的原因也是多方面的,如訓練集和測試集的分布不同、語言先驗等。所以魯棒性差算是一個比較籠統、大范圍的概念。
已有方法:反事實、遷移學習、場景圖等(太多方法可以提高模型的魯棒性了)
參考文獻:[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing -
可解釋性
已有方法:關系推理、場景圖
參考文獻:[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning -
回答一致性
已有方法:新數據集VQA-Rephrasings、SQuINTing
參考文獻:[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions -
訓練集和測試集分布不一致(衍生問題:出現out-of-vocabulary answer)
已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、遷移學習、反事實
參考文獻:[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
? ? ? ? ? ? ? ? ?[3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering -
語言先驗
已有方法:問題分解
參考文獻:[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
? ? ? ? ? ? ? ? ?[2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering -
跨模態交互(新視角)
已有方法:轉化為機器閱讀理解任務、提取不同模態信息的summarizations
參考文獻:[1] CVPR 2019 Visual Question Answering as Reading Comprehension
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering -
domain拓展性
已有方法:No Questions-Answers Training(使用問題圖生成問題,構造無意義的答案)
參考文獻:[1] CVPR 2020 VQA with No Questions-Answers Training -
組合泛化
已有方法:NMNs、neural factor graphs
參考文獻:[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2016 Neural Module Networks
主流框架
①. 使用faster rcnn提取圖片中的regions
②. 使用LSTM/Transformer對question進行encode
③. 跨模態交互,得到answer
常用數據集
- CLEVR,合成數據集,是由一些簡單的幾何形狀構成的視覺場景。數據集中的問題總是需要一長串的推理過程,為了對推理能力進行詳細評估,所有問題分為了5類:屬性查詢(querying attribute),屬性比較(comparing attributes),存在性(existence),計數(counting),整數比較(integer comparison)。
下載鏈接
論文原文 - VQA v1,人工標注的開放式問答數據集,但是VQAv1有很多類語言偏見(bias)。
下載鏈接
論文原文 - VQA v2,人工標注的開放式問答數據集,相較于VQAv1盡量減少了語言偏見(為每個問題補充了圖片),但是仍存在一些偏見。
下載鏈接
論文原文 - VQA-CP v2,該數據集通過將VQA 2.0的訓練集和驗證集重新劃分,得到新的訓練集和測試集,包含219K張圖像數據、658K條問題數據、6.6M答案數據。
下載鏈接
論文原文 - FVQA,該數據集不僅有圖像和QA pairs,還有外部知識(extra knowledge),知識庫有193, 449個事實句子,包含圖像2190張,問題5826個,整個數據集分成了5個train/test集,每個集合包含1100張訓練圖像和1090張測試圖像,分別有2927和2899個問題,問題總共可以分成32類。
下載鏈接
論文原文 - COCO-QA,QA pairs是由NLP算法生成的,圖像來自COCO數據集,一共有78736個訓練QA pairs和38948個測試QA pairs,大部分的問題是關于圖像中的目標(69.84%),其他問題是關于顏色(16.59%),計數(7.47%),位置(6.10%)。所有問題的答案都是一個單詞,只有435個獨一無二的答案。數據集最大的缺點在于QA pairs是用NLP算法生成的,是將長句子劃分成短句子處理的,這就忽視了句子中的語法和從句問題,算法結果不夠智能;另外,數據集只有4類問題。
下載鏈接
論文原文 - TDIUC,該數據集嘗試解決語言偏見,將問題分成了12類。
下載鏈接
論文原文 - Visual Genome,包含圖像108077張和1445233個QA Pairs,圖像來源是YFCC100M和COCO數據集,共有約540萬張圖像中的區域描述信息,這些信息能夠達到精細的語義層次,問題類型是6W(what, where, how, when, who, why),數據集并沒有對訓練和測試數據進行切分。QA的收集有兩種方法,一種是隨意人為提問(會出現相似問題或對圖像全局內容提問),另一種是針對圖像中的特定區域提問。該數據集中沒有二值類問題。
下載鏈接
論文原文 - Visual7W,是Visual Genome的一個子集,包含47,300張圖像。Visual7W的問題主要由What, Where, How, When, Who,Why, and Which構成。Visual7W的問題是多選問題,每個問題都有四個候選答案。
下載鏈接
論文原文 - GQA,2019年提出的數據集,其dataset bias低,重視推理能力和組合式語言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
下載鏈接
論文原文 - VQA-Rephrasing,2019年提出的數據集,注重問題回答一致性。
下載鏈接
論文原文 - SQuINTing,2020年提出的數據集,將問題進行分類,有些問題需要回答“先驗”問題,以保證模型回答的一致性。
下載鏈接
論文原文 - EST-VQA,2020年提出的場景文本數據集。
下載鏈接
論文原文
Metrics
- 準確率:有更細致的劃分——Yes/No、Numbers、Others
- WUPS(n)(Wu-Palmer Similarity):根據兩個單詞在一個分類樹中的最長公共子序列來計算相似性。如果預測單詞和標準答案單詞的相似性低于設定的閾值(n),則候選答案的評分為0。
- Consistency:考察模型回答問題的一致性,對于同一張圖片的不同問題,回答不應該自相矛盾。
- Validity:考察模型回答問題的有效性,如顏色相關的問題,模型的回答應該是一種顏色。
- Plausibility:考察模型回答問題的合理性,如蘋果有紅色和綠色,但是沒有紫色的,所以在問蘋果顏色時,不能出現紫色的答案。
- Distribution:考察預測答案的分布與真實答案的分布之間的距離,如果模型只預測那些經常出現的答案,忽略出現次數少的答案,則此分數較低。
- Grounding:考察模型是否將attention放在了準確的區域。
總結
以上是生活随笔為你收集整理的Visual Question Answering概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Image Captioning概述
- 下一篇: Visual BERT论文的简单汇总