AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记
目錄
- 簡(jiǎn)介
- 動(dòng)機(jī)
- 方法
- 實(shí)驗(yàn)
簡(jiǎn)介
本文是POSTECH和Kakao合作的一篇文章。
論文鏈接
動(dòng)機(jī)
異常檢測(cè)有助于提升模型的穩(wěn)定性和可靠性,也就是魯棒性,OOD問題也可以視為一種異常。但是,單模態(tài)的異常檢測(cè)(MSP)并不能輕易的使用到VQA這種多模態(tài)任務(wù)中。作者提出了一種基于attention的方法(MAP),可以對(duì)VQA中的五種異常進(jìn)行檢測(cè)。
方法
首先,作者將VQA任務(wù)中的異常情況分為五種,也就是五個(gè)TASK。
- TASK1~TASK3
這三個(gè)TASK很好理解,就是在輸入的視覺信息VVV和語言信息QQQ中,至少有一類是來自于OOD的。 - TASK4
TASK4指的是:VVV和QQQ不相關(guān)。即:難以建立兩個(gè)模態(tài)之間的關(guān)聯(lián)。 - TASK5
TASK5指的是:通過VVV和QQQ得到的AAA是OOD的。即:答案AAA是未定義的。
結(jié)合下面這幾種異常示例,可以便于理解。
傳統(tǒng)的單模態(tài)異常檢測(cè)方法,使用softmax\text{softmax}softmax判斷模型輸出的置信度,當(dāng)置信度低于閾值時(shí),則認(rèn)為發(fā)生了異常。但是這種方法不適用于VQA任務(wù),主要有兩方面原因:① 置信度是基于p(a∣v,q)p(a|v,q)p(a∣v,q)計(jì)算的,對(duì)前四種TASK無法區(qū)分;② 進(jìn)行多模態(tài)特征融合后,原本的OOD可能會(huì)消失,即:VVV和QQQ的OOD在進(jìn)行特征融合后表現(xiàn)為ID。
所以,作者提出了基于attention的異常檢測(cè)方法。本質(zhì)是使用VVV中每個(gè)region和QQQ中每個(gè)word的加權(quán)attention計(jì)算score。為了防止attention對(duì)異常過于strong,作者添加了正則項(xiàng),顯式地finetune模型。
實(shí)驗(yàn)
提升了模型的魯棒性,但降低了精度。
對(duì)于OOD問題(TASK1~TASK3),檢測(cè)能力具有大幅提升。
對(duì)于TASK4:
對(duì)于TASK5:
總結(jié)
以上是生活随笔為你收集整理的AAAI 2021 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: EMNLP 2020 《MUTANT:
- 下一篇: python输出到文件