论文浅尝 | 利用冻结语言模型的多模态少样本学习
筆記整理 |? 李磊,浙江大學碩士,研究方向為自然語言處理
鏈接:https://arxiv.org/abs/2106.13884
動機
大規模的自回歸語言模型(如GPT)在預訓練階段學習到了大量的知識,具有很好的學習新任務的能力,給定幾個“任務示例”,模型可以很快的學習到任務形式并回答新問題,但這種能力僅限于文本領域。
Prompt tuning通過添加提示信息,充分挖掘預訓練語言模型蘊含的知識,在few-shot場景下取得了良好的效果。
作者提出了Frozen, 利用Visual Encoder對圖片進行編碼,編碼得到的結果作為prompt與文本一起送入語言模型中,試圖將大規模語言模型和prompt應用于多模態領域。在VQA、OKVQA、miniImageNet等多個數據集的多模態few-shot場景下進行了實驗,結果表明Frozen有效的利用了預訓練語言模型的先驗知識,具有很好的遷移學習能力、
模型結構
圖 1模型結構圖
如圖1所示,模型結構主要分為兩個部分:
1.預訓練自回歸語言模型
在公共數據集C4上預訓練一個基于transformer結構的深度自回歸語言模型,模型具有70億參數。
2.視覺編碼器
基于NF-ResNet-50,主要功能是將原始的圖片映射為連續的序列以便transformer模型進行處理。將NF-Resnet全局池化層后的結果作為最終輸出向量。
受Prefix-tuning的啟發,作者將視覺編碼器的輸出作為視覺prefix,與文本一起送入語言模型中。這種方式將靜態的文本prefix轉換成動態的視覺prefix,輸入的圖片不同,產生的視覺prefix也不同,從而更好地“提示”語言模型。
訓練
如圖1所示,訓練時采用image-caption數據集,輸入是(圖片,文本)對,以生成式的方式輸出對圖片的描述文本信息。訓練過程中凍結語言模型,僅訓練視覺編碼器。在k-shot場景下,需要給出幾個示例,因此模型的輸入可能會包含多個(圖片,文本)對,作者使用相對位置編碼使圖文始終在對應文本之前。
實驗
作者以下三個角度進行了實驗:1.Rapid Task Adaptation. 2.Encyclopedic Knowledge. 3.Fast Concept Binding
1.Rapid Task Adaptation
圖 2 Rapid Task Adaptation結果
測試在image-caption上訓練的模型在VQA數據集上的表現并設置了多個對照模型。Frozen scratch表示語言模型是隨機初始化的,Frozen finetuned 表示語言模型使用預訓練權重,Frozen train-blind 控制視覺編碼器的輸入始終是黑色圖像。可以發現Frozen隨著提供示例(n)的增多,效果有所提升。
2.Encyclopedic Knowledge
圖 3 Encyclopedic Knowledge結果
此部分測試了Frozen在需要外部知識的OKVQA數據集上的表現,Frozen同樣在Image-caption上進行訓練。同時比較了語言模型大小對結果的影響(Frozen 400mLM)。
3.Fast Concept Binding
圖 4 Fast Concept Binding輸入示例
如圖4所示,將blicket和dax等無實際意義的詞與某一事物類別進行綁定,同時給出幾個示例,測試模型是否具有概念綁定的能力。
圖 5 概念數等于2時的結果
圖 6 概念數等于5時的結果
作者還進一步測試了概念綁定與外部知識結合的場景下Frozen的效果。
隨著任務難度增加,Frozen的效果也有所下降,但提供的示例數增加的時候,Frozen能從示例中提取到相關知識,指導結果的生成。
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 | 利用冻结语言模型的多模态少样本学习的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里架构师进阶23期精讲:Redis、K
- 下一篇: 论文浅尝 | 融入知识的弱监督预训练语言