When 多模态 meets 信息抽取
?PaperWeekly 原創(chuàng) ·?作者 | 寧金忠
單位 | 大連理工大學(xué)
研究方向 | 信息抽取
都 2222 年了,信息抽取領(lǐng)域早已經(jīng)是諸神黃昏。然而,多模態(tài)方法的興起給這個卷成麻花的領(lǐng)域帶來的新的希望。就像陽光穿過黑夜,黎明悄悄劃過天邊,既然新的多模態(tài)風(fēng)暴已經(jīng)出現(xiàn),我們怎能停滯不前?
讓我們通過本文了解一下信息抽取領(lǐng)域中多模態(tài)方法的最新進(jìn)展。本文分為兩大主要章節(jié),第一章介紹多模態(tài)關(guān)系抽取任務(wù)(Multimodal Neural Relation Extraction, MNRE),第二章介紹多模態(tài)命名實(shí)體識別任務(wù)(Multimodal Named Entity Recognition MNER)。
多模態(tài)關(guān)系抽取
任務(wù)介紹:多模態(tài)關(guān)系抽取任務(wù)的一個例子如下圖所示。和基于文本的關(guān)系抽取方法相比,其他模態(tài)數(shù)據(jù)(例如圖片)中的提示信息有利于性能的提升。
1.1 MNRE
論文標(biāo)題:
MNRE: A Challenge Multimodal Dataset for Neural Relation Extraction with Visual Evidence in Social Media Posts
收錄會議:
ICME 2021
論文鏈接:
https://ieeexplore.ieee.org/document/9428274
代碼鏈接:
https://github.com/thecharm/MNRE
Motivation:關(guān)系抽取模型在面對社交媒體領(lǐng)域中長度偏短且缺少有效內(nèi)容的文本時表現(xiàn)乏善可陳。同樣,遠(yuǎn)程監(jiān)督方法面對這種情景也顯得力不從心。于是,尋找文本之外的內(nèi)容來補(bǔ)充文本信息勢在必行。
Contribution:
- 作者首次提出了多模態(tài)關(guān)系抽取這個任務(wù),即利用圖片中的視覺內(nèi)容來對文本中缺失的信息進(jìn)行補(bǔ)充。 
- 作者構(gòu)建并發(fā)布了一個人工標(biāo)注的多模態(tài)關(guān)系抽取數(shù)據(jù)集。該數(shù)據(jù)集包含 10089 條實(shí)例,包含 31 中關(guān)系類別。 
- 作者提出了幾個多模態(tài)關(guān)系抽取的 baseline。 
作者選擇 Glove+CNN,BERTNRE,BERT+CNN 為本文的對比實(shí)驗(yàn)。在三個對比實(shí)驗(yàn)的基礎(chǔ)上分別增加 Image Labels、Visual Objects、Visual Attention 做為多模態(tài)關(guān)系抽取的基準(zhǔn)模型。
1.2 Mega
論文標(biāo)題:
Multimodal Relation Extraction with Efficient Graph Alignment
收錄會議:
ACM MM 2021
論文鏈接:
https://dl.acm.org/doi/abs/10.1145/3474085.3476968
代碼鏈接:
https://github.com/thecharm/Mega
Motivation:使用 image-related information 對純 text-based 信息中的缺失內(nèi)容進(jìn)行補(bǔ)充,從而提升社交媒體領(lǐng)域的關(guān)系抽取任務(wù)的性能。
Method:
對于輸入文本,作者使用 BERT 作為語義特征編碼器。除此之外,作者使用句法解析工具提取了文本的句法解析樹。對于輸入圖片,作者提取出其中目標(biāo)的? scene graph。作者使用雙流模型結(jié)構(gòu)分別從圖關(guān)系結(jié)構(gòu)和語義兩個方面來對齊文本和圖像兩個模態(tài)的信息。在模態(tài)特征融合階段,作者把包含雙模態(tài)的圖結(jié)構(gòu)對齊信息和語義表示對齊信息融合成一個向量,然后將其與頭尾實(shí)體的表示向量進(jìn)行拼接,最終得出關(guān)系的預(yù)測。
多模態(tài)命名實(shí)體識別
相比于多模態(tài)關(guān)系抽取任務(wù),多模態(tài)多模態(tài)命名實(shí)體(MNER)任務(wù)由于起步較早已經(jīng)涌現(xiàn)出了較多的工作。本章節(jié)中,我們把多模態(tài)命名實(shí)體識別任務(wù)按照使用的模態(tài)劃分為:(1)基于語音-文本的 MNER(2)基于漢字結(jié)構(gòu)特征 MNER(3)基于圖片-文本的 MNER。
2.1 基于語音-文本的MNER
論文標(biāo)題:
A Large-Scale Chinese Multimodal NER Dataset with Speech Clues
收錄會議:
ACL 2021
論文鏈接:
https://aclanthology.org/2021.acl-long.218
代碼鏈接:
https://github.com/dianbowork/cnerta
Motivation:
由于中文缺少天然的分詞間隔,中文 NER 任務(wù)面臨著比較大的挑戰(zhàn)。語音中包含的停頓信息對于確定中文的分詞邊界具有很大的潛在的價值。例如上圖所示的“南京市長江大橋”這個例子。
Method:
作者構(gòu)建了一個包含語音和文本數(shù)據(jù)的中文 MNER 數(shù)據(jù)集,其中包含 34102 條訓(xùn)練樣本,測試集數(shù)量為 4445,開發(fā)集容量為 4440。
作者使用 BERT 作為文本特征編碼器,使用 CNN 下采樣的梅爾濾波器組特征作為語音特征表示。文中提出的模型使用多任務(wù)學(xué)習(xí)的方法來對齊和融合模型特征。模型包含 CRF loss 和 masked CTC loss 兩部分。對于 masked CTC loss 的獲得,首先把語音特征表示會輸入到一個 Transformer 模塊進(jìn)行編碼,然后使用語音識別領(lǐng)域中常用的 CTC loss 進(jìn)行語音和文本的對齊。
由于模型重點(diǎn)關(guān)注于同一條數(shù)據(jù)中語音和文本的對齊,作者提出了 masked CTC loss,將 CTC 對齊結(jié)果里沒有在文本中出現(xiàn)的字的概率置為負(fù)無窮。這樣操作將 CTC 的對齊結(jié)果限制到了文本的詞匯之內(nèi)。對于 CRF loss 的獲取,作者使用多模態(tài)領(lǐng)域常用的 Cross-Transformer 將 masked CTC loss 約束的語音表示和文本表示進(jìn)行交叉融合,得到語音信息輔助的文本表示,然后經(jīng)過 CRF 層得到 CRF loss。最終,CRF loss 和 masked CTC loss 相加進(jìn)行聯(lián)合訓(xùn)練。
2.2 使用漢字結(jié)構(gòu)信息的MNER
漢字屬于象形文字,漢字的結(jié)構(gòu)中具有語義相關(guān)的信息。例如包含部首“疒”的漢字,例如,“病”,“痙”等漢字可能代表某些疾病。因此,利用漢字的結(jié)構(gòu)信息具有提升命名實(shí)體識別性能的潛力。
2.2.1 Glyce
論文標(biāo)題:
Glyce: Glyph-vectors for Chinese Character Representations
收錄會議:
NeurlPS 2019
論文鏈接:
https://arxiv.org/abs/1901.10125
代碼鏈接:
https://github.com/ShannonAI/glyce
Motivation:將漢字圖片的視覺特征融合進(jìn)模型以提升 NLP 任務(wù)。
Method:
由于簡體字經(jīng)過了簡化,其結(jié)構(gòu)體現(xiàn)出的語義信息變少,作者使用隸屬,繁體字等古漢字的文字圖片來編碼漢字結(jié)構(gòu)信息。
作者設(shè)計(jì)了一種名叫“田字格 CNN”的 CNN 結(jié)構(gòu)進(jìn)行漢字圖片的特征提取。輸入的漢字圖像以此經(jīng)過上圖所示的卷積層,max-pooling 層,卷積層。最后經(jīng)過一個? group convolutions 得到最終的輸出——Glyph Embedding。作者在文中解釋到,使用尺寸較小的 group convolutions 可以防止過擬合,并且在全體漢字上具有較好的泛化性能。
關(guān)于 Glyph Emb 和 BERT 輸出向量的融合,作者把 Glyph Emb 和其對應(yīng)的位置編碼向量進(jìn)行相加,然后與 BERT 拼接到一起。
使用漢字圖片的分類任務(wù)作為一個 auxiliary 任務(wù)和下游的 nlp 任務(wù)聯(lián)合訓(xùn)練。以 NER 任務(wù)為例,模型的損失函數(shù)由漢字圖片分類任務(wù)和 CRF loss 加權(quán)相加得到。
2.2.2 MECT
論文標(biāo)題:
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition
收錄會議:
ACL 2021
論文鏈接:
https://arxiv.org/abs/2107.05418
代碼鏈接:
https://github.com/CoderMusou/MECT4CNER
Motivation:使用漢字的部首特征來提升命名實(shí)體識別模型的性能。
▲ MECT
Method:作者把文本中的每個漢字拆解成部首,然后使用 CNN 提取漢字的部首特征。把漢字和文本中匹配上的詞匯,作為文本的一個特征。作者把漢字的部首特征看做文本的另外一個模態(tài)。對于兩個模態(tài)的特征,作者使用多模態(tài)領(lǐng)域中常用的 two-stream Cross-Transformer 來進(jìn)行特征的融合。作者在 Cross-Transformer 中引入相對位置信息和 Random Attention 增強(qiáng)模型的表達(dá)能力。
2.2.3 ChineseBERT
論文標(biāo)題:
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information
收錄會議:
ACL 2021
論文鏈接:
https://arxiv.org/abs/2106.16038
代碼鏈接:
https://github.com/ShannonAI/ChineseBert
motivation:使用漢字的 Glyph embedding 來提升命名實(shí)體識別模型的性能。
method:
對于同一個漢字,作者使用漢字的詞向量,漢字圖片的特征表示和拼音的特征表示這三個模態(tài)的特征得到一個漢字的融合特征。作者將三個模態(tài)的特征向量拼接,然后經(jīng)過線性層進(jìn)行特征的融合表示。
作者將漢字的多模態(tài)融合特征輸入到一個 BERT 當(dāng)中,然后使用大規(guī)模語料從頭進(jìn)行預(yù)訓(xùn)練。作者在預(yù)訓(xùn)練的過程中,使用了 Whole WordMasking(WWM) and Char Masking(CM)策略。
2.3 使用圖片-文本的MNER
社交媒體用戶產(chǎn)生的文本具有噪音大,長度短等特點(diǎn)。因此社交媒體的命名實(shí)體識別面臨著很大挑戰(zhàn)。然而,社交媒體上的配圖可以作為文字的補(bǔ)充可以結(jié)合文字中的信息共同提升多模態(tài) NER 任務(wù)。
2.3.1 MNER
論文標(biāo)題:
Multimodal Named Entity Recognition for Short Social Media Posts
收錄會議:
NAACL 2018
論文鏈接:
https://arxiv.org/abs/1802.07862
Method:
作者首次提出了多模態(tài)命名實(shí)體識別(MNER)任務(wù),并且發(fā)布了一個 MNER 數(shù)據(jù)集 SnapCaption。
作者將詞匯的詞向量,詞匯的字符信息以及 Inception 提取的目標(biāo)特征融合到三個模態(tài)的通過一個注意力機(jī)制融合到一起,當(dāng)做詞匯的多模態(tài)融合特征,然后使用 Bilstm+CRF 來編碼出 NER 標(biāo)簽。
2.3.2 NERmultimodal
論文標(biāo)題:
Adaptive co-attention network for named entity recognition in tweets
收錄會議:
AAAI 2018
論文鏈接:
https://ojs.aaai.org/index.php/AAAI/article/view/11962
代碼鏈接:
https://github.com/jlfu/NERmultimodal
method:作者首次提出字 MNER 任務(wù)上使用 co-attention 進(jìn)行融合視覺和文本兩個模態(tài)的特征,啟發(fā)了日后使用 Cross-Transformer 來進(jìn)行信息抽取領(lǐng)域中視覺-文本特征的融合的工作。作者使用 Char 表示和 word 表示進(jìn)行拼接,作為文本的語義特征表示。然后使用雙向 LSTM 進(jìn)行序列編碼。
對于圖像,作者使用 VGG-NET16 進(jìn)行圖像特征編碼。之后,作者提出了 Co-attention 得到 Word-Guided Visual Attention 和 Image-Guided Textual Attention,然后使用注意力機(jī)制融合兩個 attention。這是初代的 two-stream 多模態(tài)模型。
2.3.3 UMT
論文標(biāo)題:
Improving Multimodal Named Entity Recognition via Entity Span Detection with Unified Multimodal Transformer
收錄會議:
ACL 2020
論文鏈接:
https://aclanthology.org/2020.acl-main.306
代碼鏈接:
https://github.com/jefferyYu/UMT
Method:作者提出使用統(tǒng)一的 Transformer 結(jié)構(gòu)來進(jìn)行多模態(tài)信息的交互。作者使用三個 cross transformer 分別獲得圖像指導(dǎo)的文本表示、文本指導(dǎo)的圖像表示以及文本模態(tài)內(nèi)部的交互表示。作者在兩個模態(tài)信息交互的過程中通過一個 Visual Gate 動態(tài)控制兩個模態(tài)之間的交互。除此之外,作者還附加了一個實(shí)體范圍識別的任務(wù)作為 auxiliary 任務(wù),通過多任務(wù)的方式訓(xùn)練模型。
2.3.4 RIVA
論文標(biāo)題:
RIVA: A Pre-trained Tweet Multimodal Model Based on Text-image Relation for Multimodal NER
收錄會議:
COLING 2020
論文鏈接:
https://aclanthology.org/2020.coling-main.168
Motivation:在模型中引入判斷圖像-文本關(guān)系的部分來應(yīng)對社交媒體數(shù)據(jù)存在“圖文無關(guān)”現(xiàn)象。
Method:
作者的總體思路為:搭建模型,利用文本和圖像兩種模態(tài)的信息,得到一個融合雙模態(tài)的文本表示。然后作者利用雙模態(tài)的文本表示在數(shù)據(jù)集上使用自監(jiān)督的方式預(yù)訓(xùn)練出一個語言模型。具體來看,作者使用 Bilstm 編碼文字的表示,使用 resnet 編碼圖像的表示。RGN 是用來判斷圖文關(guān)系的模塊,作者使用在 Bloomberg 圖文匹配數(shù)據(jù)集上訓(xùn)練的一個模型當(dāng)做 teacher 模型,RGN 模塊當(dāng)做teacher模型來得到預(yù)訓(xùn)練的圖文關(guān)系判斷能力。
VCN 和 Transformer 中的多頭注意力部分類似,使用文本信息當(dāng)做 query,圖像信息當(dāng)做 key 和 value,得到的是視覺信息指導(dǎo)的文本表示序列,然后通過一個線性層得到?。 和圖文關(guān)系調(diào)節(jié)因數(shù)? 相乘得到視覺向量?。 在前向 lstm 中當(dāng)做頭向量,在后向 lstm 中當(dāng)做尾向量,最終的輸出為文本的最終表示。然后使用 Next word prediction 方式對模型進(jìn)行預(yù)訓(xùn)練。
預(yù)訓(xùn)練完成后,模型在 MNER 任務(wù)上進(jìn)行微調(diào),使用最終的文本圖像融合表示和詞向量,拼接,輸入到 LSTM 中。
2.3.5 RpBERT
論文標(biāo)題:
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER
收錄會議:
AAAI 2021
論文鏈接:
https://arxiv.org/abs/2102.02967
代碼鏈接:
https://github.com/Multimodal-NER/RpBERT
method:作者使用了一個共享參數(shù)的多模態(tài) BERT 結(jié)構(gòu)——RpBERT,來同時完成圖像-文本關(guān)系判斷以及圖像文本特征的融合。詞特征和 resnet 編碼的圖特征,通過 [SEP] 符號相連,輸入到 rpBERT 中,輸出的 [CLS] 表示向量用來圖像文本分類。和上一篇論文相同,作者同樣使用一個外部的數(shù)據(jù)集上訓(xùn)練了圖像文本關(guān)系分類器。之后作者根據(jù)圖文關(guān)系的置信度乘以視覺表示,連同詞向量一同輸入到 RpBERT 進(jìn)行 NER 任務(wù)的訓(xùn)練。
2.3.6 UMGF
論文標(biāo)題:
Multi-modal Graph Fusion for Named Entity Recognition with Targeted Visual Guidance
收錄會議:
AAAI 2021
論文鏈接:
https://ojs.aaai.org/index.php/AAAI/article/view/17687
代碼鏈接:
https://github.com/TransformersWsz/UMGF
Motivation:使用圖像中檢測出來的 objects 和文本模態(tài)進(jìn)行交互和融合。
Method:和之前的 MNER 任務(wù)使用的圖像劃分方案不同,本文的作者使用圖像目標(biāo)檢測器檢測出的 objects 作為圖像模態(tài)的交互單元。作者使用圖神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)多模態(tài)的交互。在構(gòu)圖過程中,每個圖像目標(biāo)作為一個圖像節(jié)點(diǎn),每個詞當(dāng)做一個文本節(jié)點(diǎn)。除此之外,作者使用了句法解析器來輔助構(gòu)圖。使用圖神經(jīng)網(wǎng)絡(luò)交互過的兩個模態(tài)的單元再使用一個雙流的 cross-transformer 級聯(lián)一層交叉的門控機(jī)制,然后再經(jīng)過一個線性層和 CRF,得到最終輸出。
總結(jié)與展望
本章節(jié)為開放環(huán)節(jié),歡迎各位小伙伴把自己的想法發(fā)到評論區(qū),供大家討論交流。
特別鳴謝
感謝 TCCI 天橋腦科學(xué)研究院對于 PaperWeekly 的支持。TCCI 關(guān)注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實(shí)驗(yàn)室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競賽經(jīng)驗(yàn)講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺已發(fā)表或待發(fā)表的文章,請明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競爭力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯(lián)系方式(微信),以便我們在稿件選用的第一時間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的When 多模态 meets 信息抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 出发点和落脚点是什么意思区别(出发点和落
- 下一篇: 感觉性失语病变部位(感觉性失语损伤部位)
