论文浅尝 | 基于异质图交互模型进行篇章级事件抽取
筆記整理:婁東方,浙江大學(xué) & 恒生電子股份有限公司博士后,研究方向為事件抽取
來源:ACL2021
鏈接:https://arxiv.org/abs/2105.14924
GitHub項目地址:https://github.com/RunxinXu/GIT
本文關(guān)注篇章事件抽取——建模篇章信息,從中發(fā)現(xiàn)事件,并抽取事件各角色對應(yīng)屬性?,F(xiàn)有方法主要關(guān)注句子事件抽取(假設(shè)事件屬性分布在同一句內(nèi)/較小文本片段內(nèi)),它們無法適用于事件屬性分散在篇章中多個句子的情形。如下圖所示,
篇章事件抽取問題的挑戰(zhàn)包括事件屬性分散(EO事件中,“Xiaoting Wu”出現(xiàn)在句子3和句子4中,“Nov 6, 2014”則出現(xiàn)在句子1和句子2中)和多事件(關(guān)聯(lián)性事件“股票增持”和“股票減持”)。現(xiàn)有方法DCFEE、Doc2EDAG等一般獨立地抽取事件,忽略它們之間內(nèi)在關(guān)聯(lián)性。
本文提出的Graph-based Interaction Model with a Tracker (GIT)方法基于異質(zhì)圖網(wǎng)絡(luò)完成篇章內(nèi)句子、實體提及之間的交互,并引入tracker跟蹤預(yù)測事件記錄以及role對應(yīng)抽取記錄。試驗證明它能增強實現(xiàn)篇章理解和事件關(guān)聯(lián)建模。
Motivation
針對篇章級事件抽取問題面臨的兩個挑戰(zhàn),作者分別設(shè)計相應(yīng)模塊予以解決。
1.同一事件屬性分散在篇章不同句子,需要對篇章信息充分理解。考慮構(gòu)建句子和實體提及的異質(zhì)圖,將實體之間、句子之間、實體與句子之間的信息建模起來,并應(yīng)用GNN網(wǎng)絡(luò)進(jìn)行編碼,增強實體提及和句子向量表示,篇章理解更細(xì)致;2.建模事件之間的依賴性??紤]將當(dāng)前篇章中已抽取的事件記錄用memory存儲下來,在預(yù)測當(dāng)前事件角色對應(yīng)屬性過程中將memory中的信息考慮進(jìn)來,從而使得事件關(guān)聯(lián)信息被捕捉到。
Model
上圖所示為本文提出GIT事件抽取框架。主要包括如下模塊:
1.句子編碼:將篇章的所有句子進(jìn)行獨立編碼,模型為Transformer結(jié)構(gòu);
2.實體提及預(yù)測:基于句子編碼結(jié)果(每個token表示) + CRF解碼得到每個句子的實體提及預(yù)測結(jié)果;
3.構(gòu)建異質(zhì)圖:
?節(jié)點:句子、候選實體提及(上一步的結(jié)果);
?????邊:句-句關(guān)系(全連接)、句內(nèi)屬性之間關(guān)系(句內(nèi)屬性全連接)、屬性-句關(guān)系(屬性與所在句相連)、跨句同名屬性關(guān)系(篇章同名屬性全連接)
4.GNN編碼器:輸出所有句子和實體提及對應(yīng)的向量表示,它們已捕捉到全篇章信息;
5.事件類型發(fā)現(xiàn):基于多頭機(jī)制將所有句子信息整合起來,獲取每個事件類型對應(yīng)的向量表示,
并采用多標(biāo)簽分類方式學(xué)習(xí)事件類型,對應(yīng)損失函數(shù)為,
6.多事件屬性抽取。如圖所示,抽取步驟及原則如下,
?按照給定事件類型逐個抽取事件(例如,先抽EquityFreeze類型,再抽EquityPledge類型),按照給定角色順序逐個抽取屬性(在EquityFreeze類型的事件中,角色抽取順序為EquityHolder、FrozeShares、StartDate…)?構(gòu)建tracker實時記錄當(dāng)前抽取情況,存入memory,并在當(dāng)前角色的屬性預(yù)測過程中將memory中的信息考慮進(jìn)來。具體而言,當(dāng)前角色屬性抽取考慮的因素包括
??: 實體候選(融合角色信息),??
??: 每個句子的向量表示;
??: 第i個事件記錄屬性序列,記錄屬性向量表示??
??: memory中已完成、未完成事件記錄的LSTM編碼結(jié)果。
?基于Transformer更新候選實體在當(dāng)前角色下的向量表示,
基于更新之后的候選實體表示 ?E ? ?進(jìn)行二分類,確定每個實體是否能成為當(dāng)前“事件+角色”對應(yīng)的屬性。屬性抽取對應(yīng)的損失函數(shù)為
最終總損失包括:實體提及損失、事件類型發(fā)現(xiàn)損失和屬性抽取損失之和。
Experiment
實驗在中文金融事件抽取數(shù)據(jù)ChFinAnn上進(jìn)行,結(jié)果表明GIT方法在該數(shù)據(jù)上達(dá)到SOTA;在單事件和多事件情況下表現(xiàn)都能顯著提升,基于GNN的異質(zhì)圖編碼對文檔理解充分、基于tracker的事件關(guān)聯(lián)建模能增強多事件表現(xiàn)等。
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數(shù)據(jù)的開放、互聯(lián)及眾包,并促進(jìn)知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于异质图交互模型进行篇章级事件抽取的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 - TACL2020 | TY
- 下一篇: 论文浅尝 | 多标签分类中的元学习