论文浅尝 | 基于知识库的类型实体和关系的联合抽取
鏈接:http://hanj.cs.illinois.edu/pdf/www17_xren.pdf
GitHub項目地址:https://github.com/INK-USC/DS-RelationExtraction
動機
現有的利用遠程監督進行實體關系抽取的方法中存在以下三個問題:
1、依賴事先訓練的命名實體識別工具,而這些工具往往只能識別出少量特定類型的實體,從而限制了領域的擴展;
2、現有方法通常將實體識別和關系抽取分開進行,從而容易造成錯誤的累積。
3、在通過遠程監督方式生成的訓練數據中,含有大量的噪音數據,因為其在實體和關系的鏈接過程中均沒有考慮到上下文關系。
貢獻
該篇論文的主要貢獻分為以下四點:
1、提出了一個新的利用遠程監督進行實體關系抽取的框架CoType。
2、提出了一種領域無關的文本分割算法,用來進行文本中 entity mentions 的識別。
3、提出了一個聯合嵌入目標函數,用來形式化建模mention-type之間的關聯、mention-feature之間的共現關系、entity-relation之間的交叉約束關系。
4、在三個公開數據集上取得了state-of-the-art的效果。
問題定義
給定一個POS標注的語料庫D,一個知識庫Ψ,一個目標實體類型集合,一個目標關系類型集合,聯合抽取的目標就是(1)從語料庫D中識別出entity mentions M;(2)利用知識庫Ψ生成訓練數據;(3)利用和上下文,預測每一個relation mentions的關系類型,以及 entity mentions的實體類型。
方法
模型框架圖如下圖所示,其方法主要分為四個部分:
1、使用文章中提出的 POS 約束的文本分割算法對POS標注的語料庫D進行實體識別,識別出 entity mentions M。
2、從M中生成候選 relation mentions Z,并對每一個 relation mention 進行文本特征抽取,抽取的文本特征見下文。
3、通過聯合嵌入,將 entity mentions、relation mentions、文本特征、實體關系類型嵌入到兩個空間中去(實體空間以及關系空間),使得在每一個空間中,距離比較近的object擁有比較近的類型。
4、通過學習好之后的嵌入空間,評估測試集中每一個 relation mention 的關系類型以及每一個entity mention m 的實體類型。
1、????Entity Mention 抽取
文章提出了一種領域無關的文本分割算法,他的方法是通過計算切片質量函數來衡量這個片段是一個entity mention的概率,該切片質量函數由短語質量和POSpattern質量組成,并利用 D_L 數據來訓練該模型的參數。
其工作流程主要分為以下四步:
從語料庫 D 中挖掘頻繁共同模板,包括短語模板和詞性模板,并通過設置閾值的方式,進行模板的初步篩選。
從語料級別的一致性和句子級別的詞性特征抽取特征訓練兩個隨機森林分類模型,用于評估候選的短語模板和詞性模板的分值。
根據目前的特征權重參數,找到切片質量函數得分最高的片段切割方式。
計算修正特征,更正參數,不斷迭代2-4步,直到收斂。
切片評估函數如下:
2、????Relation Mention 抽取
方法如下,對于來自一個句子s的實體對 (m_a,m_b),構建兩個候選relation mentions z_1=(m_a,m_b,s) 和 z_2=(m_b,m_a,s)。在抽取30%無法鏈接到KB的relation mentions作為反例(None relationlabel),抽取30%無法鏈接的entitymentions建模None entity label。然后對relationmention 進行文本特征抽取,文本特征如下。
3、????實體和關系的聯合嵌入
該部分方法主要包含三個部分:
通過一個margin-base的loss函數來建模由噪音的mention-type之間的關系。
通過一個second-order proximity idea來建模mention-feature之間的貢獻。
通過translation based embedding loss思想來建模實體-關系之間的約束關系。
3.1建模Relation Mentions
假設1:對于兩個relation mentions,如果他們共享的文本特征越多,那么他們則更可能具有相似的類別,即在低維空間中比較接近,反之亦然。
形式化的說,文章應用second-orderproximity來建模該假設。
z_i 表示relation mention向量,c_j 表示文本特征向量。p(f_j |z_i) 表示由 z_i 生成 c_j 的概率。w_ij 表示語料庫 D 中 (z_i,c_j) 的共現頻率。
在基于遠程監督生成的訓練數據中,一個 relation mention 對應多個候選關系類型,基于假設1,可能會產生不同類型的mention具有相似的低維向量表示。因此需要將relation mention和它候選的標簽之間關系是否是真的加入到模型之中,從而提出了假設2。
假設2:一個relation mention在低維空間中應該同它最可能的候選類型比較接近。
形式化定義如下,
Φ(z_i,r' )表示relation 和關系 r' 之間的點積。
最終,建模relation mentions的目標函數如下所示:
3.2 建模Entity Mentions
Entity Mentions 建模過程如 Relation Mentions 幾乎相同,其目標函數如下。
3.3 建模Entity和Relation之間的交互
假設3:對于一個relation mention z={m1,m2,s},m1的嵌入向量應該近似于m2的嵌入向量加上z的詞嵌入向量。
形式化如下所示,
4、????聯合優化問題
將上訴三個損失函相加,求他們的最小值。
文章中使用了次梯度方法來求解該聯合優化問題,算法如下圖所示。
5、????模型推斷
在進行推斷的過程中,對于關系類別,采用最近鄰的方式查找,對于實體的類別,采用自頂向下的方式查找。在查找的過程中,利用特征來表示mention,計算mention的嵌入向量同實體類別和關系類別的相似度即可。
實驗
作者在NYT、Wiki-KBP、BioInfer三個數據集上,對實體類型識別、關系分類、關系抽取三個任務進行了實驗,取得了比較好的結果。
?
(1)數據集
(2)實驗結果
總結
文本提出了一種領域無關的利用知識庫通過遠程監督方式進行關系抽取的模型框架,包括了一種領域無關的文本分割算法用于識別實體,一個聯合嵌入目標函數用來形式化建模 mention-type之間的關聯、mention-feature之間的共現關系、entity-relation 之間的交叉約束關系。
?
論文筆記整理:王狄烽,南京大學碩士,研究方向為知識圖譜、知識獲取。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的类型实体和关系的联合抽取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 征稿 | “健康知识图谱”投稿通道开启
- 下一篇: 论文浅尝 - ACL2020 | Seg