论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017
文章目錄
- abstract
- 1.Introduction
- 2.相關工作
- 3.Model
- 全局歸一化層(使用線性鏈CRF)
- 4.實驗和分析
- 4.3實驗結果
- 總結
Adel, H. and H. Schütze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”
abstract
- CNN+CRF>CNN+softmax
引入全局歸一化卷積神經網絡進行聯合實體分類和關系提取。特別地,我們提出了一種利用線性鏈條件隨機場輸出層同時預測實體類型和實體之間關系的方法。實驗結果表明,在基準數據集上,全局規格化的性能優于局部規格化的softmax層。
1.Introduction
- 命名實體類型和關系通常是相互依賴的。如果實體的類型已知,則它們之間可能的關系的搜索空間可以減少,反之亦然。
- 用CRF的損失函數訓練我們的NN參數
與之前的工作不同,我們將聯合實體和關系分類問題建模為CRF層長度為3的序列。特別地,我們識別給定句子的兩個候選實體(單詞或短語)的類型(我們稱之為實體分類,以將其與標記任務NER區分開來)以及它們之間的關系。就我們所知,這種將實體分類和關系分類結合在一個神經網絡中的結構是新穎的。圖1顯示了我們如何對任務建模的示例:對于每個句子,都標識了候選實體。然后,候選實體(查詢實體對)的每個可能組合形成我們模型的輸入,該模型預測兩個查詢實體的類以及它們之間的關系。
- 句子->CRF層長度為3的序列
- 我們:
- 對每個句子標示候選實體
- 候選實體排列組合形成模型輸入
- 預測兩個查詢實體的類及其關系
- 任務:實體分類+關系分類(聯合進行)
- 證明CNN+CRF > CNN+softmax
- 輸入:單詞的嵌入
- 首次使用NN的全局規格化
- 使用線性鏈CRF
2.相關工作
一些關于聯合實體和關系分類的工作使用遠程監控來構建他們自己的數據集,例如,(Yao et al., 2010;Yaghoobzadeh等人,2016)。其他的研究,這些將在下面詳細描述,使用來自(Roth和Yih, 2004, 2007)的實體和關系識別(ERR)數據集,正如我們在本文中所做的。
Roth和Yih(2004)開發了約束,并使用線性規劃對實體類型和關系進行全局規范化。
Giuliano等人(2007)使用實體類型信息進行關系提取,但不同時訓練兩個任務。
Kate和Mooney(2010)訓練特定于任務的支持向量機,并開發一個卡片金字塔解析算法來聯合建模這兩個任務。
Miwa和Sasaki(2014)使用相同的數據集,但將任務建模為表填充問題(參見4.2節)。他們的模型同時使用局部和全局評分函數。
最近,Gupta等人(2016)應用遞歸神經網絡來填充表格。他們以多任務的方式訓練他們。
以前的工作還使用了各種語言特性,如詞性標記。
相反,我們使用卷積神經網絡,只使用單詞嵌入作為輸入。在此基礎上,我們首次采用神經網絡的全局規格化方法。
一些研究提出了用于信息提取任務的非神經CRF模型的不同變體,但將它們建模為標記標記問題(Sutton和McCallum, 2006;Sarawagi等人,2004;Culotta等人,2006;朱等,2005;彭和麥卡勒姆,2006)。
**CRF:**相比之下,我們提出了一個更簡單的線性鏈CRF模型,它直接連接實體和關系類,而不是為輸入序列的每個標記分配一個標簽。這與Yao等人(2010)的因素圖更相似,但在計算上更簡單。徐和Sarikaya(2013)也在CNN獲得的連續表示法上應用了CRF層。然而,他們將其用于標記任務(語義槽填充),而我們將該模型應用于句子分類任務,其動機是CNN為整個短語或句子創建單個表示。
3.Model
輸入。給定一個輸入語句和兩個查詢實體,我們的模型識別實體的類型和它們之間的關系;參見圖1。輸入標記由word2vec在Wikipedia上訓練的詞嵌入表示(Mikolov等人,2013)。為了識別一個實體ek的類,模型使用它左邊的上下文、組成ek的單詞和它右邊的上下文。為了區分兩個實體ei和ej之間的關系,這個句子被分成六個部分:ei的左邊,ei的右邊,ei的右邊,ej的左邊,ej的右邊,ej的右邊。對于圖1中的示例句子和實體對(Anderson, chief),上下文分割是:[][Anderson] [, 41, was the chief Middle…41歲的安德森是《紐約時報》駐中東記者。
- 輸入:劃分為5部分:ei的左邊,ei的右邊,ei的右邊,ej的左邊,ej的右邊,ej的右邊。
- 句子表示:CNN得到句子表示,2個CNN層(實體和上下文的)
句子表示。為了表示輸入句子的不同部分,我們使用了卷積神經網絡(CNNs)。CNNs適用于RE,因為關系通常由整個短語或句子的語義來表示。此外,它們在之前的工作中已經證明對RE有效(Vu et al., 2016)。我們訓練一個CNN層用于卷積實體,另一個用于上下文。使用兩個CNN層而不是一個,使我們的模型更加靈活。由于實體通常比上下文短,因此實體的篩選器寬度可以比上下文小。此外,該體系結構簡化了將實體表示從單詞轉換為字符的工作。
在卷積之后,我們對實體和上下文應用k-max池,并將結果連接起來。拼接后的向量c_z∈R^{C_z}, z∈{EC, RE}轉發給尺寸為Hz的任務特定隱含層,該隱含層跨不同輸入部分學習模式:
全局歸一化層(使用線性鏈CRF)
- 一個線性層
對于全局歸一化,我們采用Lample等(2016)的線性鏈CRF層。它期望不同的班級的分數作為輸入。因此,我們首先應用一個線性層,將表示hz∈RHz映射到輸出類N = N_{EC} +N_{RE}大小的向量vz:
- 用這個來建模
對于句子分類任務,CRF層的輸入序列不是很清楚。因此,我們建議使用以下分數序列來建模聯合實體和關系分類問題(cf.,圖2)
- 聯合概率
- 我們的直覺是,關系與實體之間的依賴關系要強于實體與實體之間的依賴關系
- 我們的直覺是,關系與實體之間的依賴關系要強于實體與實體之間的依賴關系
- 分數
- CRF層用開始和結束標記填充其長度為n = 3的輸入,并為一系列預測y計算如下分數:
- :Qk,l為k類到l類的過渡分數,dp為q類在序列p位置的分數
- 因為CRF層的所有變量都在log空間中,所以對分數進行求和。
- 前向算法
- 向前算法計算所有可能的標簽序列Y的分數得到正確的標簽序列的對數概率?Y
- 向前算法計算所有可能的標簽序列Y的分數得到正確的標簽序列的對數概率?Y
- test:用維特比得到序列
4.實驗和分析
N-沒關系
設置1:實體對關系。羅斯和Yih (2004,2007);Kate和Mooney(2010)在ERR數據集上分別訓練EC和RE模型。對于RE,它們僅標識命名實體對之間的關系。在這個設置中,模型的查詢實體只是命名實體對。注意,這有利于EC在我們的實驗。
設置2:表填充。繼Miwa和Sasaki(2014)之后;Gupta等人(2016)也將EC和RE的聯合任務建模為填表任務。對于長度為m的句子,我們創建一個二次表。Cell (i, j)包含單詞i和單詞j之間的關系(沒有關系的單詞為N)。一個對角單元格(k, k)包含單詞k的實體類型。根據前面的工作,我們只預測表的一半的類,即m(m + 1)/2個單元格。圖3顯示了圖1中的示例句子的表。在這個設置中,i = j的每個單元格(i, j)都是模型的一個單獨輸入查詢。我們的模型輸出對單元格(i, j) (i和j之間的關系)的預測和對單元格(i, i)和(j, j) (i和j的類型)的預測。第4.4節表明,在幾乎所有情況下,個人的預測都與多數票一致
設置3:沒有實體邊界的表填充。來自setup 2的表包含每個多令牌實體的一個行/列,利用ERR數據集的給定實體邊界。為了研究實體邊界對分類結果的影響,我們還考慮了另一個表填充設置,在這個設置中,我們忽略邊界并為每個標記分配一個行/列。請注意,這種設置也用于以前的表格填充工作(Miwa和Sasaki, 2014;Gupta等人,2016)。對于評估,我們遵循Gupta等人(2016)的方法,如果一個多標記實體中至少有一個標記是正確的,我們就對其進行評分
比較。setup 1和setup 2之間最重要的區別是沒有關系的實體對的數量(test set:≈3k for setup 1,≈121k for setup 2),這使得setup 2更具挑戰性。同樣適用于setup 3,它考慮與setup 2相同數量的沒有關系的實體對。為了解決這個問題,我們在setup 2和setup 3的訓練集中隨機抽樣了一些負面的實例。Setup 3考慮最多的查詢由于多令牌實體被分割為包含它們的令牌,所以它們總共對實體進行了分組。但是,setup 3比setup 1或setup 2更符合實際,因為在大多數情況下,實體邊界沒有給出。為了將setup 1或setup 2應用到另一個沒有實體邊界的數據集,需要一個預處理步驟,例如實體邊界識別或分塊。
4.3實驗結果
表1顯示了全局規范化模型與局部規范化softmax輸出層(一個用于EC,一個用于RE)的模型的比較結果。對于setup 1, CRF層的性能與softmax層相當或更好。對于setup 2和setup 3,改進更加明顯。我們假設在表填充的情況下,模型可以從全局規范化中獲得更多的好處,因為它是更具挑戰性的設置。設置2和設置3之間的比較表明,該實體分類患有沒有實體邊界(在設置3)。一個原因可能是,該模型不能令牌卷積multi-token實體的映射進行了計算實體時表示如圖2 B和D(上下文)。然而,分類性能相當的關系設置2和設置3。這表明該模型可以在內部解釋由于缺少實體邊界而可能出現的錯誤實體分類結果。
總的結果(Avg EC+RE)的CRF比結果的軟max層所有三種設置。綜上所述,線性鏈CRF的改進表明:(i)聯合EC和RE受益于全局正規化;(ii)我們為關節EC和RE創建CRF輸入序列的方法是有效的。
我們的結果是最好的可比(Gupta等人,2016),因為我們使用相同的設置和訓練分割。然而,他們的模型更復雜,有許多手工制作的特性和實體和關系類之間的建模依賴的各種迭代。相反,我們只使用預先訓練好的詞嵌入,并且只對每個實體對進行一次迭代來訓練我們的模型。當我們與沒有附加特征的模型進行比較時(G et al. 2016(2)),我們的模型對EC表現較差,但對RE表現較好,對Avg EC+RE可比較。
總結
在這篇論文中,我們首次研究了一個句子分類任務的神經網絡的全局規格化,而沒有將其轉化為一個標記標記問題。我們在聯合實體和關系分類上訓練了一個具有線性鏈條件隨機場輸出層的卷積神經網絡,并證明了它在局部歸一化softmax層上的性能。一個有趣的未來方向是對線性鏈CRF的擴展,以聯合規范化單個模型遍歷表填充的所有預測。此外,我們計劃在未來的工作中在其他數據集上驗證我們的結果。
總結
以上是生活随笔為你收集整理的论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SSM:Maven整合ssm时的步骤
- 下一篇: 图书管理系统~简单流程