[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                [ACL2020]Generalizing Natural Language Analysis through Span-relation Representations
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                文章目錄
- 1 介紹
- 2 span-relation representations
- 2.1未涉及句子級任務
 
- 3.span-relation model
- 3.1 span representation
- 3.2 span and relation label prediction
- 3.3 應用到不同任務
- 3.5 多任務學習MTL
 
- 4 GLAD Benchmark基準 and Results
- 4.1 實驗
- 4.2 證明通用模型有效
- 4.3 MTL
- 4.3.2 任務之間的關系分析
- 4.3.3 相似和區別
- 4.3.4 MTL under different settings
- 4.4.4 模型復雜度
 
 
1 介紹
-  nlp任務 - span標記
- span之間的關系標記
 
-  希望用統一的框架處理nlp任務 
-  假設:人類可以用相同的格式標注數據,機器也可以 - 人類標注:已經有統一的標準BRAT
 
-  貢獻 - span標記和span之間的關系標記聯合模型 - 已經有端到端的共指消解模型(Lee et al. (2017))–本文對它進行少量修改
 
- 預訓練一個上下文的模型(Bert,Elmo)
- 驗證單一模型的適用性和通用性 - 在10個任務上 - named entity recognition(NER),
- relation extraction (RE),
- coreference resolution (Coref.),
- open information extraction (OpenIE),
- part-of-speech tagging (POS),
- dependency parsing (Dep.),
- constituency parsing (Consti.),
- semantic role labeling (SRL),
- aspect based sentiment analysis (ABSA),
- and opinion role labeling (ORL)
 
- 功能: - 一個模型可以處理多個任務
- MTL:很方便,可以幫助數據量少的相關模型(相互協助) - 有的任務會互相幫助
- 也有的任務會相互阻礙:因為不同的任務表現出不同的注意模式(attention)
 
 
 
- 在10個任務上 
 
- span標記和span之間的關系標記聯合模型 
-  預訓練模型 - 使用相同的表示,通過預訓練的embedding
 
-  本文 - 完全統一的模型,去處理所有任務
 
2 span-relation representations
- 解釋BRAT如何標注大量任務 - span標注–span-oriented tasks
- relation標注 --relation-oriented tasks
 
 
2.1未涉及句子級任務
- 注意 - 未涉及句子級別的任務(情感分類。。) - 可以將整個句子當作一個span
- 但因為之前的通用模型中已經有很好的表現了,就不做了 - 通用模型(Lan and Xu, 2018)、
- 多任務學習 (Devlin et al.,2019; Liu et al., 2019)
 
 
 
- 未涉及句子級別的任務(情感分類。。) 
3.span-relation model
- base(Lee et al., 2017)–一個端到端的共指消解模型,span標注 - 擴展到其他任務
- 模型核心:用一個任意長度的向量表示span–用以預測label或span-pair的label
 
3.1 span representation
- 條件:可以任意長度
- 內容表示zicz_i^czic?
- 邊界表示ziuz_i^uziu?
- 句子的tokenw1,w2,...,wnw_1,w_2,...,w_nw1?,w2?,...,wn?
- span:si=[(bbi,bbi+1,...,bei]s_i=[(b_{b_i},b_{b_i+1},...,b_{e_i}]si?=[(bbi??,bbi?+1?,...,bei??]
- c1,c2,...,cn=TokenRepr(w1,w2,...,wn)u1,u2,...,un=BiLSTM(c1,c2,...,cn)zic=SelfAttn(cbi,cbi+1,...,cei)ziu=[ubi;uei]zi=[zic;ziu]c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...,c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]c1?,c2?,...,cn?=TokenRepr(w1?,w2?,...,wn?)u1?,u2?,...,un?=BiLSTM(c1?,c2?,...,cn?)zic?=SelfAttn(cbi??,cbi?+1?,...,cei??)ziu?=[ubi??;uei??]zi?=[zic?;ziu?] - tokenRepr:Glove or Bert
 
3.2 span and relation label prediction
- invalid label - NEG_SPAN
- NEG_REL
 
- Model
- 預測所有的span(長度<l):MLP(多層感知機)softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}softmax(MLPspan(zi?))∈Δ∣L∣
- 剪枝:保留前K=n?τK=n\cdot \tauK=n?τ個span,剩下的為NEG_SPAN(閾值τ\tauτ低,則剪枝更多)
- 預測關系的感知機MLP:ojk=MLPrel([zj;zk;zj?zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}ojk?=MLPrel([zj?;zk?;zj??zk?])∈R∣R∣
3.3 應用到不同任務
-  最大化真實關系的概率 
-  具體到不同任務上需求不同 - 關心前后順序:關系抽取
- 不關心順序: - eg:共指消解: - 連接相同概念的span–cluster
- 多個也只要連上了就好
 
 
- eg:共指消解: 
 
-  為此,提供兩種loss–最大化 - pairwise loss:softmax(ojk)rjk,rjk是實際答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexessoftmax(ojk?)rjk??,rjk?是實際答案的indexes–其他所有任務 - 預測一對
 
- head loss:Σk∈head(sj)softmax([oj1,oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1},o_{j1},...,o_{jK})_kΣk∈head(sj?)?softmax([oj1?,oj1?,...,ojK?)k?–用于共指消解 - 預測一堆
- (?多元關系?怎么樣)
 
 
- pairwise loss:softmax(ojk)rjk,rjk是實際答案的indexessoftmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexessoftmax(ojk?)rjk??,rjk?是實際答案的indexes–其他所有任務 
-  這兩個loss,僅在如何normalize時有區別,其他并無區別 
-  test - 共指消解:把span連接到得分最高的前件上e (Lee et al., 2017)
- consti:constituency parsing:貪婪的從上到下的解碼,去產生有效的解析樹
- dep:依賴解析:每個詞鏈接到一個父節點(最高關系得分的)
- other:對每對實體預測關系,沒關系的預測為NEG_REL
 
-  核心觀點 - 我們的模型任務無關 - 只要能建模為span標注任務和span關系預測任務即可
 
 
- 我們的模型任務無關 
3.5 多任務學習MTL
- SpanRel實現MTL - 共享參數,除了MLPs的
- 問題: - 不同的任務,關注點不同(在語言方面)
- 所以對于所有任務不是獲得相同的增益的、 - 在相關任務上聯合訓練是增益的
- 而不相關的任務是hurt
 
- 如何選擇任務? - 任務數目多時,手動選擇難
 
 
- 解決: - SpanRel提供了一個系統的方式/基于attetion的方式–選擇任務對(互相有增益的)–4.3
 
 
4 GLAD Benchmark基準 and Results
- 提出GLAD基準和evaluation metrics
- 證明SpanRel - 有效
- 對MTL有益
 
4.1 實驗
- metrics - F1,P,R–for span and relation
 
- token representation:Glove,ELMo,Span-Bert,Bert
- BiLSTM 256 hidden\
- MLP:2 layers,128hidden
4.2 證明通用模型有效
- 在相同條件下與SOTA模型相比較 - token representation(Bert or Glove…)相同
- settings
 
- 通用模型有效 - 和sota差不多 
 
 
- 和sota差不多 
4.3 MTL
- MTL和STL(單任務學習),FT(finetune) - 有Bert好于沒有Bert
- 有Finetune好于無FT
- 下降的比較多: - 大多數任務數據稀疏
- 不同的任務關注點不同,相互之間可能有助益也有阻礙
 
 
4.3.2 任務之間的關系分析
- 假設:語言模型預訓練在理論上與MTL正交,實際上benefit是重疊的
- 分析 - (1)對于OpenIE和ORL來說,使用SRL進行多任務學習可以顯著提高性能,而其他任務的提高則很少或根本沒有。
- (2)依賴解析和SRL是對大多數目標任務有益的通用源任務。
- SpanREL可以很容易地進行MTL,并且看出誰是有益的源任務
 
4.3.3 相似和區別
- 證明SpanRel提供分析不同任務相似性和區別的平臺 - 猜測,與attention有關 - attention反應內部焦點
- 公式:simk(t,t′)=?1∣Xt∣Σx∈Xt∣∣Akt(x)?Akt′(x)∣∣F′Akt(x)是第k個頭的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k個頭的attention mapsimk?(t,t′)=?∣Xt?∣1?Σx∈Xt??∣∣Akt?(x)?Akt′?(x)∣∣F′?Akt?(x)是第k個頭的attentionmap
- 下圖證明這個公式確實反映了相似度
 
 
 
- 猜測,與attention有關 
4.3.4 MTL under different settings
-  token representation 越強大,improvement越少 - MTL和預訓練模型都傾向于學習通用表達,benefit重疊了
- 5中glove訓練了所有模型,所以效果差了–超出能力范圍
 
 
-  數據稀疏的時候模型有用 
4.4.4 模型復雜度
- 主要在bert
- span O(l?n)O(l\cdot n)O(l?n)
- relation O(K2)=O(τ2?n2)O(K^2)=O(\tau^2\cdot n^2)O(K2)=O(τ2?n2)
總結
以上是生活随笔為你收集整理的[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 图的遍历——深度优先搜索+广度优先搜索
- 下一篇: Linux安装MySQL的完整步骤并有关
