當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations

發布時間：2024/7/5 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了 [ACL2020]Generalizing Natural Language Analysis through Span-relation Representations 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1 介紹
2 span-relation representations
- 2.1未涉及句子級任務
3.span-relation model
- 3.1 span representation
- 3.2 span and relation label prediction
- 3.3 應用到不同任務
- 3.5 多任務學習MTL
4 GLAD Benchmark基準 and Results
- 4.1 實驗
- 4.2 證明通用模型有效
- 4.3 MTL
- - 4.3.2 任務之間的關系分析
  - 4.3.3 相似和區別
  - 4.3.4 MTL under different settings
  - 4.4.4 模型復雜度

1 介紹

nlp任務
- span標記
- span之間的關系標記
希望用統一的框架處理nlp任務
假設：人類可以用相同的格式標注數據，機器也可以
- 人類標注：已經有統一的標準BRAT
貢獻
- span標記和span之間的關系標記聯合模型
  - 已經有端到端的共指消解模型（Lee et al. (2017)）–本文對它進行少量修改
- 預訓練一個上下文的模型（Bert，Elmo）
- 驗證單一模型的適用性和通用性
  - 在10個任務上
    - named entity recognition(NER),
    - relation extraction (RE),
    - coreference resolution (Coref.),
    - open information extraction (OpenIE),
    - part-of-speech tagging (POS),
    - dependency parsing (Dep.),
    - constituency parsing (Consti.),
    - semantic role labeling (SRL),
    - aspect based sentiment analysis (ABSA),
    - and opinion role labeling (ORL)
  - 功能：
    - 一個模型可以處理多個任務
    - MTL：很方便，可以幫助數據量少的相關模型（相互協助）
      - 有的任務會互相幫助
      - 也有的任務會相互阻礙：因為不同的任務表現出不同的注意模式（attention）
預訓練模型
- 使用相同的表示，通過預訓練的embedding
本文
- 完全統一的模型，去處理所有任務

2 span-relation representations

解釋BRAT如何標注大量任務
- span標注–span-oriented tasks
- relation標注 --relation-oriented tasks

2.1未涉及句子級任務

注意
- 未涉及句子級別的任務（情感分類。。）
  - 可以將整個句子當作一個span
  - 但因為之前的通用模型中已經有很好的表現了，就不做了
    - 通用模型(Lan and Xu, 2018)、
    - 多任務學習 (Devlin et al.,2019; Liu et al., 2019)

3.span-relation model

base(Lee et al.， 2017)–一個端到端的共指消解模型，span標注
- 擴展到其他任務
- 模型核心：用一個任意長度的向量表示span–用以預測label或span-pair的label

3.1 span representation

條件：可以任意長度
內容表示 $z_i^c$
邊界表示 $z_i^u$
句子的token $w_1,w_2,...,w_n$
span: $s_i=[(b_{b_i},b_{b_i+1},...，b_{e_i}]$
$c_1,c_2,...,c_n=TokenRepr(w_1,w_2,...,w_n)\\ u_1,u_2,...,u_n=BiLSTM(c_1,c_2,...,c_n)\\ z_i^c=SelfAttn(c_{b_i},c_{b_i+1},...，c_{e_i})\\ z_i^u=[u_{b_i};u_{e_i}]\\ z_i=[z_i^c;z_i^u]$
- tokenRepr:Glove or Bert

3.2 span and relation label prediction

invalid label
- NEG_SPAN
- NEG_REL
Model
預測所有的span（長度<l）:MLP(多層感知機） $softmax(MLPspan(zi))∈Δ∣L∣softmax(MLP^{span}(z_i))\in\Delta^{|L|}$
剪枝：保留前 $K=n?τK=n\cdot \tau$ 個span,剩下的為NEG_SPAN(閾值 $τ\tau$ 低，則剪枝更多)
預測關系的感知機MLP: $ojk=MLPrel([zj;zk;zj?zk])∈R∣R∣o_{jk}=MLP^{rel}([z_j;z_k;z_j\cdot z_k])\in \mathbb{R}^{|R|}$

3.3 應用到不同任務

最大化真實關系的概率
具體到不同任務上需求不同
- 關心前后順序：關系抽取
- 不關心順序：
  - eg:共指消解：
    - 連接相同概念的span–cluster
    - 多個也只要連上了就好
為此，提供兩種loss–最大化
- pairwise loss: $softmax(o_{jk})_{r_{jk}},r_{jk}是實際答案的indexes$ –其他所有任務
  - 預測一對
- head loss： $Σk∈head(sj)softmax([oj1，oj1,...,ojK)k\Sigma_{k\in head(s_j)} softmax([o_{j1}，o_{j1},...,o_{jK})_k$ –用于共指消解
  - 預測一堆
  - (?多元關系？怎么樣）
這兩個loss，僅在如何normalize時有區別，其他并無區別
test
- 共指消解：把span連接到得分最高的前件上e (Lee et al., 2017)
- consti:constituency parsing：貪婪的從上到下的解碼，去產生有效的解析樹
- dep:依賴解析：每個詞鏈接到一個父節點（最高關系得分的）
- other：對每對實體預測關系，沒關系的預測為NEG_REL
核心觀點
- 我們的模型任務無關
  - 只要能建模為span標注任務和span關系預測任務即可

3.5 多任務學習MTL

SpanRel實現MTL
- 共享參數，除了MLPs的
- 問題：
  - 不同的任務，關注點不同（在語言方面）
  - 所以對于所有任務不是獲得相同的增益的、
    - 在相關任務上聯合訓練是增益的
    - 而不相關的任務是hurt
  - 如何選擇任務？
    - 任務數目多時，手動選擇難
- 解決：
  - SpanRel提供了一個系統的方式/基于attetion的方式–選擇任務對（互相有增益的）–4.3

4 GLAD Benchmark基準 and Results

提出GLAD基準和evaluation metrics
證明SpanRel
- 有效
- 對MTL有益

4.1 實驗

metrics
- F1,P,R–for span and relation
token representation:Glove,ELMo,Span-Bert,Bert
BiLSTM 256 hidden\
MLP:2 layers,128hidden

4.2 證明通用模型有效

在相同條件下與SOTA模型相比較
- token representation（Bert or Glove…)相同
- settings
通用模型有效
- 和sota差不多

4.3 MTL

MTL和STL(單任務學習），FT(finetune)
- 有Bert好于沒有Bert
- 有Finetune好于無FT
- 下降的比較多：
  - 大多數任務數據稀疏
  - 不同的任務關注點不同，相互之間可能有助益也有阻礙

4.3.2 任務之間的關系分析

假設：語言模型預訓練在理論上與MTL正交，實際上benefit是重疊的
分析
- (1)對于OpenIE和ORL來說，使用SRL進行多任務學習可以顯著提高性能，而其他任務的提高則很少或根本沒有。
- (2)依賴解析和SRL是對大多數目標任務有益的通用源任務。
- SpanREL可以很容易地進行MTL,并且看出誰是有益的源任務

4.3.3 相似和區別

證明SpanRel提供分析不同任務相似性和區別的平臺
- 猜測，與attention有關
  - attention反應內部焦點
  - 公式： $simk(t,t′)=?1∣Xt∣Σx∈Xt∣∣Akt(x)?Akt′(x)∣∣F′Akt(x)是第k個頭的attentionmapsim_k(t,t')=-\frac{1}{|X_t|}\Sigma_{x\in X_t}||A_k^t(x)-A_k^{t'}(x)||_{F'}\\A_k^t(x)是第k個頭的attention map$
  - 下圖證明這個公式確實反映了相似度

4.3.4 MTL under different settings

token representation 越強大，improvement越少
- MTL和預訓練模型都傾向于學習通用表達，benefit重疊了
- 5中glove訓練了所有模型，所以效果差了–超出能力范圍
數據稀疏的時候模型有用

4.4.4 模型復雜度

主要在bert
span $O(l?n)O(l\cdot n)$
relation $O(K2)=O(τ2?n2)O(K^2)=O(\tau^2\cdot n^2)$

總結

以上是生活随笔為你收集整理的[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：图的遍历——深度优先搜索+广度优先搜索
下一篇： Linux安装MySQL的完整步骤并有关