label-embedding在文本分类中的应用
?PaperWeekly 原創(chuàng) ·?作者|蔡杰
學(xué)校|北京大學(xué)碩士生
研究方向|QA
最近在做文本分類相關(guān)的工作,目標(biāo)是想提高分類器泛化新樣本的能力,當(dāng)有新樣本產(chǎn)生的時(shí)候能夠不需要重新訓(xùn)練分類器。所以挖了挖這個(gè)領(lǐng)域的研究,不挖不知道,一挖嚇一跳,沒想到這個(gè)坑還挺深的,看著看著就從普通的分類延續(xù)到 few-shot,zero-shot 以及 meta-learning 去了。在這里先介紹幾篇與 label-embedding 相關(guān)的工作,以后有時(shí)間了其他的方法有時(shí)間了慢慢碼字。
LEAM
論文標(biāo)題:Joint Embedding of Words and Labels for Text Classification
論文來源:ACL 2018
論文鏈接:https://arxiv.org/abs/1805.04174
代碼鏈接:https://github.com/guoyinwang/LEAM
1.1 概述
這篇文章作者將文本分類看作是一個(gè) label-word 的聯(lián)合嵌入問題:可以將每個(gè) label embedding 到 word 向量相同的空間中。
作者提出了一個(gè)注意力框架 Label-Embedding Attentive Model (LEAM) 的模型,該模型能夠?qū)W習(xí) word 和 label 在同一空間的 representation,并且可以用來衡量文本序列和 label 之間 embedding 的兼容性。其中注意力是在標(biāo)記樣本的訓(xùn)練集上學(xué)習(xí)的,以確保在給定的文本序列中,相關(guān)詞的權(quán)重高于不相關(guān)詞。
該方法保證了 word-embedding 的可解釋性,并具有利用除了輸入文本序列之外的其他信息源的能力。
在 Zero-Shot learning 中,label embedding 是一個(gè)很經(jīng)典的方法,通過學(xué)習(xí) label embedding,模型可以預(yù)測在訓(xùn)練集中未曾出現(xiàn)過的類別。
1.2 方法
首先作者介紹了,一般的方法將文本分類看做以下幾個(gè)步驟:
f0:將句子 embedding 的過程。L 是序列長度,P 是 embedding 的維度。
f1:將句子 embedding 進(jìn)行各種操作的過程,一般就是模型(TextCNN,BERT...)。
f2:模型輸出之后的 ffn,用于映射到最后的 label 空間。
一般方法在?f1?只利用了來自輸入文本序列的信息,而忽略了 label 的信息。作者發(fā)現(xiàn)使用標(biāo)簽信息只發(fā)生在最后一步?f2,因此作者提出一種新的 pipeline,將label信息納入每一步,如下圖所示:
作者提出的方法將文本分類看做以下幾個(gè)新的步驟:
f0:學(xué)習(xí) label 的 embedding 作為“anchor points”來影響 word embedding。
f1:利用 label 和 word 之間的相關(guān)性進(jìn)行 word embedding 的聚合。
f2:保持不變。
V?為 sequence embedding 的矩陣,C?為 label embedding 的矩陣,利用?cosine 相似度計(jì)算每個(gè) label-word 之間的相似度:
進(jìn)一步獲取連續(xù)詞(即連續(xù)詞)之間的相對空間信息,對于以 l 為中心長度為?2r+1?的文本做如下操作:
之后利用 max-pooling,可以得到最大相關(guān)的系數(shù):
ml 是長度為 l 的向量,整個(gè)文本序列的兼容性/注意力得分為:
1.3 實(shí)驗(yàn)
MTLE
論文標(biāo)題:Multi-Task Label Embedding for Text Classification
論文來源:ACL 2018
論文鏈接:https://arxiv.org/abs/1710.07210
本文作者指出了文本分類的三個(gè)缺陷:
缺少 label 信息:每個(gè)任務(wù)的標(biāo)簽都用獨(dú)立的、沒有意義的單熱點(diǎn)向量來表示,例如情緒分析中的正、負(fù),編碼為 [1,0] 和 [0,1],可能會(huì)造成潛在標(biāo)簽信息的丟失。
不能 scaling(不造咋翻譯了,縮放?):網(wǎng)絡(luò)結(jié)構(gòu)被精心設(shè)計(jì)來建模多任務(wù)學(xué)習(xí)的各種關(guān)聯(lián),但大多數(shù)網(wǎng)絡(luò)結(jié)構(gòu)是固定的,只能處理兩個(gè)任務(wù)之間的交互,即成對交互。當(dāng)引入新的任務(wù)時(shí),網(wǎng)絡(luò)結(jié)構(gòu)必須被修改,整個(gè)網(wǎng)絡(luò)必須再次被訓(xùn)練。
不能遷移:對于人類來說,在學(xué)習(xí)了幾個(gè)相關(guān)的任務(wù)之后,我們可以很容易的就可以處理一個(gè)全新的任務(wù),這就是遷移學(xué)習(xí)的能力。以往大多數(shù)模型的網(wǎng)絡(luò)結(jié)構(gòu)都是固定的,不兼容的,以致于無法處理新的任務(wù)。
因此,作者提出了多任務(wù) label embedding (MTLE),將每個(gè)任務(wù)的 label 也映射到語義向量中,類似于 word embedding 表示單詞序列,從而將原始的文本分類任務(wù)轉(zhuǎn)化為向量匹配任務(wù)。
作者提出了三種模型:
第一種假設(shè)對于每個(gè)任務(wù),我們只有 N 個(gè)輸入序列和 C 個(gè)分類標(biāo)簽,但是缺少每個(gè)輸入序列和對應(yīng)標(biāo)簽的具體標(biāo)注。在這種情況下,只能以無監(jiān)督的方式實(shí)現(xiàn) MTLE。包含三個(gè)部分:input encoder, label encoder, matcher。兩個(gè) encoder 將文本編碼成定長的向量。
第一種由于使用了非監(jiān)督方法,performance 不如有監(jiān)督的。
第二種就是有監(jiān)督的了,兩個(gè) LSTM 分別對 label 和句子進(jìn)行編碼,之后分別 concat,過一層全連接(),得到 logits,個(gè)人感覺這個(gè)交互做的過于簡單。
第三種則是基于 MTLE 的半監(jiān)督學(xué)習(xí)模型。
第二種和第三種之間唯一的不同是它們處理新任務(wù)的方式。如果新任務(wù)有標(biāo)簽,可以選擇第二種的 Hot-Update 或 Cold-Update。如果新的任務(wù)完全沒有標(biāo)記,仍然可以使用第二種進(jìn)行向量映射,無需進(jìn)一步訓(xùn)練就可以為每個(gè)輸入序列找到最佳的標(biāo)記(但是還是映射到原來就有的 label 里),作者將其定義為 Zero-Update。
Hot-Update、Cold-Update 和 Zero-Update 之間的區(qū)別如下圖所示,其中, Before Update 表示在引入新任務(wù)之前對舊任務(wù)進(jìn)行訓(xùn)練的模型。
Hot-Update: 在訓(xùn)練過多個(gè) task 的模型基礎(chǔ)上進(jìn)行 finetune。
Cold-Update: 在所有的 tasks 上重新訓(xùn)練。
Zero update: 不更新模型。利用訓(xùn)練過的模型在新 task 上直接得出結(jié)果。
實(shí)驗(yàn)結(jié)果如下:
第二種在多個(gè)數(shù)據(jù)集也碾壓了很多當(dāng)時(shí)不錯(cuò)的 model。
EXAM
論文標(biāo)題:Explicit Interaction Model towards Text Classi?cation
論文來源:AAAI 2019
論文鏈接:https://arxiv.org/abs/1811.09386
代碼鏈接:https://github.com/NonvolatileMemory/AAAI_2019_EXAM
該文章的 idea 和以上的幾篇類似,文本分類中沒有充分利用 label 信息的問題,也都指出了對 label 做 encoding 的方法,作者提出了一個(gè)新的框架?EXplicit interAction Model (EXAM),加入了 interaction mechanism。
3.1 概述
如下圖所示,傳統(tǒng)分類的解決方案通過 dot-product 操作將文本級(jí)表示與 label 表示匹配。在數(shù)學(xué)上,FC 層的參數(shù)矩陣可以解釋為一組類表示(每個(gè)列與一個(gè)類關(guān)聯(lián))。
因此,文本屬于某個(gè)類的概率在很大程度上取決于其整體匹配得分,而與單詞級(jí)匹配信號(hào)無關(guān),單詞級(jí)匹配信號(hào)會(huì)為分類提供明確的信號(hào)(例如,missile 強(qiáng)烈暗示了軍事的主題)。
針對上述情況,作者引入了交互機(jī)制,該機(jī)制能夠?qū)卧~級(jí)匹配信號(hào)納入文本分類中。交互機(jī)制背后的關(guān)鍵思想是顯式計(jì)算單詞和類之間的匹配分?jǐn)?shù)。從單詞級(jí)別的表示中,它會(huì)計(jì)算一個(gè)交互矩陣,其中每個(gè)條目是單詞和類(dot-product)之間的匹配得分。
3.2 模型
3.2.1 字級(jí)編碼器(Encoder),用于將輸入文本 d_i 投影到字級(jí)表示 H。
Gated Recurrent Unit
Region Embedding 來學(xué)習(xí)和利用 Ngrams 的任務(wù)特定的分布式表示。
3.2.2 交互層(Interaction),用于計(jì)算單詞和類之間的交互信號(hào)的交互層。
3.2.3 聚合層(Aggregation),用于聚合每個(gè)類的交互信號(hào)并進(jìn)行最終預(yù)測。
該層的設(shè)計(jì)目的是將每個(gè)類的交互特性聚合到一個(gè) logits 中,表示類與輸入文本之間的匹配分?jǐn)?shù)。聚合層可以通過不同的方式實(shí)現(xiàn),如 CNN 和 LSTM。但是,為了保持考試的簡單性和效率,這里作者只使用了一個(gè)具有兩個(gè) FC 層的 MLP,其中 ReLU 被用作第一層的激活函數(shù)。在形式上,MLP對類的交互特性進(jìn)行聚合,并計(jì)算其關(guān)聯(lián) logits 如下:
3.2.4 Loss(Cross Entropy)
3.3 實(shí)驗(yàn)結(jié)果
3.4 結(jié)論
本文使用交互機(jī)制來明確地計(jì)算文本分類的單詞級(jí)交互信號(hào),并將 EXAM 應(yīng)用于多類和多標(biāo)簽文本分類。對幾個(gè)基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)驗(yàn)證了該機(jī)制的有效性。
3.5 相關(guān)論文
論文標(biāo)題:GILE: A Generalized Input-Label Embedding for Text Classification
論文來源:TACL 2019
論文鏈接:https://arxiv.org/abs/1806.06219
代碼鏈接:https://github.com/idiap/gile
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的label-embedding在文本分类中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想g50-80怎么安装win7 如何在
- 下一篇: Atlus 新作《暗喻幻想:ReFant