Meta Learning在NLP领域的应用
Hi,這里是哈林,今天來跟大家聊一聊Meta Learning在NLP領域的一些應用。
哈林之前在學校科研的方向是NLP,個人對如何將先進的機器學習算法應用到NLP場景很感興趣(因為好水paper),同時之前也做過一些嘗試(水過一些paper)。因此今天主要介紹一下Meta Learning與NLP任務結合的一些工作。話不多說,先上一個自己總結的paper list:
Github鏈接:
https://github.com/ha-lins/MetaLearning4NLP-Papers
背景:元學習
通常在機器學習里,我們會使用某個場景的大量數據來訓練模型;然而當場景發生改變,模型就需要重新訓練。但是對于人類而言,一個小朋友成長過程中會見過許多物體的照片,某一天,當Ta(第一次)僅僅看了幾張狗的照片,就可以很好地對狗和其他物體進行區分。
元學習Meta Learning,含義為學會學習,即learn to learn,就是帶著這種對人類這種“學習能力”的期望誕生的。Meta Learning希望使得模型獲取一種“學會學習”的能力,使其可以在獲取已有“知識”的基礎上快速學習新的任務,需要注意的是,雖然同樣有“預訓練”的意思在里面,但是元學習的內核區別于遷移學習(Transfer Learning)。
這里介紹一個經典的基于優化的元學習框架MAML[1],(即Model-agnostic Meta Learning)。MAML的目的是獲取一組更好的模型初始化參數(即讓模型自己學會初始化)。我們通過(許多)N-ways,K-shot的任務(訓練任務)進行元學習的訓練,使得模型學習到“先驗知識”(初始化的參數)。這個“先驗知識”在新的任務上可以表現的更好,其算法流程如下圖所示:
Note:MAML是一個二階的元學習算法,因為二階優化計算海塞矩陣的成本較大,因此后續出現了一階的元學習算法,如:Repitle[2],通過近似二階導數,可以實現近似MAML的性能。接下來介紹兩個MAML在對話系統領域應用的工作。水paper的好方向
工作介紹1:DAML
先來看第一篇DAML[3],做的是task-oriented dialogue任務下的domain adaption:舉個例子來說,假設我們手頭有三個域的訓練數據(source domains):restaurant, weather, bus information,然后用少量(few-shot learning)的movie領域數據作為新的target domain來測試dialogue的任務完成性能。這個任務是非常有價值的,目前的task-oriented dialogue的dataset往往是針對特定領域的,如果能實現這種域適應,將會降低很多人工標注成本。
通過這個例子可以看出,這篇paper是在研究transfer learning和few-shot learning(少量的test data),采用的方法則是meta-learning中的經典方法MAML:即通過訓練尋找一個優秀的初始化參數,使得僅通過兩步梯度下降,就能快速適應到新的target domain上。
圖中的序號表示執行的先后順序, M M M 為模型參數,重點看b)圖,k=1,2,3分別代表不同的source domain,可以看到DAML采用了兩次梯度更新(local和global),先結合域訓練數據和初始模型,更新一步得到一個臨時model M k ′ M'_{k} Mk′? ,再由此來計算meta learning的loss,再通過幾次梯度更新原始model。至于為何要經過這個臨時model M k ′ M'_{k} Mk′? ,應該是因為可以學到一種所有源域普適的表示,而不是針對特定域的直接的特征。
以上就是這篇paper的核心思想,下面看一下具體實現和細節:前文說了這是一個task-oriented dialogue背景的問題,本文借鑒并采用了一種end-to-end的seq2seq模型:Sequicity[3],與domain adaption的SOTA模型ZSDG和transfer learning model進行了比較,在ZSDG提供的SimDial數據集上進行實驗,從任務完成情況(Entity F1 score)和Adapting time等多個方面評估比較。
工作介紹2:GEML
接下來是哈林發表在AAAI 2021上的一篇低資源場景下的醫療對話系統的工作GEML[4],旨在通過元學習構建一個跨疾病可遷移的對話系統。
如上圖所示,針對醫療對話場景中疾病數據不均衡的現象,GEML首先設計了一個基于外部醫療知識圖譜的端到端對話系統,然后通過一種圖演化元學習框架來對其進行元訓練和遷移。該對話系統包含三個組件: 分層上下文編碼器、元知識圖推理模塊與圖指導的響應生成器;同樣還是類似MAML的思路,只不過針對現有知識圖譜對對話實體覆蓋不全的問題,本文還通過graph evolving的方法對知識圖譜進行豐富。具體的模型細節大家可以去論文里查閱~
總結
通過這兩個工作和paper list,可以看到以MAML為代表的optimization-based meta learning方法,以其模型無關的靈活性的特點,在各個NLP topic(如:dialog system/ semantic parsing等)的few-shot場景下遍地開花,而其他的meta-learning方法(如metric-based)多集中在解決分類問題上。如何在少量數據場景下構造出合理的meta task,是解決問題的關鍵。
參考資料
- [1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, ICML 2017.
- [2] On First-Order Meta-Learning Algorithms, arXiv 2018.
- [3] Domain Adaptive Dialog Generation via Meta Learning, ACL19.
- [4] Graph Evolving Meta-Learning for Low-resource Medical Dialogue Generation, AAAI 2021.
更多算法基礎知識介紹,前沿論文解讀,歡迎關注微信公眾號:口袋AI算法
總結
以上是生活随笔為你收集整理的Meta Learning在NLP领域的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中正则表达式的简单应用_Py
- 下一篇: Office365离线安装包