Word Embedding News | 词嵌入新鲜事:COVID-19特刊
這里是 WEN(Word Embedding News)|詞嵌入新鮮事。
作為起步,它將基于 Sebastian Ruder NLP News 的每月篩選,聚焦詞嵌入領域。對涉及內容在個人閱讀后的基礎上進行總結、評論。不簡單復制,力求做到小而精。
關于作者:張正,坐標巴黎,上班NLP,下班詞嵌入。
本期關注 word embedding 在 COVID-19 中的應用:
機器翻譯:如何將“Wash your hands”翻譯成 500 多種語言
問答系統:多語言 COVID-19 智能問答助手?
預訓練模型:基于 COVID-Bert 的又一個智能問答助手?
COVID-QA 關系抽取:基于 CORD-19 (COVID-19 Open Research Dataset) 數據集的無監督關系嵌入(relation embeddings)訓練
如何將“Wash your hands”翻譯成500多種語言
關鍵詞:cross-lingual word embeddings,機器翻譯,MUSE
原文鏈接:https://datadan.io/blog/wash-your-hands
不要以為 Google Translate 已經解決所有問題了,稀有語種一直是令 NLP 頭疼的大問題。世界上現存 7117 種語言,而 Google Translate 僅能覆蓋常見的約 100 種語言。而 COVID-19 是無國界、不分語言的,因此把“Wash your hands”翻譯成 500 多種語言,在我看來是小問題、大貢獻。
語料
語料庫是跨語言詞嵌入訓練中第一個需要考慮的問題。對于訓練,通常來說平行語料庫好于可比語料庫好于相互獨立的單語語料庫。當然,它們的獲取難度是越來越小的。要應付 500 多種語言,意味著絕大多數只能是各自的單語語料庫。這樣的前提又會造成監督信息獲取的困難,因此作者選擇無監督學習的解決方案。
映射
跨語言詞嵌入無監督學習,第一個應當想到什么?對,MUSE [1](又是 Facebook,他們在跨語言詞嵌入方面是真的強)。
找尋
回歸到“wash your hands”這個具體問題,它是一個 phrase 不是一個單詞,因此下一個棘手問題就是怎么找到這個 phrase 的對應。作者決定除了找“wash your hands”本身,還找它的組成部分如“wash your”和“your hands”等。在 MUSE 訓練(映射)后的目標語言 embeddings 空間中找離這些詞組位置最近的 n-grams 作為它們的翻譯。注意!是 n-grams 而不是單詞,因為作者的假設是,phrase 的翻譯一般還是個 phrase。
組合
最后一步就是組合出“wash your hands”的正確翻譯,比如通過上一步找尋,在目標語言中找到了“wash your feet”的對應 n-gram,那這里就需要再次利用跨語言詞嵌入,找出“feet”的對應翻譯并作替換。
效果評價
畢竟有 500 多種語言,很難去說翻譯是否完全正確、地道。對于 Google Translate 支持的語言,可以反翻譯回英語做對比。其他語言至少可以借助詞典看關鍵詞是否翻對。畢竟人對語言的理解是基于 context 的,在實際應用中,大致翻出來總比沒有好。
[1]?https://github.com/facebookresearch/MUSE
多語言 COVID-19 問答助手
關鍵詞:多語言,問答系統
原文鏈接:https://blog.ml6.eu/how-ml6-built-a-multilingual-covid-19-assistant-powered-by-nlp-9c75bc4ea0c1
僅用 3 天就做成的支持 16 種語言的線上問答系統:
https://corona.ml6.eu
信息源
畢竟是事關 COVID-19 的問答系統,信息源的選擇非常重要,這樣才能從根本上杜絕假新聞。下一步,爬內容,作者選擇 scrapy [1] 從可靠信息源的 FAQs 爬取了約 500 個問答對。
句嵌入
如果是簡單的基于關鍵詞的搜索,作者推薦用 elasticsearch [2]。不過這樣就沒什么 word embedding 什么事了,為了讓搜索更寬泛(基于語義),作者決定訓練 embedding。
畢竟是 2020 年,別再什么 word2vec 了,直接基于上下文的詞嵌入;再想想又是問答系統,直接訓練句嵌入好了。因此,作者選擇 Google 的 The Universal Sentence Encoder [3]。
正好上述模型支持 16 種語言,那就順帶支持多語言搜索好了。反正都在一個跨語言嵌入空間里。模型什么的直接用 TF Hub [4] 上現成的,一行搞定。
搜索
因為應用場景是用戶提問題,因此句嵌入空間只需要計算所有問題的句子的就行了。當用戶輸入問題時,只需要在句嵌入空間中找到最接近的句子,返回相應答案。
因為只有約 500 句,因此計算相似度直接遍歷并計算就行了,如果 embeddings 多,作者推薦可以用:
faiss [5](來自Facebook)
annoy [6](來自Spotify)
elastic [7]
工程
工程方面我了解有限,先列出來,以后多學習。
API 基于 Zalando 的 connexion [8] 框架。
部署到 Google Cloud Platform(GCP),因為就一個 container,所以選擇 Cloud Run [9]。
用 Cloud Functions [10] 和 Cloud Scheduler?[11] 每天早上自動更新問答庫。
ML6公司
這個工作來自一家叫 ML6 的比利時 AI 公司,在歐洲多地有辦公室。瀏覽了下公司網頁覺得很酷,有種 Deepmind 等尚未被巨頭收購,但已不是小 startup 的感覺,值得關注。
ML6公司官網:https://ml6.eu
[1] https://scrapy.org
[2] https://www.elastic.co/cn/
[3] https://research.google/pubs/pub46808/
[4] https://tfhub.dev
[5] https://github.com/facebookresearch/faiss
[6] https://github.com/spotify/annoy
[7] https://www.elastic.co/cn/
[8] https://github.com/zalando/connexion
[9] https://cloud.google.com/run
[10] https://cloud.google.com/functions
[11] https://cloud.google.com/scheduler
COVID-BERT 及 COVID-QA
這個時候肯定少不了 BERT 出一分力。
德國 startup deepset [1] 基于 COVID-19 相關文章 fine-tune 了一個 COVID-BERT 預訓練模型,該模型在 HUGGING FACE?[2] 的 Transformers 中可以直接用:
https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
基于 COVID-BERT,作者搭建了 COVID-QA:
https://covid.deepset.ai/home
這是個非常標準的從 BERT 到 QA 系統的實例,想了解一整套代碼的看這里:
https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help
[1] https://deepset.ai
[2] https://huggingface.co
CORD-19-SeVeN:基于CORD-19數據集的無監督關系嵌入訓練
原文鏈接:https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter
關系嵌入對于醫學相關的文本分析、應用尤其重要,比如可以提取(癥狀,藥品)等關系。
此工作基于 COVID-19 研究的數據集 CORD-19 [1] 訓練關系嵌入。
雖然詞嵌入空間中,詞與詞的語義關系也可以被其相對空間位置表示,但并不是每種關系都在空間中井然有序的:
SeVeN(Semantic Vector Networks)通過詞對的來建立關系嵌入的模型。該模型來自 COLING 2018 的文章 SeVeN: Augmenting Word Embeddings with Unsupervised Relation Vectors [2]。
(這篇文章可能會對無監督的“文本 -> 詞嵌入 -> 知識網絡”的思路有些啟發,因此將會在詞嵌入雜談專欄中做單獨介紹。)嫌讀論文累的可以先看作者的 Blog:
https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78
[1] https://www.semanticscholar.org/cord19
[2] https://www.aclweb.org/anthology/C18-1225.pdf
以上就是詞嵌入新鮮事的第一期。祝大家身體健康!力所能及的前提下用 NLP 讓世界多美好一點點。
Stay Hungry. Stay Foolish.
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的Word Embedding News | 词嵌入新鲜事:COVID-19特刊的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一般在公司干多久会升职 入职前
- 下一篇: 超详综述 | 基于深度学习的命名实体识别