當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Word Embedding News | 词嵌入新鲜事：COVID-19特刊

發布時間：2024/10/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 Word Embedding News | 词嵌入新鲜事：COVID-19特刊小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

這里是 WEN（Word Embedding News）｜詞嵌入新鮮事。

作為起步，它將基于 Sebastian Ruder NLP News 的每月篩選，聚焦詞嵌入領域。對涉及內容在個人閱讀后的基礎上進行總結、評論。不簡單復制，力求做到小而精。

關于作者：張正，坐標巴黎，上班NLP，下班詞嵌入。

本期關注 word embedding 在 COVID-19 中的應用：

機器翻譯：如何將“Wash your hands”翻譯成 500 多種語言
問答系統：多語言 COVID-19 智能問答助手?
預訓練模型：基于 COVID-Bert 的又一個智能問答助手?
COVID-QA 關系抽取：基于 CORD-19 (COVID-19 Open Research Dataset) 數據集的無監督關系嵌入（relation embeddings）訓練

如何將“Wash your hands”翻譯成500多種語言

關鍵詞：cross-lingual word embeddings，機器翻譯，MUSE

原文鏈接：https://datadan.io/blog/wash-your-hands

不要以為 Google Translate 已經解決所有問題了，稀有語種一直是令 NLP 頭疼的大問題。世界上現存 7117 種語言，而 Google Translate 僅能覆蓋常見的約 100 種語言。而 COVID-19 是無國界、不分語言的，因此把“Wash your hands”翻譯成 500 多種語言，在我看來是小問題、大貢獻。

語料

語料庫是跨語言詞嵌入訓練中第一個需要考慮的問題。對于訓練，通常來說平行語料庫好于可比語料庫好于相互獨立的單語語料庫。當然，它們的獲取難度是越來越小的。要應付 500 多種語言，意味著絕大多數只能是各自的單語語料庫。這樣的前提又會造成監督信息獲取的困難，因此作者選擇無監督學習的解決方案。

映射

跨語言詞嵌入無監督學習，第一個應當想到什么？對，MUSE [1]（又是 Facebook，他們在跨語言詞嵌入方面是真的強）。

找尋

回歸到“wash your hands”這個具體問題，它是一個 phrase 不是一個單詞，因此下一個棘手問題就是怎么找到這個 phrase 的對應。作者決定除了找“wash your hands”本身，還找它的組成部分如“wash your”和“your hands”等。在 MUSE 訓練（映射）后的目標語言 embeddings 空間中找離這些詞組位置最近的 n-grams 作為它們的翻譯。注意！是 n-grams 而不是單詞，因為作者的假設是，phrase 的翻譯一般還是個 phrase。

組合

最后一步就是組合出“wash your hands”的正確翻譯，比如通過上一步找尋，在目標語言中找到了“wash your feet”的對應 n-gram，那這里就需要再次利用跨語言詞嵌入，找出“feet”的對應翻譯并作替換。

效果評價

畢竟有 500 多種語言，很難去說翻譯是否完全正確、地道。對于 Google Translate 支持的語言，可以反翻譯回英語做對比。其他語言至少可以借助詞典看關鍵詞是否翻對。畢竟人對語言的理解是基于 context 的，在實際應用中，大致翻出來總比沒有好。

[1]?https://github.com/facebookresearch/MUSE

多語言 COVID-19 問答助手

關鍵詞：多語言，問答系統

原文鏈接：https://blog.ml6.eu/how-ml6-built-a-multilingual-covid-19-assistant-powered-by-nlp-9c75bc4ea0c1

僅用 3 天就做成的支持 16 種語言的線上問答系統：

https://corona.ml6.eu

信息源

畢竟是事關 COVID-19 的問答系統，信息源的選擇非常重要，這樣才能從根本上杜絕假新聞。下一步，爬內容，作者選擇 scrapy [1] 從可靠信息源的 FAQs 爬取了約 500 個問答對。

句嵌入

如果是簡單的基于關鍵詞的搜索，作者推薦用 elasticsearch [2]。不過這樣就沒什么 word embedding 什么事了，為了讓搜索更寬泛（基于語義），作者決定訓練 embedding。

畢竟是 2020 年，別再什么 word2vec 了，直接基于上下文的詞嵌入；再想想又是問答系統，直接訓練句嵌入好了。因此，作者選擇 Google 的 The Universal Sentence Encoder [3]。

正好上述模型支持 16 種語言，那就順帶支持多語言搜索好了。反正都在一個跨語言嵌入空間里。模型什么的直接用 TF Hub [4] 上現成的，一行搞定。

搜索

因為應用場景是用戶提問題，因此句嵌入空間只需要計算所有問題的句子的就行了。當用戶輸入問題時，只需要在句嵌入空間中找到最接近的句子，返回相應答案。

因為只有約 500 句，因此計算相似度直接遍歷并計算就行了，如果 embeddings 多，作者推薦可以用：

faiss [5]（來自Facebook）
annoy [6]（來自Spotify）
elastic [7]

工程

工程方面我了解有限，先列出來，以后多學習。

API 基于 Zalando 的 connexion [8] 框架。
部署到 Google Cloud Platform（GCP），因為就一個 container，所以選擇 Cloud Run [9]。
用 Cloud Functions [10] 和 Cloud Scheduler?[11] 每天早上自動更新問答庫。

ML6公司

這個工作來自一家叫 ML6 的比利時 AI 公司，在歐洲多地有辦公室。瀏覽了下公司網頁覺得很酷，有種 Deepmind 等尚未被巨頭收購，但已不是小 startup 的感覺，值得關注。

ML6公司官網：https://ml6.eu

[1] https://scrapy.org

[2] https://www.elastic.co/cn/

[3] https://research.google/pubs/pub46808/

[4] https://tfhub.dev

[5] https://github.com/facebookresearch/faiss

[6] https://github.com/spotify/annoy

[7] https://www.elastic.co/cn/

[8] https://github.com/zalando/connexion

[9] https://cloud.google.com/run

[10] https://cloud.google.com/functions

[11] https://cloud.google.com/scheduler

COVID-BERT 及 COVID-QA

這個時候肯定少不了 BERT 出一分力。

德國 startup deepset [1] 基于 COVID-19 相關文章 fine-tune 了一個 COVID-BERT 預訓練模型，該模型在 HUGGING FACE?[2] 的 Transformers 中可以直接用：

https://huggingface.co/deepset/covid_bert_base?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

基于 COVID-BERT，作者搭建了 COVID-QA：

https://covid.deepset.ai/home

這是個非常標準的從 BERT 到 QA 系統的實例，想了解一整套代碼的看這里：

https://github.com/deepset-ai/COVID-QA?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter#heart-how-you-can-help

[1] https://deepset.ai

[2] https://huggingface.co

CORD-19-SeVeN：基于CORD-19數據集的無監督關系嵌入訓練

原文鏈接：https://github.com/luisespinosaanke/cord-19-seven?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

關系嵌入對于醫學相關的文本分析、應用尤其重要，比如可以提取（癥狀，藥品）等關系。

此工作基于 COVID-19 研究的數據集 CORD-19 [1] 訓練關系嵌入。

雖然詞嵌入空間中，詞與詞的語義關系也可以被其相對空間位置表示，但并不是每種關系都在空間中井然有序的：

SeVeN（Semantic Vector Networks）通過詞對的來建立關系嵌入的模型。該模型來自 COLING 2018 的文章 SeVeN: Augmenting Word Embeddings with Unsupervised Relation Vectors [2]。

（這篇文章可能會對無監督的“文本 -> 詞嵌入 -> 知識網絡”的思路有些啟發，因此將會在詞嵌入雜談專欄中做單獨介紹。）嫌讀論文累的可以先看作者的 Blog：

https://medium.com/voice-tech-podcast/seven-semantic-vector-networks-9b0329383a78

[1] https://www.semanticscholar.org/cord19

[2] https://www.aclweb.org/anthology/C18-1225.pdf

以上就是詞嵌入新鮮事的第一期。祝大家身體健康！力所能及的前提下用 NLP 讓世界多美好一點點。

Stay Hungry. Stay Foolish.

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優質內容以更短路徑到達讀者群體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。?

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術干貨。我們的目的只有一個，讓知識真正流動起來。

?????來稿標準：

? 稿件確系個人原創作品，來稿需注明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）?

? 如果文章并非首發，請在投稿時提醒并附上所有已發布鏈接?

? PaperWeekly 默認每篇文章都是首發，均會添加“原創”標志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請單獨在附件中發送?

? 請留下即時聯系方式（微信或手機），以便我們在編輯發布時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結

以上是生活随笔為你收集整理的Word Embedding News | 词嵌入新鲜事：COVID-19特刊的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：一般在公司干多久会升职入职前
下一篇：超详综述 | 基于深度学习的命名实体识别