TensorFlow 自动文本摘要生成模型,2016
TensorFlow 自動文本摘要生成模型
textsum: Text summarization with TensorFlow | Google Research Blog
(文/ 谷歌大腦軟件工程師 ?Peter Liu) 每天,人們都依靠大量的信息源,來獲取信息,從新聞報道到社交媒體帖子再到搜索結果。能夠針對長文本自動生成精確摘要的機器學習模型對于以壓縮形式處理大量信息是非常有用的,這也是谷歌大腦(Google Brain)團隊的一個長期目標。
對于機器來說,摘要也可以用作一個有趣的閱讀理解測試。為了做好摘要,機器學習模型需要能夠理解文檔、提取重要信息,這些任務對于計算機來說是極具挑戰(zhàn)的,特別是在文檔長度增加的情況下。
為了推動這一研究,我們開源了在Annotated English Gigaword ——一個摘要研究中常用數據庫中執(zhí)行生成新聞標題任務的Tensor Flow模型代碼。我們還列舉了文檔中的超參數,在使用ROUGE(metric)驗證的最常用模型中,我們的超參數在寫作時間上可以獲得當下最好的結果。
模型地址:https://github.com/tensorflow/models/tree/master/textsum
昨日, Google Research 發(fā)布博客 稱開源了在 Annotated English Gigaword 上進行新聞標題生成任務的 TensorFlow 模型代碼:https://github.com/tensorflow/models/tree/master/textsum。
人們每天都依賴大量信息源,從新聞到社交媒體推送,再到各種搜索結果。因此,開發(fā)出能夠自動提取長文本摘要的機器學習模型對消化如此大量的信息非常有幫助,這也是 Google Brain 團隊的長期目標。
摘要也可作為對機器閱讀理解能力的測試。為了更好的進行摘要,機器學習模型需要能夠理解文本并提取重要信息,這對計算機而言是具有高度挑戰(zhàn)性的任務,特別是在文本長度增加時。
為努力推動這一研究的前進,我們開源了在 Annotated English Gigaword 上進行新聞標題生成任務的 TensorFlow 模型代碼 。Annotated English Gigaword 是一個在機器摘要研究中經常使用的數據集。我們也詳細說明了取得比如今公開的頂級模型(在常用的度量標準上)更好成果的超參數。下面,我們也提供了由該模型生成的樣本。
提取和概括摘要
進行摘要的一種方式是提取文檔中因一些度量標準(例如,逆文檔頻率)被認為有趣的部分內容,并將它們結合在一起形成摘要。里面的算法被稱為提取摘要。
原始文本: Alice and Bob took the train to visit the zoo. They saw a baby giraffe, a lion, and a flock of colorful tropical birds.
提取摘要 : Alice and Bob visit the zoo. saw a flock of birds.上面我們提取了原始文本中加粗的詞,并將它們連起來形成一個摘要。我們可以看到,提取摘要有時讓句子讀起來很怪,語法也很奇怪。
另一種方法是像人一樣做簡單摘要,這種方法不會強加以提取限制,允許改變措辭。這種方法被稱為概括摘要(abstractive summarization)。
概括摘要: Alice and Bob visited the zoo and saw animals and birds.
在這個例子中,我們用了幾個原始文本中沒有的詞,用數量差不多的詞保留了原始文本中包含的更多的信息。所以我們當然更傾向于使用概括摘要,但是一個算法要怎么做概括摘要呢?
關于 TensorFlow 模型
事實證明它可以用于更短的文本,在這個模型中,能用序列到序列的深度學習技巧以端到端的方式進行摘要,類似于讓收件箱做智能回復。特別地是,我們可以訓練這類模型來產生非常好的新聞標題。在這個案例中,該模型讀取了文章文本,并寫下一條適當的標題。
為了了解該模型產生了什么,你可以看一下下面的例子。第一欄顯示新聞的第一句話作為模型輸入,第二欄顯示為模型寫出的標題。
未來的研究
我們已經觀察到,由于新聞標題的天然性質,該模型只要讀取文章開頭的幾個句子就能生成較好的標題。但是這項任務只是很好地證明了這個概念,我們要開始尋找比新聞文章更難的數據集,需要讀取整個文檔來生成好的摘要。在這些任務中,從頭開始訓練這個模型架構不需要做那些我們正在研究的其他技術中需要做的事情,但是我們以它為基準。我們希望這個開源也能作為其他研究者的摘要研究的基準。
總結
以上是生活随笔為你收集整理的TensorFlow 自动文本摘要生成模型,2016的全部內容,希望文章能夠幫你解決所遇到的問題。

- 上一篇: linux dd命令使用详解
- 下一篇: 数据的规范化,归一化,标准化,正则化