NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介
NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等論文選介
2016-12-12小 S程序媛的日常
過去一周,最受關(guān)注的學(xué)術(shù)界盛事就是在美麗的巴塞羅那召開的 NIPS 2016 大會啦。每年 NIPS 的會議上,都會有非常重量級的 tutorial 和工作發(fā)表。今天給大家推薦和分享的是如下幾篇論文:
Value Iteration Networks (NIPS 2016 Best Paper)
Dual Learning for Machine Translation (NIPS 2016)
Review Networks for Caption Generation (NIPS 2016)
Visual Question Answering with Question Representation Update (QRU) (NIPS 2016)
Gated-Attention Readers for Text Comprehension (ICLR 2017 submission)
VIN
Value Iteration Networks (NIPS 2016 Best Paper)
作為今年的 NIPS 2016 Best Paper 得主,相信大家之前都已經(jīng)被各種文案刷屏啦。實至名歸的一篇工作!其背后的 idea 很巧妙。其 idea 的主要 motivation 來自兩個觀察,第一個觀察就是認(rèn)為 planning 應(yīng)該作為 policy 中的一個重要組成部分,所以應(yīng)該把 planning 的能力,作為 policy representation learning 過程中的一部分。然后第二個觀察,就是最巧妙的了,把 classic value iteration 的公式幾乎完美地和 ConvNet match 在了一起。
第一個觀察帶來的好處是,他們認(rèn)為,加入 planning 后,可以提高 RL model 的泛化能力。為此,他們認(rèn)為應(yīng)該在模型,從 observation 到 reactive policy 之間加入 planning module,也就是這個 Value Iteration Networks (VIN) 了。如下圖:
第二個觀察就是 VI 公式和 ConvNet 之間的映射。經(jīng)典的 VI 公式是這樣的:
于是乎,這篇論文的 VI module 是這樣設(shè)計的:把 R(s,a) 作為 ConvNet 的輸入,所以 R(s,a) 被作者稱為“reward image”,變成了 ConvNet 的一個多層的 input image。然后,就像這幅圖一樣:
有了 R(s,a) 作為 ConvNet 的 input 后,discounted transition probabilities P 就是 ConvNet 的 weights 了。max_Q 就對應(yīng)了 max pooling。最后多次 stack + re-feed,就可以實現(xiàn) K recurrence 的 iteration——也就是 Value interation 了。用一張 slides 圖來總結(jié):
在作者給出的 slides 里,作者還提到,很多時候,我們只需要用一部分 policy representation(planning 和 observation) 就足夠得到我們的 action 了。所以他們也引入了 attention,來提高效率:
Dual Learning for Machine Translation (NIPS 2016)
MSRA 大力宣傳的一篇論文。其背后的 idea 非常 straightforward,就是——把 Machine Translation 看成兩個 agents,agent A 和 agent B 互相教對方語言。這里的假設(shè)是,agent A 只懂自己的語言 language A,agent B 只懂自己的語言 language B。agent A 說的一句 x_A,經(jīng)過一個 A->B 的(weak)MT 模型(這其實是一個 noisy channel),得到一個 x_A’。這時候 agent B 雖然得到了一句 x_A’,但其實并不知道 agent A 本來是想講啥(語義),只能通過自己對于 language B 的掌握,來衡量一下 x_A’ 是否是合法的一句 language B 里的話(語法)。然后 agent B 也可以通過同樣的方式再把這句話“翻譯”回 agent A(又是一個 noisy channel),于是 agent A 就可以把再次獲得的 x_A’’,和它之前原始的那句 x_A 對照,來評價 reconstruction 的質(zhì)量。
對于一個真正的 RL 下的這個框架來說,我們擁有的其實是兩個大量的 monolingual 的語料 A 和 B,且 A、B 不需要 aligned。同時,我們有兩個 weak MT model,也就是 A->B 和 B->A。再同時,我們有兩個非常好的 language model,LM_A 和 LM_B,因為訓(xùn)練 LM 只需要 monolingual 的語料,所以 LM 很容易獲得。然后剛才說的 x_A -> x_A’,agent B 可以給出一個針對 x_A’ 的 reward,即 LM_B(x_A’)。而 x_A’ -> x_A’’,agent A 則可以針對 reconstruction 質(zhì)量,也給出一個 reward。這倆 reward 通過現(xiàn)象組合,再利用 policy gradient,就可以求解了。
最后來看一下一些實驗結(jié)果:
按照作者的說法,這種 dual task 還是非常多的:Actually, many AI tasks are naturally in dual form, for example, speech recognition versus text to speech, image caption versus image generation, question answering versus question generation (e.g., Jeopardy!), search (matching queries to documents) versus keyword extraction (extracting
keywords/queries for documents), so on and so forth. 但對此我覺得倒是值得 question。
同時,按照作者的說法,這個設(shè)定也不局限于 dual,不需要于兩個 agent,關(guān)鍵在于發(fā)現(xiàn) close-loop。Actually, our key idea is to form a closed loop so that we can extract feedback signals by comparing the original input data with the final output data. Therefore, if more than two associated tasks can form a closed loop, we can apply our technology to improve the model in each task from unlabeled data. 其實這里的意思就是,關(guān)鍵是發(fā)現(xiàn)一個 transitive 的過程,讓 reward 能傳遞下去,而不是在某個時候 fix 或者說 block 住。
另外,關(guān)于 reconstruction 應(yīng)用到 NLP 的各種 task 的思想,其實也很常見。這篇利用 dual learning 建模 reconstruction 是非常巧妙和漂亮的一個工作。除此之外,在 MT 領(lǐng)域,前面還有諾亞方舟的《Neural Machine Translation with Reconstruction》和來自 Google 的《Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation》的兩篇論文。在其他任務(wù)上,比如 response retrieval 和 generation 上,也有工作把 reconstruction loss 作為額外的 objective,線性結(jié)合進(jìn)去,這個思想就更直觀一點:想讓機(jī)器學(xué)會說自己的話,得先讓它能鸚鵡學(xué)舌吧。reconstruction loss 的利用,在 summarization 等任務(wù)上也屢見不鮮。大家可以自己多多挖掘。
Review Networks
Review Networks for Caption Generation (NIPS 2016)
這篇論文來自 Ruslan 教授的組,Ruslan 教授在 attention 和 generative models 一直都非常有 insight。在 soft attention 開始火起來時,他便有 hard + soft attention 結(jié)合的 wake-sleep 算法。這篇 NIPS 2016 的 Review Networks 論文,依然是一篇改進(jìn) attention 的 工作。同時,這種改進(jìn)既能 fit NLP 的 attention,也能 fit 進(jìn) Vision 里的 visual attention。
具體來說,我們在經(jīng)典的 attention-based seq2seq 模型里,attention 都是用來給 decoder 的。也就是說,我們把 encoder 里的東西,通過 attention,得到某種 representation,這種 representation 經(jīng)常是 soft attention 中的加權(quán)和,所以也會被稱為一種 summarization——對 encoder 的 input 的 summarization。這篇工作認(rèn)為,這種加權(quán)和還是比較 local,關(guān)注的會是比較局部的信息——他們希望能增加對于全局信息的關(guān)注。
為此,作者的方式就是增加了一個 review module,即題目中的 review networks,這樣建模后,我們上文提到的經(jīng)典 attention 就是他們提出的框架下的一個特例。
Review Networks 如上圖。通過左右對比,就更容易理解這個 Review Networks 的機(jī)制。它相當(dāng)于把原來求 attention 的部分,替換成了一個 LSTM 網(wǎng)絡(luò),來求得更 compact 更 global 的 attention——作者講這種 attention 得到的 encoded representation 稱為 fact。這個 Review Network 在 image captioning 的實驗結(jié)果看起來很不錯:
這里的 Disc Sup 全稱是 discriminative supervision,也是作者認(rèn)為有了 Review Network 后,得到的那些 facts 的另一個 benefit。即,可以 discrminatively 的判斷,是否 facts 得到的 words 包含在 caption 里。這種 Disc Sup 可以通過 multi-task learning 的框架來幫助提高訓(xùn)練效果。
QRU
Visual Question Answering with Question Representation Update (QRU) (NIPS 2016)
VQA 這個任務(wù)雖然現(xiàn)在也很火,但做法許多都是在圖像一端做改進(jìn)。這篇論文則是從文本,也就是 question 這一端做改變。具體來說,它依照 image 中的 proposal 來不斷更新 question representation,其實就是讓 image information fuse into text (question)。在更早的一篇 ECCV 2016 submission《A Focused Dynamic Attention Model for Visual Question Answering》便明確指出了 fusion 這個詞(Multimodal Representation Fusion)。下圖一圖勝千言:
類似的思想其實有非常多變種,在不同領(lǐng)域,不同任務(wù)上都能找到相似的身影。比如在 NLP 的 Reading Comprehension 任務(wù)中,會為了讓 document representation 更“傾向”于 question,讓 document representation 不斷做基于 attention over question 的更新。這種更新一般通過 multiply function 來操作,結(jié)果就是讓 document representatio bias to question representation,從而使得更容易找到 document 中針對 question 的 answer(即 reading comprehension)。具體的一篇論文例子,可以看《Gated-Attention Readers for Text Comprehension (ICLR 2017 submission)》。也是 Ruslan 的工作,很早放在 arXiv 上,ICLR submission 這個版本改進(jìn)了寫作,related work 部分也值得一看。模型乍看比較復(fù)雜,但是還是好理解的:
在做 Reading Comprehension 的任務(wù)時,這篇工作相當(dāng)于不斷去更新 document representation,同時也要重新 embed question。
今天的分享就到這里啦,歡迎大家與我們多多交流。我們下次見!(努力不跳票……
總結(jié)
以上是生活随笔為你收集整理的NIPS 2016 | Best Paper, Dual Learning, Review Network, VQA 等论文选介的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICLR 2017 | Attentio
- 下一篇: ACL 2016 | Modeling