NAACL 2019最佳论文:量子概率驱动的神经网络
作者丨李秋池、王本友
學(xué)校丨帕多瓦大學(xué)博士生
研究方向丨信息檢索/自然語(yǔ)言處理
今天要介紹的文章與當(dāng)前大火的 BERT 同獲最佳論文,摘得 NAACL 2019 最佳可解釋NLP論文(Best Explainable NLP Paper)。NAACL 與 ACL 和 EMNLP 并稱之為 NLP 三大頂會(huì),去年 ELMO 獲得 outstanding paper,今年一共有五篇最佳論文,分別是 Best Thematic Paper,Best Explainable NLP Paper,Best Long Paper 以及最佳短文和最佳 resource 論文。
?
目前用深度學(xué)習(xí)的方法來(lái)做 NLP 任務(wù)已經(jīng)越來(lái)越火了,很多具有復(fù)雜結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)被聲稱在給定規(guī)范良好的輸入和輸出的某些數(shù)據(jù)集有著更好表現(xiàn)。但是神經(jīng)網(wǎng)絡(luò)本身的可解釋性的問(wèn)題,像一顆定時(shí)炸彈,始終縈繞在大家心頭。
如果始終在 how 的問(wèn)題上,在應(yīng)用上下猛藥,也可能像煉丹術(shù)一樣,有可能并沒(méi)有對(duì)準(zhǔn)病癥。而 why 的問(wèn)題,也就是它為什么 work 的機(jī)制,是一個(gè)更難的問(wèn)題,正吸引越來(lái)越多的研究者從不同的角度和視野去挑戰(zhàn)。
哈士奇還是狼?
對(duì)于神經(jīng)網(wǎng)絡(luò)的工作原理,有一個(gè)形象的例子,那就是哈士奇還是狼(husky or wolf)的問(wèn)題 [1]。大部分人都可以很正確地判斷出左圖中的動(dòng)物是狼,而右圖中的動(dòng)物是哈士奇,這兩個(gè)圖對(duì)人而言還是相對(duì)不難。不出意外地,神經(jīng)網(wǎng)絡(luò)模型也能夠把這兩張圖分得很準(zhǔn)。
??
當(dāng)讓神經(jīng)網(wǎng)絡(luò)模型分下面這張圖,它就凌亂了,認(rèn)為下圖是狼。
?
原來(lái)神經(jīng)網(wǎng)絡(luò)模型分類這兩個(gè)類別,靠的是背景,而不是真的知道哈士奇和狼之間細(xì)微的區(qū)別。換句話說(shuō),一旦哈士奇大哥偶爾跑到雪地上,神經(jīng)網(wǎng)絡(luò)就傻眼了。如果有一天用戶或者產(chǎn)品經(jīng)理跑過(guò)來(lái)說(shuō),這只站在雪地里的哈士奇,一定要在下一個(gè)版本被正確地分類,那么這時(shí)候負(fù)責(zé)模型設(shè)計(jì)人員多半會(huì)手足無(wú)措。
提到這一個(gè)例子的目的是說(shuō)明,因?yàn)樯窠?jīng)網(wǎng)絡(luò)內(nèi)部本身的約束非常少,神經(jīng)元的值可以在任意的取值區(qū)間,這使得神經(jīng)網(wǎng)絡(luò)只是被當(dāng)做一個(gè)黑盒子去擬合輸入輸出,其內(nèi)部的機(jī)制并不能夠被大家所清晰地理解。因此,目前的神經(jīng)網(wǎng)絡(luò)往往并不是十全完美的解決方案,而需要改進(jìn)結(jié)構(gòu)的設(shè)計(jì)便于人們理解其內(nèi)部的機(jī)制。
可解釋性 (Interpretation)
可解釋性的問(wèn)題較早就有人提出來(lái),有著不一樣的叫法,比如 interpretable, explainable, intelligible, transparent 和 understandable,不一而足。
值得提到的是此處的可解釋性與推薦系統(tǒng)的推薦理由或多或少有一些聯(lián)系和細(xì)微的區(qū)別,本文提到的可解釋性并不限于對(duì)于機(jī)器學(xué)習(xí)某個(gè)預(yù)測(cè)(某個(gè)特定 case)的理由,更多的理解為對(duì)這個(gè)模型的通用(general)的理解。無(wú)論何種理解,可解釋性都與最終的性能關(guān)系并不緊密。
通常,可解釋性是人們?cè)跈C(jī)器學(xué)習(xí)模型中尋求的各種特征的代理。這些輔助的特征可能是公平性(Fairness,能否減輕各類偏見 bias?),可靠性(Reliability),因果(Causality,是一種相關(guān)性還是因果性?如分類哈士奇和狼是靠的兩種類別之間的差異,還是由于背景帶來(lái)的相關(guān)性),可信度(Trust,模型能夠知道預(yù)測(cè)本身的置信度如何?)。
本文主要參考 Lipton 的說(shuō)法 [2],主要解釋為透明度 Transparency 和事后解釋性 Post-hoc Explainability。
前者 Transparency 主要關(guān)心模型的運(yùn)作機(jī)制和功能。這樣方便人類去做檢查,比如人工剔除模型的一些顯著的弱點(diǎn)。一旦發(fā)現(xiàn)了 bad cases,人類有辦法按照自己預(yù)期的目標(biāo),去干預(yù)和改變它的預(yù)測(cè)。在實(shí)時(shí)的應(yīng)用中,數(shù)據(jù)可能包含比標(biāo)注語(yǔ)料更多的噪音,所以透明性更加重要。
事后解釋性通常在模型訓(xùn)練完成之后的馬后炮解釋。在模型訓(xùn)練之后,比如對(duì)一些組件做一些統(tǒng)計(jì)分析,像對(duì) CNN 核的可視化,對(duì)機(jī)器翻譯 attention 的可視化 [3][4]。
CNM復(fù)值匹配網(wǎng)絡(luò)
值得注意的是,本文提到的可解釋網(wǎng)絡(luò)并非標(biāo)準(zhǔn)范式,本文作者給出一些新的神經(jīng)網(wǎng)絡(luò)范式,從新的角度去闡述可解釋性。
本文提到的網(wǎng)絡(luò)不同于多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)或遞歸神經(jīng)網(wǎng)絡(luò)。從網(wǎng)絡(luò)結(jié)構(gòu)本身,可以理解為一個(gè)玩具(toy)網(wǎng)絡(luò)(代碼開源在 Github 上),因?yàn)槟壳八且粋€(gè)較淺的神經(jīng)網(wǎng)絡(luò),在結(jié)果本身并沒(méi)有太大的競(jìng)爭(zhēng)力,關(guān)注的是可解釋性。
透明度和事后解釋性解釋為兩個(gè)稍微具體一點(diǎn)的研究問(wèn)題:
1. Transparency – 模型怎么工作的?網(wǎng)絡(luò)由什么驅(qū)動(dòng)來(lái)給出最終預(yù)測(cè)?
2. Post-hoc Explainability – 神經(jīng)網(wǎng)絡(luò)學(xué)到了什么?網(wǎng)絡(luò)中每一層某個(gè)神經(jīng)元的激活值大或者小意味著什么?
對(duì)于這兩個(gè)問(wèn)題,在本文的網(wǎng)絡(luò)架構(gòu)里姑且給出一個(gè)可能的思路就是:
1. 由量子概率來(lái)驅(qū)動(dòng)網(wǎng)絡(luò)來(lái)做出預(yù)測(cè);
2. 將同一個(gè)希爾伯特空間的狀態(tài)(state)來(lái)一統(tǒng)不同粒度的語(yǔ)言單元。包括可學(xué)習(xí)組件也將嵌入到與詞語(yǔ)相同的希爾伯特空間,這樣人們有機(jī)會(huì)去通過(guò)人類易于理解的語(yǔ)言單元(比如詞級(jí)別)來(lái)詮釋學(xué)習(xí)到的組件
?
動(dòng)機(jī)
量子物理認(rèn)為微觀粒子可以同時(shí)處于不同的狀態(tài)(量子疊加),這種有別于經(jīng)典物理的常識(shí),比如在沒(méi)有觀測(cè)之前,人們難以想象一個(gè)同時(shí)處于死了和或者的貓。不僅如此,一對(duì)糾纏粒子可以在相聚很遠(yuǎn)的時(shí)候,其中一個(gè)粒子的測(cè)量的結(jié)果可以影響到與之糾纏的另外一個(gè)粒子。
從量子物理發(fā)展來(lái)描述物理系統(tǒng)中的不確定的數(shù)學(xué)語(yǔ)言,是否對(duì)語(yǔ)言的形式化描述也有所裨益?這是本文關(guān)心的問(wèn)題。在語(yǔ)言本身,詞語(yǔ)存在一些不確定性,比如 apple 這個(gè)英文單詞可以是一種水果,也可以一個(gè)生產(chǎn) iPhone 和 Mac 的公司。如果把水果和生產(chǎn)?iPhone 和 Mac?的公司定義成基本語(yǔ)義單元,那么 apple 這個(gè)詞就可以認(rèn)為是這些基本語(yǔ)言單元的疊加態(tài)。
此外,詞語(yǔ)與詞語(yǔ)之間并不是完全獨(dú)立的,有人做過(guò)一個(gè)詞匯聯(lián)想實(shí)驗(yàn),有論文嘗試將這種詞匯聯(lián)想可以用量子糾纏來(lái)解釋 [5],更有相關(guān)的學(xué)者嘗試用量子力學(xué)的數(shù)學(xué)框架來(lái)構(gòu)建認(rèn)知模型,比如霍金的導(dǎo)師 Penrose 推崇的量子大腦這類大膽想法(當(dāng)然也招來(lái)大量批評(píng))。
本文的出發(fā)點(diǎn)是受上述觀點(diǎn)的啟發(fā),作者聲稱,量子力學(xué)去建模不確定的數(shù)學(xué)形式化是通用的(general),而且相對(duì)成熟,有潛力在建模語(yǔ)言的場(chǎng)景去嘗試。在語(yǔ)言中的不確定性首先體現(xiàn)在單詞級(jí)別的一次多義的場(chǎng)景里;次之,在語(yǔ)義組合的級(jí)別(意即如何組合多個(gè)詞的意思成一個(gè)詞組或者更大語(yǔ)義單元),也存在不同的組合方法。
用概率來(lái)驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)
通常對(duì)神經(jīng)網(wǎng)絡(luò)的批評(píng)來(lái)自于人們無(wú)法理解神經(jīng)元到底有什么物理含義,當(dāng)一個(gè)神經(jīng)元的值變大或者變小對(duì)當(dāng)前實(shí)例而言究竟是有什么意義。一個(gè)可行的方案是不在單獨(dú)去看一個(gè)神經(jīng)元,而是把神經(jīng)元組成一個(gè)簇(可以參看 Capsule Network [6]),對(duì)神經(jīng)元簇去做一個(gè)整體,每個(gè)神經(jīng)元簇是一個(gè)向量,向量的方向表征著不同的特性,長(zhǎng)度可以對(duì)應(yīng)一些強(qiáng)度(或者說(shuō)未經(jīng)歸一化前的概率)。
在量子的上下文下,將這一類的簇稱之為狀態(tài)。量子概率是一套基于投影幾何的概率理論,可以看做是一個(gè)更加 general 的概率理論。這些所有的狀態(tài)都是由一些基本基態(tài)組成的,這些基態(tài)被稱之為不可分割且互不相關(guān)的語(yǔ)言基本單元(義原),形式化為一些 one-hot 向量。一個(gè)越加豐富復(fù)雜的語(yǔ)言體系,應(yīng)有更多這樣的 one-hot 向量。
?
比如圖中是一個(gè)簡(jiǎn)化的例子,比如某種原始的動(dòng)物語(yǔ)言只有兩個(gè)基本義原,比如 yes 和 no,分別對(duì)應(yīng)于 |0> 和?|1>,分別是 one-hot 的向量 [1,0]?和 [0,1]。
在該動(dòng)物的意識(shí)深處永遠(yuǎn)處于一種糾結(jié)的狀態(tài),它“汪”一聲只能表示其中兩種意思的混合狀態(tài),但是有著不同程度,有時(shí)候是非常想說(shuō) yes 但是只是有一點(diǎn)不情愿,有時(shí)候是想說(shuō) no,這種不確定性可以由投影來(lái)測(cè)量,測(cè)量長(zhǎng)度的平方對(duì)應(yīng)于概率。
?
但是當(dāng)把三個(gè)這樣的原始動(dòng)物聚在一起,每個(gè)動(dòng)物都有著不情愿的程度,意即圖中不同的處于疊加的狀態(tài)。上帝問(wèn)“今天愿意去祭祀嗎?”(上帝的語(yǔ)言系統(tǒng)好像比大家都復(fù)雜豐富很多)。
這樣三只動(dòng)物就一起“汪汪汪”就一起叫了起來(lái),上帝把它們的狀態(tài)都往 (x 軸表示 yes)投影,然后對(duì)投影長(zhǎng)度的平方求平均,就知道這些動(dòng)物愿不愿意去祭祀的情況。?
更有趣的是,上帝仗著自己語(yǔ)言系統(tǒng)比較豐富,突然玩起了花樣,不再是問(wèn)“愿意還是不愿”,上帝問(wèn)“你們?nèi)齻€(gè)是不是都是半情愿半不情愿(50%-50%)”,然后把所有的狀態(tài)朝著 x 軸正方向和 y 軸正方向之間的 45 度角方向投影,投影最后的結(jié)果照樣把三個(gè)投影長(zhǎng)度的平方平均一下就可以得到最后的結(jié)果。
所以再推而廣之,那么對(duì)所有的方向都可以去做投影,最后的結(jié)果就類似圖中的虛線橢圓(虛線與實(shí)線向量相接的點(diǎn)描述投影的長(zhǎng)度,它的數(shù)學(xué)描述來(lái)自后文提到的密度矩陣)。
于是就把這樣的基于投影幾何的概率理論嘗試搬到語(yǔ)言建模中來(lái)。單詞被認(rèn)為是純的狀態(tài)疊加態(tài),就像圖中的單位向量。很多單詞一起的的混合系統(tǒng)就像圖中三個(gè)動(dòng)物一起的小集體,這樣的小集體的概率描述是一個(gè)圖中的虛線橢圓來(lái)描述(也就是密度矩陣),對(duì)混合系統(tǒng)的測(cè)量(就像上帝問(wèn)的問(wèn)題)的結(jié)果就呈現(xiàn)平均的結(jié)果。
如果選一組完備且正交的測(cè)量向量去測(cè)量這樣的混合系統(tǒng)(實(shí)際上本文用數(shù)據(jù)驅(qū)動(dòng)的方式去找一些更有判別力的測(cè)量向量),可以得到一組概率分布(即概率和為 1)。值得注意的是,所有狀態(tài)都是單位的,而且這樣的狀態(tài)向量都是復(fù)數(shù)的。
希爾伯特空間一統(tǒng)不同粒度的語(yǔ)言單元
?
上文對(duì)量子概率有了一個(gè)簡(jiǎn)短的描述,為了方便大家接受,丟棄了幾乎所有的數(shù)學(xué)形式化符號(hào),全部同簡(jiǎn)單的投影幾何的語(yǔ)言描述量子概率理論是如何在兩維的空間運(yùn)作。但是實(shí)際上語(yǔ)言本身應(yīng)該是更復(fù)雜,所以這樣互斥的基本語(yǔ)言單元的數(shù)量(也就是空間維度)的數(shù)量會(huì)更大,意即空間的維度更大。
這樣自然語(yǔ)言于物理形式化的語(yǔ)言的類比如下:
義原(不可分割的語(yǔ)言單元) <--> 基態(tài)
詞 <--> 疊加態(tài)?
詞組/N-gran <--> 混合態(tài)
語(yǔ)義測(cè)量 <-->? 投影算子 (投影方向?qū)?yīng)于網(wǎng)絡(luò)里面任意的一個(gè)疊加態(tài))
句子 <--> 和投影算子一一對(duì)應(yīng)的一組概率值
所有一些對(duì)應(yīng)的內(nèi)容均是有著良好的歸一化和數(shù)學(xué)約束,如下表所示:
幾乎每一個(gè)組建都有著相對(duì)較好的約束的定義,與之對(duì)應(yīng)的好處是,在整個(gè)神經(jīng)網(wǎng)絡(luò)中出現(xiàn)的神經(jīng)元要么是一個(gè)單位狀態(tài)的一個(gè)元素,抑或是概率值。
語(yǔ)義匹配
文本匹配是自然語(yǔ)言處理和信息檢索很常見的任務(wù),目標(biāo)是匹配兩個(gè)對(duì)象。源對(duì)象和目標(biāo)對(duì)象可以是查詢和文檔,問(wèn)題和答案,假設(shè)和推論,以及對(duì)話系統(tǒng)里兩個(gè) utterance。通常的做法是先對(duì)兩個(gè)文本對(duì)象構(gòu)建一個(gè)對(duì)稱的表示層,然后再在得到兩個(gè)表示上做一個(gè)交互層。
?
如圖所示,詞就像粒子一樣(同時(shí)處于不同的位置,有一個(gè)波函數(shù)來(lái)描述它出現(xiàn)的不同地方的概率,但是義原是離散的,所以它實(shí)際上是一個(gè)離散的概率分布來(lái)描述),被認(rèn)為是嵌入在希爾伯特空間的一個(gè)狀態(tài),也就是一個(gè)復(fù)數(shù)的單位狀態(tài)向量,一個(gè)在基本語(yǔ)義單元空間的復(fù)值權(quán)重的線性疊加(對(duì)應(yīng)在基本語(yǔ)義單元的一個(gè)概率分布)。
與 CNN 類似,本文用滑動(dòng)窗口來(lái)對(duì)一些列 N-gram 來(lái)構(gòu)建一個(gè)混合系統(tǒng),這樣混合系統(tǒng)的的概率屬性由一個(gè)密度矩陣來(lái)描述。本文模型將需要匹配的兩個(gè)文本對(duì)象各自的 N-gram 同時(shí)向一個(gè)投影平面投影,投影的長(zhǎng)度的平方對(duì)應(yīng)混合系統(tǒng)投影到該投影平面的概率。
根據(jù)投影長(zhǎng)度來(lái)判斷兩個(gè)文本對(duì)象是否匹配。如果兩個(gè)文本對(duì)象是匹配(比如該答案對(duì)應(yīng)正確的問(wèn)題),希望找到一些投影方向讓兩個(gè)密度矩陣投影后的長(zhǎng)度相近;反之希望投影長(zhǎng)度相差更大。
因?yàn)橥队捌矫媸怯梢粋€(gè)向量張成的子空間,該投影向量跟詞語(yǔ)同時(shí)嵌入在同一個(gè)希爾伯特空間,所以可以通過(guò)最靠近該投影向量的詞向量來(lái)理解投影向量可能蘊(yùn)含的含義。
?
選取了其中五個(gè)投影向量,將起最近的五個(gè)詞展示出來(lái)。由圖中學(xué)到的測(cè)量向量的含義可以通過(guò)詞語(yǔ)來(lái)描述。如下圖:
?
復(fù)值語(yǔ)義組合
?
將詞向量相加來(lái)表示句子一個(gè)非常常見的做法,在一些文本分類的任務(wù)中,直接對(duì)文本的所有詞的詞向量平均然后接一個(gè)全聯(lián)接層就可以得到不錯(cuò)的結(jié)果。但是這種直接加法是一種粗糙的做法,因?yàn)槠溆幸粋€(gè)非常強(qiáng)的假設(shè),那就是由詞組成的詞組/句子/文檔的含義是由其包含的詞線性相加得到的。
一個(gè)簡(jiǎn)單例子“artificial intelligence”的含義就是像人一樣工作的智能,基本可以由兩個(gè)詞的含義的線性疊加。另外一個(gè)例子是“ivory tower”的組合起來(lái)的意思,并不是一個(gè)由象牙做成的塔,而是心無(wú)旁騖追求自己目標(biāo)(通常為智慧方面)的樂(lè)土,這樣一個(gè)組合起來(lái)的意思并不能由象牙和塔的直接線性疊加。
復(fù)值(形如 z=a+bi 或者 z=r(cos θ+i sin θ))的表示可以隱式地表達(dá)更加豐富的語(yǔ)義組合。與傳統(tǒng)的實(shí)值詞向量相比,本文詞向量是由復(fù)值向量。每一個(gè)復(fù)數(shù)由一個(gè)實(shí)部和虛部組成,可將其轉(zhuǎn)換成振幅和相位的形式,振幅 (r) 對(duì)應(yīng)經(jīng)典的傳統(tǒng)的實(shí)數(shù)詞向量的值,而相位 (θ) 可能表征一些高階的語(yǔ)義。
當(dāng)對(duì)兩個(gè)復(fù)數(shù)相加時(shí),不是直接對(duì)振幅進(jìn)行相加,同時(shí)會(huì)考慮它們的相位信息,有的時(shí)候振幅相加會(huì)得到增益的效果,有時(shí)候可以得到相消的結(jié)果。這時(shí)候相位就像一種經(jīng)典的門的機(jī)制,它能夠控制如何讓兩種信息源如何融合起來(lái)。在組合大粒度語(yǔ)義單元時(shí),這樣額外的相位(作為一個(gè)種門機(jī)制)可以有潛力隱式建模非線性的語(yǔ)義組合。
?
網(wǎng)絡(luò)的結(jié)構(gòu)
?
網(wǎng)絡(luò)的結(jié)構(gòu)跟上文形式化建模一致,模型不涉及顯式的全聯(lián)接層,不包含卷積網(wǎng)絡(luò),不包循環(huán)或遞歸的神經(jīng)網(wǎng)絡(luò)單元。
本文模型用滑動(dòng)的窗口構(gòu)建兩個(gè)文本對(duì)象的 N-gram 的密度矩陣表示,然后采用一組測(cè)量投影操作,同時(shí)測(cè)量?jī)蓚€(gè)文本對(duì)象所有的 n-gram 窗口里的混合系統(tǒng)(由密度矩陣描述)。最后通過(guò)一組 max pooling 操作得到每個(gè)測(cè)量向量在所有 n-gram 最大的投影概率,最后通過(guò)向量的 cosine 距離得到匹配的分?jǐn)?shù)。
?
?
其中自底向上構(gòu)建密度矩陣的操作,也就是從 embedding 層到 mixture 層的做法如下(叉操作是外積/張量積,點(diǎn)操作是一個(gè)標(biāo)量乘以矩陣的每一個(gè)元素,加操作是矩陣點(diǎn)對(duì)點(diǎn)加法):
?
首先對(duì)選取的一個(gè) N-gram 窗口,對(duì)其中每一個(gè)詞向量用 l2-norm 歸一化(也就是直接除以它的長(zhǎng)度),然后計(jì)算該歸一化向量與其共軛轉(zhuǎn)置的外積(外積操作,如 x=[a,b], 外積是一個(gè) 22 的矩陣為 x=[[aa?,ab?],[a?b,bb?]] 大家常見的內(nèi)積操作的結(jié)果是一個(gè)標(biāo)量 ab?,? 是共軛轉(zhuǎn)置)。
由于向量經(jīng)過(guò)了歸一化,得到的外積矩陣有著良好的性質(zhì),對(duì)角線元素是實(shí)數(shù)且和為 1,非對(duì)角線元素是復(fù)數(shù)。然后把所有外積矩陣加權(quán)起來(lái)得到的是一個(gè)密度矩陣,權(quán)重是由詞向量的模經(jīng)過(guò) softmax 得到的一組和為 1 的向量,所以也能保證密度矩陣也是單位的(對(duì)角線元素和為 1)。其中一個(gè)好處是對(duì)網(wǎng)絡(luò)對(duì)不同的詞有著顯式的權(quán)重,這樣權(quán)重依賴于局部的上下文。
對(duì)于這樣一個(gè)的一個(gè)對(duì)詞向量本身的外積,在機(jī)器學(xué)習(xí)領(lǐng)域也是比較常見的操作,類似于推薦系統(tǒng)里面的特征交叉。對(duì)一個(gè)詞而言,其特征是其詞向量的每一個(gè)元素,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的假設(shè)空間簡(jiǎn)化為,采取外積操作后的矩陣相當(dāng)于構(gòu)造了一個(gè)二階的特征交叉矩陣作為新的特征,新的假設(shè)空間為?。
與本文自底向上構(gòu)建密度矩陣不同的是,也可以通過(guò)最大似然估計(jì)來(lái)得到密度矩陣,這類的方法最出名的當(dāng)屬發(fā)表在 2013 年 SIGIR 的 Alessandro Sordoni,Jianyun Nie 和 Yoshua Bengio 的量子語(yǔ)言模型 [7],本文自底向上構(gòu)建密度矩陣是能夠輕量地直接結(jié)合在神經(jīng)網(wǎng)絡(luò)里面。
?
Case Study
基于一個(gè)局部窗口構(gòu)建基于詞袋模型的密度矩陣表示,對(duì)于下列的 case 顯得更加有效。
文句和答句同時(shí)包含來(lái)某個(gè)實(shí)體(president of chief executive of Amtrak 與 Amtrak’spresident and chief executive),但是它們的順序有可能有一些顛倒,其中顛倒的本身會(huì)有一些詞的變化,比如從 of 變成 ’s。?
密度矩陣在一個(gè) local 的窗口內(nèi)是位置不敏感的,所以可以處理 Amtrak 與 president/chief executive 的交換的情況;而且有著顯式的詞權(quán)重建模,of 與 ’s 之類的詞由于本身詞頻高,可以與很多詞同時(shí)出現(xiàn),假想其應(yīng)該有更小的權(quán)重(實(shí)驗(yàn)結(jié)果基本支持該假想)。
第二個(gè)例子是一個(gè)稍難一點(diǎn)的例子,因?yàn)閮蓚€(gè)需要匹配的兩個(gè)文本片段,包含有一些不重疊的詞。這類匹配例子寄希望于詞向量的軟匹配能力。
??
結(jié)果
實(shí)驗(yàn)結(jié)果取得與一些經(jīng)典模型可比較的結(jié)果。由于評(píng)測(cè)的數(shù)據(jù)集相對(duì)比較小,在結(jié)果上提供的貢獻(xiàn)比較有限。相比較 CNN 和 RNN,本文模型相對(duì)較淺且參數(shù)有限,貢獻(xiàn)更多是體現(xiàn)提供一個(gè)新的視角來(lái)看待神經(jīng)網(wǎng)絡(luò)。
代碼已經(jīng)開源見:
https://github.com/wabyking/qnn
展望
短期看,暴力擬合數(shù)據(jù)會(huì)取得更好的結(jié)果。最近伯克利的研究人員聲稱,兒童只需要 18M 的存儲(chǔ)空間來(lái)掌握它們的母語(yǔ) [10],整個(gè)社區(qū)還有很長(zhǎng)的路要走。大數(shù)據(jù)大模型的紅利總有一天會(huì)吃完,未來(lái)人們不得不去摘取高枝上的果實(shí),啃難啃的骨頭。
長(zhǎng)期看,社區(qū)或許能從數(shù)學(xué)或者物理的角度來(lái)理解和分析深度學(xué)習(xí)中受益,或者結(jié)合語(yǔ)言特性本身,來(lái)設(shè)計(jì)一些具有較強(qiáng)動(dòng)機(jī)(而不是完全從經(jīng)驗(yàn)結(jié)果出發(fā))的模型和方法。
當(dāng)然實(shí)現(xiàn)這樣長(zhǎng)期的一些目標(biāo),也需要行業(yè)內(nèi)的科研和工程從業(yè)人員對(duì)一些有好的思路和想法有更多的寬容,在一個(gè)寬松的環(huán)境不再要求所有的論文的方法都去追求 the state of art;在一個(gè)良好設(shè)置的基準(zhǔn)線上能夠驗(yàn)證論文本身的觀點(diǎn)(即便是 toy model),就應(yīng)該是科學(xué)的論文;刷榜固不可少,小清新也別有風(fēng)味。
一個(gè)有潛力的物理啟發(fā)的研究方向是從當(dāng)前的一個(gè)低維的角度朝向指數(shù)高維度的張量空間,某些傳統(tǒng)神經(jīng)網(wǎng)絡(luò),被認(rèn)為是對(duì)應(yīng)于特定假設(shè)空間里高維參數(shù)張量的分解。例如單層 CNN 被認(rèn)為對(duì)應(yīng)于 CP 分解;某種特定設(shè)置下的多層 CNN 對(duì)應(yīng)于層次化Tucker分解 [8];RNN 則與張量鏈分解(Tensor Train Decomposition)有關(guān) [9]。
通過(guò)分析不同張量分解模型來(lái)理解其能近似的張量的秩(rank)能夠很好地了解神經(jīng)網(wǎng)絡(luò)的表達(dá)能力。不僅如此,基于高維張量空間的視角,有很大的潛力去指導(dǎo)設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。
參考文獻(xiàn)
[1] Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should i trust you?: Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. ACM, 2016.?
[2] Lipton, Zachary C. "The Mythos of Model Interpretability." Queue 16.3 (2018): 30.?
[3] Zeiler, Matthew D., and Rob Fergus. "Visualizing and understanding convolutional networks." European conference on computer vision. springer, Cham, 2014.?
[4] Ding, Yanzhuo, et al. "Visualizing and understanding neural machine translation." Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017.?
[5] Bruza, Peter, et al. "Is there something quantum-like about the human mental lexicon?." Journal of Mathematical Psychology53.5 (2009): 362-377.?
[6] Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. "Dynamic routing between capsules." Advances in neural information processing systems. 2017.?
[7] Sordoni, Alessandro, Jian-Yun Nie, and Yoshua Bengio. "Modeling term dependencies with quantum language models for IR." Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. ACM, 2013.?
[8] Cohen, Nadav, Or Sharir, and Amnon Shashua. "On the expressive power of deep learning: A tensor analysis." Conference on Learning Theory. 2016.?
[9] Khrulkov, Valentin, Alexander Novikov, and Ivan Oseledets. "Expressive power of recurrent neural networks." arXiv preprint arXiv:1711.00811 (2017).?
[10] https://news.berkeley.edu/2019/03/27/younglanguagelearners/
點(diǎn)擊以下標(biāo)題查看往期內(nèi)容推薦:?
ACL 2019 | 基于知識(shí)增強(qiáng)的語(yǔ)言表示模型
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
ICLR 2019最佳論文 | 用有序神經(jīng)元表達(dá)層次結(jié)構(gòu)
F-Principle:初探理解深度學(xué)習(xí)不能做什么
復(fù)旦大學(xué)邱錫鵬:詞法、句法分析研究進(jìn)展綜述
基于小樣本學(xué)習(xí)的意圖識(shí)別冷啟動(dòng)
從CNN視角看在自然語(yǔ)言處理上的應(yīng)用
自然語(yǔ)言處理中的語(yǔ)言模型預(yù)訓(xùn)練方法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢??答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的NAACL 2019最佳论文:量子概率驱动的神经网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 全网最具有挑战的NLP训练营是什么样的?
- 下一篇: CVPR 2019 | 旷视研究院提出T