时态知识图谱补全的方法及其进展
點(diǎn)擊上方藍(lán)字關(guān)注我們
時態(tài)知識圖譜補(bǔ)全的方法及其進(jìn)展
申宇銘,?杜劍峰
廣東外語外貿(mào)大學(xué)信息科學(xué)與技術(shù)學(xué)院,廣東 廣州 510420
摘要:時態(tài)知識圖譜是將時間信息添加到傳統(tǒng)的知識圖譜而得到的。近年來,時態(tài)知識圖譜補(bǔ)全受到了學(xué)術(shù)界的高度關(guān)注,并成為研究熱點(diǎn)之一??偨Y(jié)了目前時態(tài)知識圖譜補(bǔ)全的兩大類方法,即基于符號邏輯的方法和基于知識表示學(xué)習(xí)的方法,比較分析了兩類方法的優(yōu)缺點(diǎn),展望了未來時態(tài)補(bǔ)全方法的發(fā)展方向,還總結(jié)了7個用于時態(tài)知識圖譜補(bǔ)全的基準(zhǔn)數(shù)據(jù)集和若干代表性模型在基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果。
關(guān)鍵詞:時態(tài)知識圖譜?;?本體?;?表示學(xué)習(xí)
論文引用格式:
申宇銘, 杜劍峰. 時態(tài)知識圖譜補(bǔ)全的方法及其進(jìn)展[J]. 大數(shù)據(jù), 2021, 7(3): 30-41.
SHEN Y M, DU J F. Temporal knowledge graph completion:methods and progress[J]. Big Data Research, 2021, 7(3): 30-41.
1 引言
在人工智能飛速發(fā)展的背景下,知識圖譜(knowledge graph)被普遍地認(rèn)為是人工智能技術(shù)和系統(tǒng)中的重要組成部分,在智能搜索、網(wǎng)絡(luò)安全、金融風(fēng)險控制及電子商務(wù)等諸多領(lǐng)域得到了廣泛應(yīng)用。傳統(tǒng)的知識圖譜以(實(shí)體,關(guān)系,實(shí)體)或(實(shí)體,屬性,屬性值)三元組集合的方式來表達(dá)現(xiàn)實(shí)世界的概念、實(shí)體、事件及三者之間的關(guān)系。比如,三元組(姚明,身高,2.26米)和(姚明,國籍,中國)。2012年5月,谷歌公司發(fā)布了谷歌知識圖譜(Google knowledge graph),宣布以此為基礎(chǔ)構(gòu)建下一代智能化搜索引擎。這是知識圖譜名稱的由來,也標(biāo)志著大規(guī)模知識圖譜在語義搜索中的成功應(yīng)用。事實(shí)上知識圖譜技術(shù)淵源已久——從20世紀(jì)70年代的專家系統(tǒng)(expert system),到萬維網(wǎng)之父Tim BernersLee提出的語義網(wǎng)(semantic web),再到他后來提出的鏈接數(shù)據(jù)(linked data),都是知識圖譜的前身。可以說,知識圖譜的升溫是人工智能對數(shù)據(jù)處理與理解需求逐日增加而導(dǎo)致的必然結(jié)果。
時間是自然界中所有實(shí)體都具有的重要屬性,不少知識圖譜(如Freebase、Wikidata、DBpedia、YAGO等)具有時間標(biāo)記的知識。將時間信息引入三元組中所構(gòu)成的四元組集合稱作時態(tài)知識圖譜(temporal knowledge graph)。全球事件知識圖譜和沖突事件知識圖譜都是典型的基于事件的時態(tài)知識圖譜。此類知識圖譜不僅包含了事件之間的共指、因果和時序等關(guān)系,還描述了事件之間的規(guī)律和演化模式,對傳統(tǒng)的知識圖譜補(bǔ)充了時間信息,因而具有更大的應(yīng)用價值。時態(tài)知識圖譜示例如圖1所示。
圖1???時態(tài)知識圖譜示例
與傳統(tǒng)的靜態(tài)知識圖譜相似,時態(tài)知識圖譜中的知識也是不完備的,為了實(shí)現(xiàn)最大價值,其需要不斷地消化吸收新數(shù)據(jù),以完善知識體系。近年來,時態(tài)知識圖譜補(bǔ)全(temporal knowledge graph completion)方法應(yīng)運(yùn)而生,受到了學(xué)術(shù)界的高度關(guān)注,并成為研究熱點(diǎn)之一。這類方法基于時態(tài)知識圖譜的現(xiàn)有四元組數(shù)據(jù),建模預(yù)測真實(shí)存在的新四元組。這些預(yù)測得到的四元組經(jīng)過驗(yàn)證后,可被添加到時態(tài)知識圖譜中,作為其演化的結(jié)果。時態(tài)知識圖譜補(bǔ)全的方法在構(gòu)建大規(guī)模知識圖譜、相似度計(jì)算、關(guān)系抽取,以及基于知識圖譜問答等任務(wù)方面展現(xiàn)出巨大的應(yīng)用潛力。
為了能夠及時追蹤到補(bǔ)全方法在時態(tài)知識圖譜上的發(fā)展和應(yīng)用,本文首先給出時態(tài)知識圖譜補(bǔ)全的問題定義,回顧代表性的時態(tài)知識圖譜補(bǔ)全方法,然后對不同類別的方法進(jìn)行對比分析,給出可能的結(jié)合途徑,最后總結(jié)當(dāng)前時態(tài)知識圖譜評測的7個基準(zhǔn)數(shù)據(jù)集,并且給出幾個代表性的補(bǔ)全模型在其中3個基準(zhǔn)數(shù)據(jù)集上的評測結(jié)果。
2 問題定義
本節(jié)給出時態(tài)知識圖譜及其補(bǔ)全過程的定義,并介紹相關(guān)的評測任務(wù)。
定義2.1 時態(tài)知識圖譜。一個時態(tài)知識圖譜是一個四元組的集合。形式地說,任意給定實(shí)體集合E、關(guān)系集合R、有窮時間戳集合T,時態(tài)知識圖譜G是笛卡兒積E×R×E×T的一個子集。
比如,事件“2016—2020年期間,特朗普是美國總統(tǒng)”可以表達(dá)為四元組(美國,總統(tǒng),特朗普,[2016,2020])。類似地,事件“拜登于2021年當(dāng)選美國總統(tǒng)”可以表達(dá)為四元組(美國,總統(tǒng),拜登, 2021)。
定義2.2 時態(tài)知識圖譜補(bǔ)全。令E× R×E×T的一個子集W表達(dá)現(xiàn)實(shí)世界中所有成立的事實(shí),G為W的一個真子集。時態(tài)知識圖譜的補(bǔ)全是指:由G出發(fā),推理出不屬于G但是屬于W的事實(shí)。
例1 假設(shè)W={(a,簽訂合同,b,t1),(a,履行合同,b,t1+1),(a,簽訂合同,c,t2),(a,履行合同,c,t2+1)},且G={(a,簽訂合同,b,t1),(a,履行合同,c,t2+1)},則需要從G出發(fā)推理出事實(shí)(a,履行合同,b,t1+1)和(a,簽訂合同,c,t2)。
時態(tài)知識圖譜的補(bǔ)全評測任務(wù)主要有兩個:
● 給定頭實(shí)體a、關(guān)系r和時間戳t,補(bǔ)全尾實(shí)體,即(a,r,?,t);
● 給定尾實(shí)體b、關(guān)系r和時間戳t,補(bǔ)全頭實(shí)體,即(?,r,b,t)。
與傳統(tǒng)的知識圖譜補(bǔ)全問題不同,時態(tài)知識圖譜的補(bǔ)全更加強(qiáng)調(diào)事實(shí)成立的時效性,比如,四元組(特朗普,當(dāng)選,美國總統(tǒng),2016)和(特朗普,卸任,美國總統(tǒng),2015),第一個四元組是真實(shí)事實(shí),而第二個四元組是虛假事實(shí),去掉時間戳后,所得的兩個三元組(特朗普,當(dāng)選,美國總統(tǒng))和(特朗普,卸任,美國總統(tǒng))都是真實(shí)事實(shí)。因此,如何將事實(shí)成立的時效性信息融入傳統(tǒng)的補(bǔ)全模型是亟待解決的問題。
3 時態(tài)知識圖譜補(bǔ)全方法
目前,依據(jù)對符號處理的不同方式,時態(tài)知識圖譜的補(bǔ)全方法主要分為兩大類:一類是基于符號邏輯的方法,此類方法通過構(gòu)建領(lǐng)域本體,運(yùn)用飽和度技術(shù),推理出隱含存在的真實(shí)四元組;另一類是基于知識表示學(xué)習(xí)(knowledge representation learning)的方法,此類方法將符號映射到實(shí)值空間,采用數(shù)值運(yùn)算評估四元組的真實(shí)程度。
3.1 基于符號邏輯的方法
基于符號邏輯的時態(tài)數(shù)據(jù)查詢回答(logic-based temporal query answering)方法又分為兩類:一類以領(lǐng)域?yàn)橹行?#xff0c;另一類以時間為中心。
以領(lǐng)域?yàn)橹行牡姆椒俣ū倔w的構(gòu)建語言為描述邏輯,查詢語句為包含時態(tài)算子(next-time,previous-time,sincetime,until-time,future-time)和否定聯(lián)結(jié)詞的一階時態(tài)邏輯公式。以此為基礎(chǔ), Baader F等人分析了基于描述邏輯SHQ本體的時態(tài)查詢計(jì)算復(fù)雜性;Borgwardt S等人提出了基于描述邏輯DL-Lite族和EL本體的時態(tài)查詢推理算法,并分析了算法的計(jì)算復(fù)雜性。
以時間為中心的方法假定本體的構(gòu)建語言為時態(tài)描述邏輯,查詢語句為包含時態(tài)算子(next-time,previous-time,sincetime,until-time,future-time)的一階時態(tài)邏輯公式。以此為基礎(chǔ),Artale A等人設(shè)計(jì)了一種時態(tài)描述邏輯語言TQL,其包含past-time和future-time兩個一元時態(tài)算子,并在限定時態(tài)概念只出現(xiàn)在術(shù)語公理左側(cè)的情形下,證明了該邏輯語言支持時態(tài)查詢的一階重寫。GutiérrezBasulto V等人在限定時態(tài)查詢語言為時態(tài)原子語句的情形下,證明了時態(tài)本體EL-LTL的查詢問題是不可判定的,繼而通過引入若干語法上的限制條件識別出EL-LTL的若干可判定子片段,并證明了在某些子片段上的時態(tài)查詢回答是多項(xiàng)式時間可以完成的。Artale A等人全面研究了時態(tài)DL-Lite-LTL族下時態(tài)查詢的一階重寫問題,較完整地分析了時態(tài)查詢問題的計(jì)算復(fù)雜性。
例2 假設(shè)本體只包括一條規(guī)則“對所有x,y,t: R(x,y,t)→Q(x,y,t+1)”,其中謂詞R、Q分別表示簽訂合同和履行合同,考慮到例1中集合G={(a,簽訂合同,b,t1),(a,履行合同,c,t2+1)},由上述規(guī)則可以推理出隱含事實(shí)(a,履行合同,b,t1+1)。對于時態(tài)查詢q=(a,履行合同,?,t1+1),隱含的事實(shí) (a,履行合同,b,t1+1) 滿足該時態(tài)查詢q。
對比兩類方法,以領(lǐng)域?yàn)橹行牡姆椒ㄔ诓樵冋Z言的表達(dá)能力上要強(qiáng)于以時間為中心的方法,而以時間為中心的方法在本體的表達(dá)能力上要強(qiáng)于以領(lǐng)域?yàn)橹行牡姆椒?。同時,基于符號邏輯的方法在實(shí)際應(yīng)用中難以覆蓋大量真實(shí)的四元組,召回率較低,而且構(gòu)建本體時也要付出較高的人工成本。
3.2 基于知識表示學(xué)習(xí)的方法
本節(jié)先簡要回顧針對傳統(tǒng)知識圖譜的表示學(xué)習(xí)代表性方法,再以此為基礎(chǔ),綜述針對時態(tài)知識圖譜的表示學(xué)習(xí)方法。知識表示學(xué)習(xí)方法的基本原理是將給定的三元組數(shù)據(jù)映射到低維、高密度的數(shù)值空間,通過數(shù)值運(yùn)算評估未知三元組的真實(shí)程度。依據(jù)三元組評分函數(shù)的不同類型,傳統(tǒng)知識圖譜的表示學(xué)習(xí)方法大致分為3類:第一類是基于平移距離模型的方法,第二類是基于矩陣分解模型的方法,第三類是基于神經(jīng)網(wǎng)絡(luò)模型的方法。
基于平移距離模型的方法根據(jù)三元組中頭尾實(shí)體表示向量的距離來估計(jì)三元組的真實(shí)性。Bordes A等人提出了第一個平移距離模型TransE。該模型采用損失函數(shù)來估計(jì)三元組的真實(shí)程度,其中h為頭實(shí)體向量,r為關(guān)系實(shí)體向量,t為尾實(shí)體向量,L1和L2分別表示1-范數(shù)和2-范數(shù),而真實(shí)程度通??梢员欢x為損失函數(shù)值的相反數(shù)。根據(jù)最優(yōu)化目標(biāo),真實(shí)三元組的損失函數(shù)值應(yīng)該趨向于零,因此TransE不太適用于一對多、多對一或者多對多的關(guān)系建模。針對TransE模型的局限性,此后陸續(xù)涌現(xiàn)了TransH、TransR、TransD、TransG、RotatE等模型。
基于矩陣分解模型的方法采用形式的評分函數(shù)來評估三元組的真實(shí)程度,其中是關(guān)系依賴的矩陣,h和t分別是頭、尾實(shí)體向量。Nickel M等人提出了第一個矩陣分解模型,即RESCAL模型,用于三元組預(yù)測。此后,他們又提出了參數(shù)更少的全息嵌入(holographic embedding,HolE)模型。Yang B S等人將關(guān)系依賴的矩陣看作以實(shí)數(shù)構(gòu)成的對角矩陣,提出了DistMult模型。Trouillon T等人使用復(fù)數(shù)而不是實(shí)數(shù)構(gòu)造頭尾實(shí)體向量,并將關(guān)系依賴的矩陣看作以復(fù)數(shù)構(gòu)成的對角矩陣,提出了ComplEx模型。Liu H X等人為關(guān)系依賴矩陣引入正態(tài)性和可交換性約束來表達(dá)類比性質(zhì)(比如北京與中國的關(guān)系類似于巴黎與法國的關(guān)系),提出了ANALOGY模型,并證明了該模型是HolE和ComplEx等模型的一般化形式。此后,研究人員還陸續(xù)提出了SimplE、Tucker等模型。
基于神經(jīng)網(wǎng)絡(luò)模型的知識表示學(xué)習(xí)方法采用神經(jīng)網(wǎng)絡(luò)形式的評分函數(shù)來評估三元組的真實(shí)程度。Bordes A等人提出了語義匹配能量(semantic matching energy,SME)模型,該模型將頭實(shí)體與關(guān)系的交互模型和尾實(shí)體與關(guān)系的交互模型作為第一層網(wǎng)絡(luò),再將兩個交互模型的輸出組合起來構(gòu)成第二層網(wǎng)絡(luò)。Socher R等人提出了神經(jīng)張量網(wǎng)絡(luò)(neural tensor network,NTN)模型,該模型采用頭尾實(shí)體各自的線性變換模型以及它們之間交互的線性變換模型來構(gòu)造神經(jīng)網(wǎng)絡(luò),其中所有線性變換模型都使用不同的關(guān)系依賴矩陣。Dong X等人提出了多層感知器(multi-layer perceptron,MLP)模型,該模型采用關(guān)系和頭尾實(shí)體各自的線性變換模型共3個線性變換模型來構(gòu)造神經(jīng)網(wǎng)絡(luò),3個線性變換模型中使用的變換矩陣都不依賴于關(guān)系。
除了這3類方法,還有文獻(xiàn)討論了利用知識圖譜外部信息的知識表示學(xué)習(xí)方法,包括結(jié)合實(shí)體描述信息的方法、結(jié)合實(shí)體類型信息的方法、結(jié)合關(guān)系路徑信息的方法、結(jié)合邏輯規(guī)則的方法等。更多的傳統(tǒng)知識圖譜的表示學(xué)習(xí)方法參見參考文獻(xiàn)。
傳統(tǒng)知識圖譜中的知識在大多數(shù)情況下只在特定的時間內(nèi)有效,而一些事實(shí)(如演化的事件)往往出現(xiàn)在一個時間序列中。為了對時間序列中的事實(shí)進(jìn)行表示學(xué)習(xí),近年來涌現(xiàn)了不少針對時態(tài)知識圖譜的補(bǔ)全方法。依據(jù)對時間戳的處理方式,這些方法可以大致分為兩類:第一類是時間戳單獨(dú)編碼方法,第二類是基于序列學(xué)習(xí)的方法。
時間戳單獨(dú)編碼方法顯式地將時間戳建模為向量、矩陣或平面,再將時間戳的信息直接用于知識圖譜的補(bǔ)全。Jiang T S等人率先提出結(jié)合時態(tài)信息的知識圖譜補(bǔ)全模型,該模型由兩部分構(gòu)成,其中一個部分是由TransE獲得關(guān)系的表示向量,另一個部分由3種時態(tài)一致性約束(先后順序關(guān)系、時態(tài)不相交性、時態(tài)區(qū)間有效性)構(gòu)成。模型通過一個時態(tài)演化矩陣來刻畫不同關(guān)系之間的時態(tài)依賴性,具體地說,任意給定兩個時序依賴關(guān)系rk和rl,它們的時序評分函數(shù)定義為:,其中矩陣T是一個能夠編碼時序關(guān)系對的非對稱矩陣,此評分函數(shù)基本思想如圖2所示。
圖2???時態(tài)演化矩陣
在圖2中,r1是先于r2的時態(tài)關(guān)系,根據(jù)評分函數(shù)有,但是。Dasgupta S S等人結(jié)合了模型TransE和TransH的特點(diǎn),提出了HyTE時態(tài)表示學(xué)習(xí)模型。該模型首先將時間戳建模為關(guān)系依賴的超平面,然后利用TransH模型將頭、尾實(shí)體投影到該平面,最后利用TransE模型完成知識圖譜的補(bǔ)全工作。Ma Y P等人和Lacroix T等人都將時間戳看作第4個維度,分別擴(kuò)展了Tucker和ComplEx張量分解模型,再將時間戳的表示向量直接用于四元組真實(shí)程度的估計(jì)。Jain P等人在Lacroix工作的基礎(chǔ)上,將先后順序關(guān)系和循環(huán)關(guān)系(比如奧運(yùn)會每隔3年舉辦)的信息增加到評分函數(shù)中,用于圖譜的補(bǔ)全。Xu C J等人基于RotatE模型提出了時態(tài)旋轉(zhuǎn)模型,該模型將時間戳建模為旋轉(zhuǎn)復(fù)向量,將實(shí)體和關(guān)系表示為復(fù)向量,通過旋轉(zhuǎn)復(fù)向量與實(shí)體表示復(fù)向量的內(nèi)積運(yùn)算,將時態(tài)信息融合到實(shí)體的表示向量中,并利用基于距離TransE模型完成知識圖譜的補(bǔ)全。時間戳單獨(dú)編碼方法將時間信息看成連通實(shí)體與實(shí)體、關(guān)系與實(shí)體及關(guān)系與關(guān)系的橋梁。
基于序列學(xué)習(xí)的方法先設(shè)計(jì)一個序列學(xué)習(xí)模型,將時態(tài)信息融合到實(shí)體或關(guān)系的表示向量中,再用已有的表示學(xué)習(xí)模型估計(jì)帶有時態(tài)信息三元組的真實(shí)程度,從而完成時態(tài)知識圖譜的補(bǔ)全任務(wù)。Garcia-Duran A等人[32]將關(guān)系和時間戳的特征(年、月、日)構(gòu)成一個關(guān)系序列,通過一個線性層函數(shù),將關(guān)系和時間戳特征映射為同維數(shù)的向量,然后把該序列向量輸入一個長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)進(jìn)行編碼,學(xué)習(xí)到融合時間信息的關(guān)系表示向量,該具體過程如圖3所示。
圖3???融合時間信息的關(guān)系表示向量
在圖3中,關(guān)系“bornIn”與日期“1986”經(jīng)過LSTM模型后形成了融合時間信息的關(guān)系表示向量;最后,依據(jù)DistMult模型的評分函數(shù)或TransE模型的評分函數(shù)對三元組(s,pseq, o)完成補(bǔ)全,這里和分別表示頭實(shí)體s、尾實(shí)體o和關(guān)系pseq的表示向量。Goel R等人將實(shí)體的表示向量分為靜態(tài)和動態(tài)兩個部分,并利用SimplE模型完成知識圖譜的補(bǔ)全,其中實(shí)體表示向量的靜態(tài)部分表達(dá)實(shí)體在演化過程中固定不變的特征,動態(tài)部分則結(jié)合正弦激活函數(shù)來調(diào)控不同時間點(diǎn)狀態(tài)的閉合,進(jìn)而表達(dá)演化過程中變化的特征。Wu J P等人利用魯棒性圖卷積神經(jīng)網(wǎng)絡(luò)(robust graph convolutional network, RGCN)模型將不同時間同一實(shí)體的鄰居結(jié)構(gòu)化信息進(jìn)行融合,獲得了該實(shí)體的一個序列表示向量,然后將該表示向量序列輸入時態(tài)遞歸神經(jīng)網(wǎng)絡(luò)中,獲取該實(shí)體融合時態(tài)信息的表示向量,最后利用靜態(tài)的補(bǔ)全模型完成補(bǔ)全的工作。Jung J等人提出了一種時態(tài)圖神經(jīng)網(wǎng)絡(luò)(temporal graph neural network,TGNN)模型。該模型對時態(tài)知識圖譜及查詢分別進(jìn)行預(yù)訓(xùn)練,完成時態(tài)信息與實(shí)體表示向量的融合,并計(jì)算其鄰居的注意力分布,然后利用子圖采樣的方法獲得每個實(shí)體及與查詢相關(guān)的鄰居的子圖結(jié)構(gòu),過濾與查詢不相關(guān)的實(shí)體,再利用圖神經(jīng)網(wǎng)絡(luò)模型,更新子圖上實(shí)體的表示向量,并結(jié)合基于路徑遍歷的方法更新實(shí)體鄰居的注意力分布,最后依據(jù)最高概率推理出實(shí)體間隱藏的關(guān)系。與更新實(shí)體或關(guān)系的表示向量不同,Xu Y R等人考慮了時態(tài)知識圖譜中增加新實(shí)體的情況,設(shè)計(jì)了一種策略遞歸地更新模型參數(shù)。Xu C等人考慮了知識圖譜時態(tài)演化過程中的不確定性因素,在每個時間點(diǎn)采用高斯分布函數(shù)來表達(dá)實(shí)體和關(guān)系的不確定性,再結(jié)合時間序列的線性模型來刻畫實(shí)體和關(guān)系表示向量隨時間演化的趨勢,最后通過計(jì)算實(shí)體和關(guān)系概率分布的距離來完成補(bǔ)全。Han Z等人則將補(bǔ)全的工作從傳統(tǒng)的歐氏空間拓展到黎曼流形(Riemannian manifold)上完成。相對于第一類方法,基于序列學(xué)習(xí)的方法更加強(qiáng)調(diào)不同實(shí)體和關(guān)系間的歷史關(guān)系,即實(shí)體或關(guān)系之間帶有時間戳的序列之間的交互。
4 兩類方法的比較
基于符號邏輯的方法可以從已有的知識圖譜出發(fā),結(jié)合本體中的規(guī)則,推理出新的實(shí)體間關(guān)系;同時,還可以對演化后的知識圖譜進(jìn)行邏輯一致性檢查,使得推理結(jié)果具備透明、可靠及可解釋性強(qiáng)等特點(diǎn)。為了表達(dá)時態(tài)的知識,這一類方法通常需要引入時態(tài)算子來提升本體的表達(dá)能力,而表達(dá)能力的提升通常會導(dǎo)致如下兩種局限性。
● 不可判定性:即不存在有限時間可終止的算法,使得該算法能夠判定相關(guān)的推理問題是否可證。比如,在描述邏輯EL中,引入時態(tài)算子到本體中會導(dǎo)致其時態(tài)查詢回答是不可判定的。
● 高計(jì)算復(fù)雜性:比如,在描述邏輯EL中,交查詢的回答是多項(xiàng)式時間的,但引入時態(tài)算子到查詢語言后,時態(tài)交查詢回答卻是NP難的。
由此可見,基于符號邏輯的方法在推理效率方面難以滿足日益增長的數(shù)據(jù)需求。
基于知識表示學(xué)習(xí)的方法將研究對象的語義信息表示為低維稠密的實(shí)值向量。在低維向量空間中能夠高效地計(jì)算實(shí)體和關(guān)系的語義關(guān)系,顯著地提高推理性能。但是,此類方法的推理過程不透明,推理結(jié)果的可解釋性低。此外,大多數(shù)表示學(xué)習(xí)模型的表達(dá)能力有限。比如,參考文獻(xiàn)指出數(shù)值嵌入模型不能表達(dá)本體中的存在規(guī)則(existential rule),而這類規(guī)則恰好對應(yīng)于輕量級描述邏輯EL或DL-Lite族的術(shù)語或角色公理;進(jìn)一步地,參考文獻(xiàn)指出,就算表示學(xué)習(xí)模型能夠區(qū)分所有真實(shí)的三元組和錯誤的三元組,也不能確保正確區(qū)分出本體中的上下位關(guān)系。由此可見,基于知識表示學(xué)習(xí)的推理不能完全替代基于符號邏輯的推理。
從推理的方式來看,基于符號邏輯的推理屬于演繹推理,而基于表示學(xué)習(xí)的推理屬于不完全歸納推理,兩種推理方式各有各的優(yōu)缺點(diǎn),但最終的目的都是將不完備的知識庫(incomplete knowledge base)演化為完備的知識庫(complete knowledge base)。為了發(fā)揮兩種推理方式的優(yōu)勢,未來的知識圖譜補(bǔ)全研究方向可以聚焦于解決表示學(xué)習(xí)模型無法習(xí)得存在規(guī)則邏輯的結(jié)論的問題。在這一方向上,Du J F等人提出了邏輯背景預(yù)完備技術(shù)來融入關(guān)系特征定義,并提出了區(qū)分頭尾實(shí)體的投影函數(shù)來解決關(guān)系表示向量不可區(qū)分的問題;進(jìn)一步地,參考文獻(xiàn)引入了邏輯一致性規(guī)則預(yù)完備技術(shù),解決了部分排位靠前的三元組與邏輯一致性規(guī)則相違背的問題。
5 基準(zhǔn)測試數(shù)據(jù)集
當(dāng)前,時態(tài)知識圖譜補(bǔ)全研究領(lǐng)域有7個基準(zhǔn)測試數(shù)據(jù)集,它們是在Wikidata、YAGO、GDELT和綜合早期危機(jī)預(yù)警系統(tǒng)(integrated crisis early warning system, ICEWS)4個數(shù)據(jù)庫上構(gòu)建的。這7個數(shù)據(jù)集分別是GDELT-500、ICEWS14、ICEWS05-15、YAGO15k、Wikidata11k、YAGO11k和Wikidata12k,其中YAGO和Wikidata中的事實(shí)是基于時間區(qū)間的,而GDELT和ICEWS中的事實(shí)是基于時間點(diǎn)的。
● GDELT:GDELT數(shù)據(jù)庫記錄了從1969年至今,每個國家大約100多種語言的新聞媒體中印刷、廣播和We b形式的新聞,并且每隔15 min更新一次數(shù)據(jù)。GDELT主要包含兩大數(shù)據(jù)庫,即事件數(shù)據(jù)庫(event database)和全球知識圖譜 (global knowledge graph)。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是GDELT-500。
● ICEWS:ICEWS數(shù)據(jù)庫涵蓋了100多個數(shù)據(jù)源以及250個國家和區(qū)域的政治事件,并且每天更新一次數(shù)據(jù)。用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是ICEWS14和ICEWS05-15。
● Wikidata:Wikidata是維基媒體基金會主持的一個自由的協(xié)作式多語言輔助知識庫,旨在為維基百科、維基共享資源以及其他的維基媒體項(xiàng)目提供支持。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是Wikidata11k和Wikidata12k。
● YAGO:YAGO是由德國馬克斯·普朗克研究所研制的鏈接數(shù)據(jù)庫。該數(shù)據(jù)庫主要集成了Wikipedia、WordNet和GeoNames 3個來源的數(shù)據(jù)。YAGO將WordNet的詞匯定義與Wikipedia的分類體系進(jìn)行了融合集成,使得YAGO具有更加豐富的實(shí)體分類體系。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。目前,用于時態(tài)知識圖譜補(bǔ)全研究的數(shù)據(jù)集是YAGO11k和YAGO15k。上述7個數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果見表1。
表2給出了代表性的補(bǔ)全模型在3個基準(zhǔn)數(shù)據(jù)集ICEWS14、ICEWS05-15和Wikidata11k上的評測結(jié)果。表2中上標(biāo)為*的評測結(jié)果來自參考文獻(xiàn),上標(biāo)為+的評測結(jié)果來自參考文獻(xiàn),上標(biāo)為#的評測結(jié)果來自參考文獻(xiàn)。其中-表示所在行的模型在所在列的基準(zhǔn)數(shù)據(jù)集上沒有公布評測結(jié)果。評測指標(biāo)MRR表示所有正確答案預(yù)測排名的倒數(shù)的均值;Hit@k表示正確答案在前k位預(yù)測三元組中的百分比。
6 結(jié)束語
給定某個時間區(qū)間[t0,t1]及其對應(yīng)的時態(tài)知識圖譜G,補(bǔ)全任務(wù)是針對某個時刻t (t0≤t≤t1)的推理任務(wù)。比如,在例2中,可以由(a,履行合同,c,t2+1)補(bǔ)全出(a,簽訂合同,c,t2)。與補(bǔ)全任務(wù)相對的另一個任務(wù)是時態(tài)知識圖譜的預(yù)測任務(wù)。即給定某個時間區(qū)間[t0,t1]及其對應(yīng)的時態(tài)知識圖譜G,預(yù)測出t>t1時刻圖譜G的演化結(jié)果。相比而言,時態(tài)知識圖譜的預(yù)測任務(wù)比補(bǔ)全任務(wù)更具有挑戰(zhàn)性。限于文章的篇幅,請讀者閱讀參考文獻(xiàn)了解預(yù)測任務(wù)的解決方案和相關(guān)技術(shù)。
綜合考慮時態(tài)知識圖譜的補(bǔ)全方法不難發(fā)現(xiàn),基于知識表示學(xué)習(xí)的方法是目前的主流方法。這類方法具有計(jì)算效率高和召回率高的特點(diǎn),但是在表達(dá)能力上還存在弱點(diǎn)。因此,未來的研究工作可以關(guān)注如下兩個可能的完善方向:①融合本體推理,運(yùn)用基于符號邏輯的推理彌補(bǔ)知識表示學(xué)習(xí)在表達(dá)能力上的不足,完成知識表示學(xué)習(xí)模型的精準(zhǔn)訓(xùn)練;②設(shè)計(jì)表達(dá)能力更強(qiáng)的神經(jīng)網(wǎng)絡(luò)模型,用于表達(dá)本體中所有可能的規(guī)則。
作者簡介
申宇銘(1976-),男,博士,廣東外語外貿(mào)大學(xué)教授,主要研究方向?yàn)橹R表示與推理、知識圖譜。主持或參與多項(xiàng)國家自然科學(xué)基金和省部級項(xiàng)目。近年來在《計(jì)算機(jī)學(xué)報》《軟件學(xué)報》等國內(nèi)重要期刊,以及國際重要期刊和國際會議上發(fā)表論文20余篇。擔(dān)任CCKS、AAAI、EMNLP等國內(nèi)外重要學(xué)術(shù)會議的程序委員會委員。
杜劍峰(1976-),男,博士,廣東外語外貿(mào)大學(xué)教授,中國中文信息學(xué)會語言與知識計(jì)算專業(yè)委員會委員,主要研究方向?yàn)橹R表示與推理、數(shù)據(jù)挖掘和自然語言處理。在AAAI、WWW、ISWC、CIKM和KAIS等學(xué)術(shù)會議上發(fā)表數(shù)十篇文章,獲得多項(xiàng)國家自然科學(xué)基金項(xiàng)目資助。擔(dān)任JournalofWebSemantics編委,長期擔(dān)任CCKS、CSWS、IJCAI、AAAI、ISWC、JIST等學(xué)術(shù)會議的程序委員會成員,曾擔(dān)任CSWS2014程序委員會主席。
聯(lián)系我們:
Tel:010-81055448
? ? ? ?010-81055490
? ? ? ?010-81055534
E-mail:bdr@bjxintong.com.cn?
http://www.infocomm-journal.com/bdr
http://www.j-bigdataresearch.com.cn/
轉(zhuǎn)載、合作:010-81055537
大數(shù)據(jù)期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國工業(yè)和信息化部主管,人民郵電出版社主辦,中國計(jì)算機(jī)學(xué)會大數(shù)據(jù)專家委員會學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的期刊,已成功入選中國科技核心期刊、中國計(jì)算機(jī)學(xué)會會刊、中國計(jì)算機(jī)學(xué)會推薦中文科技期刊,并被評為2018年、2019年國家哲學(xué)社會科學(xué)文獻(xiàn)中心學(xué)術(shù)期刊數(shù)據(jù)庫“綜合性人文社會科學(xué)”學(xué)科最受歡迎期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號,獲取更多內(nèi)容
總結(jié)
以上是生活随笔為你收集整理的时态知识图谱补全的方法及其进展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 网站泄密
- 下一篇: 不再颓废,重新开始,牛客第一题1016.