让知识来指引你:序列推荐场景中以知识为导向的强化学习模型
?
?時(shí)序推薦是基于用戶的順序行為,對未來的行為進(jìn)行預(yù)測的任務(wù)。目前的工作利用深度學(xué)習(xí)技術(shù)的優(yōu)勢,取得了很好的效果。但是這些工作僅專注于所推薦商品的局部收益,并未考慮該商品對于序列長期的影響。
強(qiáng)化學(xué)習(xí)(RL)通過最大化長期回報(bào)為這一問題提供了一個(gè)可能的解決方案。但是,在時(shí)推薦場景中,用戶與商品交互的稀疏性,動態(tài)性增加了強(qiáng)化學(xué)習(xí)的隨機(jī)探索的難度,使得模型不能很好地收斂。
近年來,知識圖譜被廣泛地用于推薦系統(tǒng),但是這些工作往往忽略了知識對于探索過程的指導(dǎo),從而使得RL模型不能很好地解決時(shí)序推薦任務(wù)中用戶偏好的漂移。
針對以上問題,北京郵電大學(xué)的王鵬飛老師課題組同中國人民大學(xué)的趙鑫課題組首次探討了將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用在時(shí)序推薦任務(wù)上的可能性。提出了一種知識引導(dǎo)的強(qiáng)化學(xué)習(xí)模型,將知識圖信息融合到 RL 框架進(jìn)行序列推薦。他們的研究成果 KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation 發(fā)表在 2020 年的 SIGIR 會議上。
論文標(biāo)題:KERL: A Knowledge-Guided Reinforcement Learning Model for Sequential Recommendation
論文來源:SIGIR 2020
論文鏈接:https://arxiv.org/abs/2004.08068
框架模型
我們將時(shí)序商品推薦問題定義為一個(gè)馬爾可夫決策過程 (MDP),并在此框架中進(jìn)行了三個(gè)主要的技術(shù)擴(kuò)展將知識同 RL 框架進(jìn)行融合,指導(dǎo)探索和重復(fù)的學(xué)習(xí)過程。具體包括知識增強(qiáng)的狀態(tài)表示方法、引入知識的獎(jiǎng)勵(lì)機(jī)制,以及基于截?cái)嗖呗缘膶W(xué)習(xí)機(jī)制。 我們將模型命名為 Knowledge-guidEd Reinforcement Learning model (KERL),論文模型圖如下所示:
融合知識的狀態(tài)表示方法
我們通過融合知識的信息來加強(qiáng)狀態(tài)向量的表達(dá)能力。但是在購物場景中,用戶的偏好是動態(tài)變化的,這在強(qiáng)化學(xué)習(xí)探索長序列過程中更加明顯,僅依據(jù)歷史序列的知識不能充分的指導(dǎo)強(qiáng)化學(xué)習(xí)的探索過程。為此,我們創(chuàng)造性的將知識分成了兩部分具體設(shè)計(jì)方式如下:
其中 表示時(shí)序信息, 表示歷史知識, 表示未來知識。具體對于 ,我們構(gòu)造了一個(gè)推斷網(wǎng)絡(luò)來利用建模歷史知識與未來知識的關(guān)聯(lián)性,并最終將三部分信息進(jìn)行融合,構(gòu)造狀態(tài)的向量表達(dá):
融合知識與序列的復(fù)合獎(jiǎng)勵(lì)函數(shù)
對于激勵(lì)函數(shù)我們同時(shí)考慮了推薦商品時(shí)序和知識的準(zhǔn)確性,以此來增強(qiáng)對于探索過程的指導(dǎo)。具體的,對于時(shí)序角度的激勵(lì)函數(shù) ,我們機(jī)器翻譯評估工作的啟發(fā),通過 BLEU 指標(biāo),評估預(yù)測序列 和真實(shí)序列 之間單個(gè)商品,以及子序列片斷的相似性:
公式中 為修整過的 m 單位片段精確度。
其中 是 的子序列, 是 在 中出現(xiàn)的次數(shù)。對于知識角度的激勵(lì)函數(shù) ,我們用余弦函數(shù)測量預(yù)測序列和真實(shí)序列之間知識的語義相似性:
最后我們將二者累加,作為最后的激勵(lì)函數(shù):
模型的學(xué)習(xí)算法
給定預(yù)訓(xùn)練好的知識表達(dá),我們目的是學(xué)習(xí)一個(gè)策略 ,使得累積獎(jiǎng)勵(lì)最大化:
我們采用了一種截?cái)嗍降?policy gradient 策略來對目標(biāo)函數(shù)進(jìn)行優(yōu)化,對于用戶的每個(gè)狀態(tài) , 隨機(jī)采樣 條長度為 k 的子序列,進(jìn)行梯度更新:
其中 表示 子序的第 t 個(gè)商品。
在 KERL 中我們通過設(shè)計(jì)一個(gè)推斷網(wǎng)絡(luò)來建模歷史知識和未來知識的關(guān)聯(lián)。但是訓(xùn)練數(shù)據(jù)的稀疏性使得該網(wǎng)絡(luò)不能很好地收斂。考慮到 KERL 通過 policy gradient 策略采樣了一系列子序列進(jìn)行模型的學(xué)習(xí),我們試圖引入這些序列,通過構(gòu)造一個(gè)排序模型學(xué)習(xí)推斷網(wǎng)絡(luò)。
具體的,我們先得到每一個(gè)序列的知識表達(dá),記為 。給定兩個(gè)子序列知識表達(dá) 與 ,我們按照如下的規(guī)則構(gòu)造鍵對:
對于每個(gè)狀態(tài) ,我們構(gòu)造 個(gè)鍵對推斷網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),保證網(wǎng)絡(luò)的魯棒性。此外,這樣的學(xué)習(xí)策略也充分利用了獎(jiǎng)勵(lì)函數(shù),從而能更好的和強(qiáng)化學(xué)習(xí)吻合。
模型試驗(yàn)效果
考慮到我們的模型把 KG 的信息分別融合進(jìn)了激勵(lì)函數(shù)和狀態(tài)表達(dá)之中,我們先通過剝離試驗(yàn)來具體的分析每一塊的性能。
針對 RL 的狀態(tài)表示,KERL 總共使用了三種不同的信息,分別是序列信息,歷史知識,以及未來知識。我們首先分析一下不同的信息對于性能的影響,具體設(shè)計(jì)了三種基于不同狀態(tài)表示 KERL 模型,包括 ,僅用時(shí)序的信息;,利用時(shí)序與歷史知識信息;,利用時(shí)序與未來知識信息。我們將這三個(gè)模型同 KERL 進(jìn)行比較,具體結(jié)果如圖下所示:
從圖上發(fā)現(xiàn),僅利用時(shí)序信息進(jìn)行狀態(tài)表示的 性能最差,這證明了融合知識提升預(yù)測性能的重要性。此外,盡管考慮的未來知識信息的 性能有所提升,但整體上性能還是低于 ,而 KERL 同時(shí)考慮了以上三種信息,取得了最好的結(jié)果。?
對于激勵(lì)函數(shù),我們分析了單獨(dú)考慮時(shí)序相似性 () 和知識相似性 () 時(shí)對于模型性能的影響。下圖展現(xiàn)了在 CD 數(shù)據(jù)集上模型的性能。
可以看出, 在 Hit-Ratio 指標(biāo)上性能優(yōu)于 ,而 在 NDCG 指標(biāo)上優(yōu)于 , 這是由于 使用了BLEU來計(jì)算序列的得分,使得模型傾向?qū)⒄_的商品排在前列,而 從知識相似性的角度,傾向于召回正確的商品。而同時(shí)考慮到兩種相似性的 KERL 在兩個(gè)評價(jià)指標(biāo)上均取得了最好的成績。
我們在 next-item 和 next-session 兩個(gè)任務(wù)上驗(yàn)證了模型的有效性,KERL 一致超過了所有的基線方法。
論文總結(jié)
該論文首次探討了將強(qiáng)化學(xué)習(xí)應(yīng)用于時(shí)序推薦任務(wù)的可行性,通過將該任務(wù)定義為 MDP 過程,賦予了時(shí)序預(yù)測模型捕獲推薦商品長期收益的能力,并創(chuàng)造性地引入知識對強(qiáng)化學(xué)習(xí)的探索重復(fù)過程進(jìn)行指導(dǎo)。文章在 next-item 和 next-session 兩個(gè)推薦任務(wù)上驗(yàn)證了模型的有效性。
關(guān)于作者
王鵬飛,北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士生導(dǎo)師
2017年獲得中科院計(jì)算技術(shù)研究所博士學(xué)位,現(xiàn)入北京郵電大學(xué),任計(jì)算機(jī)學(xué)院的助理教授,碩士生導(dǎo)師。主要專注于研究用戶行為的時(shí)序建模,文本分類等任務(wù)。近五年內(nèi)在國內(nèi)外著名學(xué)術(shù)期刊與會議上發(fā)表論文20余篇,在國際頂級會議(SIGIR、WSDM、CIKM等)以第一作者發(fā)表論文10余篇,并在并擔(dān)任多個(gè)國際會議(如SIGIR,AAAI等)評審人。
范鈺, 北京郵電大學(xué)計(jì)算機(jī)學(xué)院碩士研究生
目前研究生在讀,研究方向?yàn)橥扑]系統(tǒng)中用戶行為的時(shí)序建模,圖神經(jīng)網(wǎng)絡(luò)。已在SIGIR會議發(fā)表論文兩篇。?
夏龍,約克大學(xué)博士后研究員
2017年于中國科學(xué)院計(jì)算技術(shù)研究所獲博士學(xué)位后,加入京東數(shù)據(jù)科學(xué)實(shí)驗(yàn)室擔(dān)任資深研究員。研究興趣包括數(shù)據(jù)挖掘,應(yīng)用機(jī)器學(xué)習(xí),信息檢索和人工智能。在國際頂級會議期刊如KDD,SIGIR,TIST發(fā)表論文十余篇,并擔(dān)任KDD,WWW,AAAI,WSDM等國際學(xué)術(shù)會議程序委員會委員。
趙鑫,中國人民大學(xué)信息學(xué)院副教授、博士生導(dǎo)師
博士師從北京大學(xué)李曉明教授,專注于研究面向文本內(nèi)容的社交用戶話題興趣建模。近五年內(nèi)在國內(nèi)外著名學(xué)術(shù)期刊與會議上發(fā)表論文80余篇,其中包括ACM TOIS和SIGIR、IEEE TKDE和SIGKDD、ACL等。所發(fā)表的學(xué)術(shù)論文共計(jì)被引用3500余次。擔(dān)任多個(gè)重要的國際會議或者期刊評審,入選第二屆CCF青年人才發(fā)展計(jì)劃。曾獲得CIKM 2017最佳短文候選以及AIRS 2017最佳論文獎(jiǎng)。
牛少彰,北京郵電大學(xué)計(jì)算機(jī)學(xué)院教授
2004年于北京郵電大學(xué)獲得博士學(xué)位。作為主要研究人員參加了973項(xiàng)目、國家自然科學(xué)基金等項(xiàng)目,同時(shí)兼任中國電子學(xué)會高級會員,中國電子學(xué)會多媒體信息安全專家委員會委員等職務(wù)。現(xiàn)主要從事網(wǎng)絡(luò)信息安全、網(wǎng)絡(luò)攻防技術(shù)、信息內(nèi)容安全、信息隱藏技術(shù)、數(shù)字權(quán)益管理技術(shù)、軟件安全以及計(jì)算機(jī)取證技術(shù)方面的教學(xué)和科研工作。
Jimmy Huang,約克大學(xué)信息技術(shù)學(xué)院教授、博士生導(dǎo)師
博士畢業(yè)于倫敦大學(xué)。ACM杰出科學(xué)家,加拿大約克大學(xué)約克研究主席,英國計(jì)算機(jī)學(xué)會會員和皇家藝術(shù)學(xué)會會員。主要研究重點(diǎn)是信息檢索,大數(shù)據(jù)及其在Web和醫(yī)療保健中的應(yīng)用領(lǐng)域。在國際著名學(xué)術(shù)期刊與會議所發(fā)表的學(xué)術(shù)論文共計(jì)被引用20000余次。曾獲得第32屆歐洲信息檢索會議最佳論文獎(jiǎng),作為研究創(chuàng)新部早期研究員獲得首席卓越研究獎(jiǎng)(2007-2012年)。2015年獲LA&PS杰出研究,學(xué)術(shù)創(chuàng)造力獎(jiǎng)。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識的人。
總有一些你不認(rèn)識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識真正流動起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的让知识来指引你:序列推荐场景中以知识为导向的强化学习模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华硕英特尔下一代主板官宣:“AI 新神通
- 下一篇: 萝卜系统xp怎么安装pe 如何在萝卜系统