从近期两篇论文看大规模商品图嵌入
?PaperWeekly 原創 ·?作者|桑運鑫
學校|上海交通大學碩士生
研究方向|圖神經網絡在金融領域的應用
GATNE
論文標題:Representation Learning for Attributed Multiplex Heterogeneous Network
論文來源:KDD 2019
論文鏈接:https://arxiv.org/abs/1905.01669
代碼鏈接:https://github.com/THUDM/GATNE
這篇論文提出了一種在 Attributed Multiplex Heterogeneous Network 上進行嵌入學習的框架 GATNE,該框架同時支持轉導式學習(transductive learning)和歸納式學習(inductive learning),在 Amazon,Youtube,Twitter 和 Alibaba 四個數據集上取得顯著提升。
相比于傳統的只有一種邊或只有一種節點的圖,Attributed Multiplex Heterogeneous Network(AMHEN)中包含多種節點,多種邊,每種節點都有不同的屬性,各種類型的圖有代表性的嵌入方法如下表所示。
AMHEN 有以下幾個問題:
每對節點之間可能有多種類型的邊,需要對每種關系都學習不同的表示。
很多圖嵌入方法都是轉導式學習,無法處理沒有見過的數據,而商品推薦中存在長尾和冷啟動的問題。
真實場景中的圖規模通常很大,所以提出的算法應當可以處理大規模數據。
基于上述問題,文章提出了 General Attributed Multiplex HeTerogeneous Network Embedding(GATHE)。
對于一個圖 , 是 個節點的集合, 是屬于不同關系 的邊的集合,每條邊 都有一個權重 ,根據邊的類型 ,我們可以將圖拆分成各個子圖 。
為了使模型同時適用于轉導式學習和歸納式學習,文章首先提出了適用于轉導式學習的 GATNE-T,之后通過一些改進提出了適用于歸納式學習的 GATNE-I。
對于 GATNE-T,對每個節點 的 embedding 分為 base embedding 和 edge embedding 兩部分。同一個節點的 base embedding 在不同的邊類型中是一樣的。在邊類型為 的子圖上,edge embedding 則從鄰居節點的 edge embedding 聚合得到:
之后將經過節點 經過 次聚合之后的 種(邊的類型數)不同的 edge embedding 拼接在一起進行注意力加權,加上 base embedding 得到節點在邊類型 下的 embedding:
其中 是衡量不同 edge type 重要性的超參數, 是可訓練的轉換矩陣。
但是轉導式的方法只能獲得在訓練集中出現過的 item 的 embedding,但在商品推薦等真實場景中存在冷啟動問題,因此文章在 GATNE-T 的基礎上提出了歸納式的算法 GATNE-I。該算法使用節點 的屬性 生成 base embedding,其中 是節點 的節點類型。同樣的,節點初始的 edge embedding 也通過類似的方式生成:
最終,節點 在 edge type 上的 embedding 為:
其中 是 coefficient, 是可訓練的轉化矩陣。
在模型訓練上,文章采用了基于 meta-path 的 random walk。對于只包含關系 的子圖 和給定的 meta-path?,每一步的轉移概率規定為:
訓練的目標函數為最大化給定 時周圍節點出現的概率:
該模型在四個數據集上取得了最好的結果。
GraphRec
論文標題:Graph Neural Networks for Social Recommendation
論文來源:WWW 2019
論文鏈接:https://arxiv.org/abs/1902.07243
代碼鏈接:https://github.com/wenqifan03/GraphRec-WWW19
一個基于 GNN 的社交推薦系統要處理兩個圖:社交圖(social graph)和用戶-商品圖(user-item graph),這方面的研究主要面臨以下挑戰:
如何有效融合兩個圖
如何同時捕捉用戶和商品之間的交互和觀點
如何處理不同的社交關系
為了解決上述問題,文章提出了 GraphRec。
規定 和 分別是用戶和商品的集合, 是用戶-商品評分矩陣, 是用戶 對商品 的評分,也可以被認為是用戶 對商品 的觀點。 是評分,如果不知道則取 0。
此外, 表示用戶和用戶之間的社交圖,如果用戶 和用戶 之間有關系 ,如果沒有則取 0。給定用戶-商品圖 和社交圖 ,目標是預測 中的缺失值。我們使用一個嵌入向量 來表示用戶 ,用另一個嵌入向量 來表示物品 。
因為涉及到用戶和商品兩個主體,整個模型分為 User Modeling 和 Item Modeling 兩部分。User Modeling 用于學習用戶的隱變量 。為了有效地結合用戶-商品圖和社交圖,模型從兩個圖中使用兩種不同的聚合方式學習用戶隱變量。在用戶-商品圖中學習商品空間中的用戶隱向量:
其中 是用戶 交互的商品集, 是表征用戶 和商品 之間交互的向量。因為用戶與商品之間的關系有多種,體現在評分矩陣 上就是每個元素 可能有多個取值,例如 ,如果用戶 與物品 的關系為 ,則 可以利用物品嵌入 和觀點(opinion)嵌入通過 MLP 獲得:
在聚合方式上,采用類似 Attention 的方式進行加權:
類似的,從社交圖中獲取用戶隱向量的方式如下:
其中 是用戶 直接交互的用戶集。
獲得 和 后,可以通過 MLP 獲得用戶隱向量 :
Item Modeling 方面,和在用戶-商品圖中的 User Modeling 類似的,如果用戶 與物品 的關系為 ,則用向量 來捕捉兩者之間的交互信息。最終的隱向量 也是通過類似注意力加權的形式得到:
其中 是商品 ?交互的用戶集。
文章使用預測評分的任務來對模型進行訓練:
模型中涉及的三個嵌入向量:item embedding , user embedding , opinion embedding 隨機初始化。損失函數為:
文章提出的模型在 Ciao 和 Epinions 兩個數據集上取得了最好的結果。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的从近期两篇论文看大规模商品图嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 智能写作全景介绍:从最新前沿技术到行业落
- 下一篇: 买第二辆车了,第一辆车子不卖,牌照能给第