【推荐系统】面向科研的推荐系统Benchmark诞生!
今天跟大家分享的是一篇發表在RecSys2020推薦系統年會上的關于推薦系統Benchmark的文章。你是否還記得關于MLP or IP:推薦模型到底用哪個更好?問題的激烈討論,又或你是否還記得關于評論文本信息對推薦真的有用嗎?問題的深入分析,再者你是否還記得知乎上關于深度學習對于推薦系統性能帶來的都是偽提升問題的廣泛質疑[1],這些問題之所以會存在的原因是:沒有統一的標準,包括數據集的劃分方式、統一的評價指標,相同的實驗設置等。因此今天的這篇文章算是在這方面的一個進步。
論文地址:
https://dl.acm.org/doi/pdf/10.1145/3383313.3412489
動機:?
推薦系統目前缺少一個基線標準用于任務評價。所以引發兩個問題:模型的可復現性以及模型之間的公平對比,因此,本文針對隱式反饋Top-N推薦問題提出一種benchmark。
簡介:?
該文首先系統地回顧了85篇推薦論文,包括論文接收的年份和會議分布、常用的推薦系統數據集分布、所對比的基線模型的分布以及評價指標分布等。
另外還總結出一些在對于模型評價具有重要影響的實驗設置因素:數據處理,數據分割,超參數選擇、負采樣選擇以及損失函數選擇等。
最后通過大量的實驗說明這些實驗設置給模型的表現帶來的影響。接著提出benchmarks需要滿足的一些條件,并基于此選擇一些代表性的模型進行實驗。除此之外,還發布了基于python的代碼庫。以下為該開源代碼庫的架構圖,包括數據集的加載方式、預處理方式、對比方法選擇等組件。
內含常用的基線和SOTA對比方法:
內含常用的數據集下載鏈接:
倉庫地址:
https://github.com/AmazingDD/daisyRec
希望未來的推薦算法能夠良性對比,公平競爭。
英文原文:https://medium.com/visionwizard/object-tracking-675d7a33e687
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載機器學習的數學基礎專輯獲取一折本站知識星球優惠券,復制鏈接直接打開:
https://t.zsxq.com/y7uvZF6
本站qq群704220115。
加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【推荐系统】面向科研的推荐系统Benchmark诞生!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【深度学习】深度学习两大基础Tricks
- 下一篇: 【机器学习基础】一文读懂用于序列标注的条