“猜你喜欢” — 浅谈内容分发中的推荐系统
本文為PMCAFF專欄作者趙知了出品
為什么抖音刷起來停不下來?
為什么網易云音樂總能推薦我喜歡的?
你的愛好和口味系統到底是怎么猜到的?
內容推薦是一個較為復雜的模塊,這篇文章先簡單聊聊基于個性化推薦的內容分發系統。整體分成五部分,基于之前工作總結和網上內容參考,越寫越啰嗦,見諒。
目錄
內容推薦與增長
推薦算法的商業價值
興趣偏好
認識推薦算法
從零到一搭建推薦算法
后記?
1
內容推薦與增長
聊個性化推薦,必須聊到今日頭條。今日頭條的崛起開始,標志著基于用戶個性化的內容推薦模式成為內容分發不可忽視的力量。
那頭條是如何彎道超車,一舉成為信息分發領域的巨無霸呢?首先我們先回顧之前各大新聞客戶端、門戶是如何組織分發內容的。
編輯生產內容——APP/門戶展示內容——用戶閱讀內容
評價產品,既要看它所帶來的用戶價值,又要看它能產生的商業價值。以新浪搜狐為代表的的新聞客戶端門的商業價值是什么?
廣告
互聯網廣告主要分成三種業務形式,CPC(按用戶點擊付費)、CPM(按展示付費)、CPA(按行為付費)。這意味著用戶在App上停留時間越長、越活躍,越有可能帶來更多的品牌曝光和廣告點擊。最終為 App 帶來利潤。
因此新聞客戶端的商業模式和核心目標也就清晰了:生產更多的內容,讓用戶更持久的留在平臺中。
如圖,這一個合理的、正向的循環。然而在頭條看來,這個模式依然有不足。不足是什么?
回歸本質,平臺內容是否有效的滿足了用戶。這里包含兩層意思,一是用戶本身訴求是否滿足;另一層是這種滿足是否覆蓋了足夠多的用戶。
首先,先分析第一點:用戶本身訴求是否滿足?
我們思考用戶需求的是什么?用戶們在讀什么?在讀信息。那信息到底是什么?兩方對此都有不同的理解,而這種理解決定了發展方向的不同。新浪們認為,信息就是有價值的內容,就是新聞。頭條認為,信息就是值得閱讀的內容。
兩者有什么差異?
1.對可讀信息的理解不同
新浪認為,可讀信息即是有價值的新聞。一條信息是否有價值,能被稱之為新聞,由資深編輯們主導,展示由平臺來決定。
頭條認為,可讀信息就是用戶感興趣的內容。有大眾生產,也由大眾消費。用戶個體主觀、獨立決定是否對這條信息感興趣。
這兩種決策思路,使新浪們的信息總量對單個用戶來說是相對固定的。而對頭條的單個用戶來說,信息總量無限多。
2.信息生產成本不同
新浪們,雇傭編輯生產內容,保證了內容質量,但成本相對高;今日頭條,將內容生產權和消費權交給更廣闊的用戶,自己做好平臺的內容分發工作就可以。成本遠低于新浪。
3.最重要的,面向用戶群不同
新浪們,面向對內容質量有一定要求,且訴求明確的群體;今日頭條面向對信息訴求處于初級階段,對信息質量和標準要求不高的群體。這部分群體更廣大。
基于個性化的推薦系統,頭條內容池也可以在同一個內容列表頁有效滿足了長尾用戶的多樣性需求。
準確的產品定位,有效的滿足訴求,廣闊的增長空間,這是我們在談個性化推薦給頭條帶來巨大增長時所需要了解的宏觀條件,如果這些條件不具備,無論多完善的推薦系統也發揮不出巨大能量。頭條增長模式值得研究,但可以肯定的是,增長時系統工程,不存在一招通殺。重視個性化推薦,但也不用過分神化。
2
商業價值
談商業價值,結合實際,以我做過的醫美項目為例,醫美App的盈利模式是什么?
1.引導用戶下單,從訂單中抽傭;
2.引導商戶投放社區廣告,從效果中獲益。
先談第一點,對醫美用戶來說,從對某個項目感興趣到下單,需要非常長的決策周期(平均3-4周)。對平臺來說,用戶決策時間越短,越有利于促進訂單轉化,從而獲利。
那如何縮短用戶決策時間呢?
醫美,全稱醫療美容。是一個新興產業,需要進行大量用戶教育工作。同時有很多醫美用戶或商家在平臺內寫了大量整容日記。這些日記具有用戶真實案例和科普雙重作用,有效降低用戶抵觸心理,消解擔心。對幫助用戶決策非常有效。因此需要向這些用戶推薦與他們相關的內容,有利于提升整體訂單轉化率,從而提高企業利潤。
再說第二點,醫美項目間區別很大,不同用戶對項目內容訴求差異非常大。一個想割雙眼皮的用戶很大概率對隆鼻沒什么興趣。
所以隆鼻商家廣告展示給雙眼皮用戶沒有任何價值。這種低效地投放展示對平臺造成資源浪費,對用戶來說體驗差,商家也不會買賬,這是三方都是一個多輸局面。因此提升廣告投放的準確性,成了多方訴求和趨勢。
互聯網產品是信息的集合,它最大的作用是信息分發,而推薦系統正式這個訴求下最重要影響最深遠的解決方案。它兼顧每個用戶,讓信息傳遞更公平、更有效率,這即是它最大的商業價值和用戶價值。
3
興趣偏好
了解推薦算法之前,首先我們認識一個詞——“用戶偏好”,又稱“感興趣的 xx”。
偏好是什么?是傾向性。用戶偏好指的就是用戶對某一事物的傾向性。
假設你喜歡吃冰淇淋,那么在超市琳瑯滿目的商品中,你一定會多看冰淇淋一眼,也有可能指著冰淇淋問價格,還有可能會挑挑選選然后購買,甚至再來一根。互聯網產品挖掘用戶偏好的方法簡單來說也是如此。
我們都知道無論是網頁還是APP,用戶在網上的任何操作都會被記錄下來。當你對某個內容產生興趣,必然會有更多的瀏覽點擊,更多的咨詢和購買。系統則根據一套算法計算用戶行為,對用戶偏好進行分析判斷,判斷你喜歡什么。
還是以醫美產品為例,平臺上有各大商家的產品,如雙眼皮、隆鼻、水光針等等很多品類。我們會統計用戶在站內行為數據和并對不同行為進行加權計算,最后結果就是用戶的品類偏好。
比如,瀏覽相關的帖子、瀏覽商品、將商品加入購物車、下單支付、咨詢商品等行為,為每個行為賦有權重。通過計算行為頻次再乘以權重,我們會得到該用戶對某類項目的偏好值。再和其他項目偏好值進行對比,值最大的項目就是該用戶最感興趣的項目。
有了用戶偏好特征這個數據,我們就解決了用戶可能對什么感興趣的問題,接下來我們就把相應的內容推薦給用戶就好了。
這是一個相對粗糙,但在產品前期很有效的偏好計算方法。隨著內容豐富度越高,推薦精細度要求也就越高,這套計算方法推薦準確度就會下降。我們就可以引入推薦系統,更系統長期的改善這個問題。
4
認識推薦系統
相似度計算
衡量用戶之間、內容之間的相似性我們用距離來刻畫。距離越小,相似度越高,反之則說明相似度越低。常用歐氏距離和余弦距離進行度量。由于距離在很多算法中都會用到,屬于技術性質,在這里不多涉及。
常見的推薦系統主要分成三大類。
1.基于人口統計學的推薦
用一句話來說就是,系統對某個用戶推薦的內容,取決于和他相似具有相似特征的用戶喜歡的內容。
用戶A 是名女性,年齡介于 18-22 歲,偏好商品A;用戶B 是名男性,年齡介于 30-40 歲,偏好商品B、商品C;用戶C 是名女性,年齡介于 18-22 歲;我們已為每位用戶建立了用戶畫像,現在我們要給用戶C 進行推薦。基于用戶畫像和合適的距離度量計算用戶的相似度, 我們發現用戶A 與用戶C 最相似,可將用戶A偏好的物品A推薦給用戶C。
優點
①該推薦算法僅使用用戶的基本信息數據,不涉及用戶對物品的歷史偏好數據,所以對于新用戶來說,只要有他(她)的基本信息就可以進行推薦,不存在“冷啟動”問題;
②該推薦算法在不同的物品領域都可以使用,因為它不依賴于物品信息;
缺點
①該推薦算法目前僅基于用戶的基本信息,推薦比較粗糙;
②用戶的基本信息不好獲取,比如年齡、性別、職業等;在某些情況下,用戶的基本信息也需要通過建模獲取;
2.基于內容的推薦——你喜歡的事物,給你推薦近似的事物
用一句話說就是,通過內容的基本信息確認內容與內容間的相似度,再根據用戶歷史偏好記錄,將相似內容推薦給用戶。
用戶A 喜歡電影A,用戶B 喜歡電影B,用戶C 喜歡電影C,通過分析電影信息標簽我們發現電影A 和電影B 屬于相似影片。所以我們向用戶A 推薦電影B,向用戶B 推薦電影A。
存在問題
①數據質量要求高:該推薦算法依賴于物品或內容的描述數據,描述得越全面、完整,推薦得就越精確;即該算法對物品內容的數據質量要求較高;
②考慮不全面:該算法僅從物品內容本身的特征出發,沒有考慮到用戶對物品內容的態度;
③新用戶問題:需要基于用戶的歷史偏好信息,所有對新用戶無法進行推薦;
3.基于協同過濾的推薦
①基于用戶的協同過濾——和你相似的用戶還喜歡什么?
用戶A 偏好內容A,用戶B偏好內容A、B、C,用戶C偏好內容B、C。
假設我們要對用戶C進行推薦,通過相似度計算,我們發現發現用戶C 與用戶B 的距離最小,相似度最高,說明他們的偏好一致,可將用戶B 偏好的而用戶C還沒未接觸的內容A 推薦給用戶C。
②基于內容的協同過濾——買過這款產品的用戶還買過什么?
用戶A 偏好內容A,用戶B 偏好內容B、C,用戶C 偏好內容C
假設我們想推薦內容B,基于歐式距離計算內容B 與內容A、C之間的距離,發現內容B 與內容C 的距離最小,相似性最高,說明內容B、C比較相似,可能是同類產品,我們可將內容B 推薦給喜歡內容C 卻還沒對內容B 表示出偏好的用戶C。
與上面基于內容推薦區別是,前者,基于內容推薦更偏向于兩個內容是接近的、相似的,與用戶的行為無關;后者,與事物是否相似關系較小,更多與用戶行為有關,存在順承關系。
基于用戶的協調過濾和基于物品的協同過濾都能達到不錯的效果,前者是先找相似的人,再找相似的人喜歡的物品;后者則是找到和某個物品相關的物品。兩者在實際應用上有一定的區別。
如果是電商平臺,商品信息相對穩定,在這種情況下基于物品的協同過濾算法更合適,不僅實時計算壓力小,且不用頻繁更新;
如果是一個新聞或者是內容網站,內容數據偏多且不斷更新,用戶規模大。造成內容重疊度低,特征變化快,再計算內容相似度,計算更復雜。可采用基于用戶的協同過濾。從計算的復雜度來講,這兩個算法各有優勢,我們要根據不同場景的特點去選擇。
在實際應用中,一般不會只采用某一種推薦算法,而是將各個推薦算法進行組合。這方面更多是技術算法策略問題。
5
從零搭建推薦系統
如果我們想搭建個性化的內容推薦系統要考慮哪些問題?
首先最重要的評估這件事
1.宏觀大盤,如開頭提到,今日頭條產品面向的人群比其他新聞客戶端更大,有著更為精準的產品定位和用戶增長空間,而推薦系統解決了信息分發效率問題,為今日頭條的崛起插上了翅膀。所以在開始搭建之前要明確推薦系統給產品帶來了哪些用戶價值和商業價值,否則很難調動大量人員參與到這個項目中。
2.自身儲備。做推薦,需要大量的內容庫和用戶樣本、結構化的標簽數據和強大的算力。三者少一個都支撐不了推薦系統。
其次,衡量推薦系統的作用
非常認可一句話,如果你無法衡量它,你就無法有效增長它。我們要明確這件事的核心目的,核心指標、相關性指標分別是什么?
回到醫美App日記內容推薦中分析。我們做推薦,核心目的:縮短用戶決策時間,提升訂單量。因此訂單量是核心衡量指標。
由于在成單路徑上,受到很多因素影響,我們要找到與推薦系統最相關的指標。我梳理了一個簡單用戶行為路徑。
從上面我們可以看出,推薦系統相關性指標分別是,日記點擊率、次日留存、閱讀篇數、商品詳情頁穿透率、停留時長。參考這些指標,有利于我們對推薦系統的實際效果進行評估。
除了指標數據外,不同維度的數據(如feed流的數據規律、分層用戶的數據表現)也要注意挖掘提煉和分析。
第三,真正開始設計搭建推薦系統。
內容推薦的搭建主要分成三個模塊,分別是內容模塊、用戶模塊、分發模塊。
內容模塊:
1.對要儲備足夠大量的內容,建立內容分發池。無論是人工生產還是爬蟲抓取,足夠多的內容庫是內容分發的基礎。
2.對內容進行結構化處理。從標簽、分類、維度等角度建立標簽(Tag)。根據實際情況的不同,分類的顆粒度也會有差異。理論上Tag越準確越豐富,推薦效果越好。維度設計除基本屬性類別作為標簽,前期也可以開放部分打標簽的權限給用戶,允許自主分類,發現用戶需求,使標簽更貼合用戶。當然注意標簽維度更新頻率要低。
用戶模塊:
1.對用戶畫像。通過用戶自填、功能設計、系統抓取等方式收集梳理用戶必要信息,如性別、年齡等,對不同用戶的群體特征進行打標簽,通過對標簽的分類聚合形成一個個不同層次的用戶畫像。
2.用戶行為數據,通過埋點,收集分析用戶站內行為,發現用戶偏好,分析用戶對內容的消費行為和反饋。
分發模塊:
1.確定推薦策略和推薦模型,這個主要是產品參與,技術主導。
2.進行內容展示的功能、交互和反饋設計。通過功能層對初期的推薦系統在分發方式上進行合理補充。
最后,當一切就緒后,就可以準備上線了。我們可以通過A&B測試的方式,建立對照組,評估我們的推薦系統是否有效帶來了增長,是否顯著拉動了相關指標尤其是核心指標。AB測試能夠為我們在后需推薦系統的迭代優化中,起到非常重要的幫助。
至此,相對簡單的推薦系統就搭建好了。
6
后記
推薦系統是非常純粹互聯網產物,它專注解決兩個問題,一是如何向用戶推薦他感興趣的內容;二是如何發現用戶更可能感興趣的。隨著各大公司對推薦算法研究深入,推薦準確度會不斷提高。但同時,隨著用戶整體認知水平不斷提高,對信息質量的訴求也會逐漸豐富,這種豐富會倒逼內容分發更具多樣性。我相信,信息分發領域永遠不存在一家獨大,永遠都有可能誕生出潛力無限的偉大公司。
我曾經非常喜歡推薦系統,因為它不僅具備多重價值,還擁有某種社會意義。它讓信息更公平,每個人擁有信息閱讀的權利,間接促進了社會公平。但是,推薦系統走向了彎路,它圍繞用戶編制了巨大的信息網,讓用戶無法跳出去看問題。這種信息繭房,營造了短暫的信息滿足,限制了用戶探索的欲望,讓大眾認知更局限,更偏激。
當然沒有東西是完美的,推薦系統也在不斷迭代,在臺前幕后,不斷試圖了解我們的內心和情感,像親人,也像魔鬼。
我也曾感動于系統如此懂我,但卻時常懷念,曾經去跑到地攤前買份報紙讀半天的自己。
總結
以上是生活随笔為你收集整理的“猜你喜欢” — 浅谈内容分发中的推荐系统的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何增加儿童产品中的趣味性?
- 下一篇: 行业思考 | 酷炫动效是否利于你的产品设