来自闪闪宝石的光芒 - “宝石迷阵” x 信息检索 | 论文访谈间 #20
「論文訪談間」是由 PaperWeekly 和中國中文信息學會青工委聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。?這是第 20?期「論文訪談間」
論文作者 |?張帆、劉奕群、李昕、徐盈輝、張敏、馬少平
(清華大學)
特約記者 | 楊凱杰(南京理工大學)
在信息檢索技術研究中,評價指標的設計是對檢索系統進行評價的重要一環。而在評價指標的建模中,估計用戶的期望收益與期望付出是搜索用戶行為模型的關鍵組成部分,用戶在實際搜索會話中終止條件的判斷會同時受這兩方面的影響。
但由于受模型框架限制,當前幾乎所有信息檢索評價指標均無法做到同時將用戶的期望收益和期望付出納入會話終止條件的估計。那么如何對用戶的交互過程進行建模,從而將這兩者考慮進去呢??
在今年 SIGIR 的最佳學生論文 Evaluating Web Search with a Bejeweled Player Model 中,作者針對傳統信息檢索評價指標設計時未能兼顧用戶期望收益與期望付出兩方面因素的缺陷,借鑒“寶石迷陣”這款游戲設計了一個創新性的用戶交互模型框架,將用戶的期望收益與期望付出因素重新建模,建立了相應的評價體系,取得了顯著效果。?
在游戲“寶石迷陣”中,關卡開始時會出現半滿的時間條,每秒不斷減少。玩家必須通過匹配寶石來獲得更多的時間,匹配越多時間條增長越多。當時間條積累至滿時,玩家進入下一關;當時間條消耗殆盡時,玩家將輸掉關卡。總而言之,當前關卡的終止條件可以是時間條空(游戲結束)或時間條滿(進入下一關)。?
與游戲類似,失望(Frustration)和滿意(Satisfaction)也是信息搜索的兩個終止狀態。作者假設失望意味著用戶付出(Cost)過多后失去耐心,滿意代表收益(Benefit)達成,提出 BPM(Bejeweled Player Model)模型來描述信息檢索的終止條件。但不同的是,游戲中的付出與收益均使用時間來表示,而 BPM 模型將付出與收益分別累計并且有各自的上限。達到任一上限則會話結束。
△?圖1:基于BPM模型的用戶搜索評價框架
既然傳統評價指標只考慮用戶期望收益與期望付出中某一方面因素,那么現有評價指標是否可以利用 BPM 框架進行解釋呢?作者在文中通過分析不同評價指標用戶期望收益與期望付出的不同定義,將現有絕大多數評價指標納入 BPM 框架中,表明現有的評價指標是新框架下指標的某種退化形式,并以 DCG 為例進行了嚴格數學證明。
為了驗證 BPM 模型的有效性,作者沒有按照通常的方法將不同評價指標用于不同檢索系統的比較,而是在真實用戶的實驗數據集上,比較了不同指標與用戶反饋的滿意度之間的相關系數。實驗結果表明,文中的指標能夠更好地擬合用戶的滿意度,從而表明了新框架的有效性。
△?圖2:在不同類型查詢上DCG@10和靜態BPM指標與用戶滿意度的相關性
△?圖3:在信息類查詢上不同參數下靜態和動態BPM指標與用戶滿意度的相關性
對話作者
關注信息檢索評價領域的問題也已經一年多了,之前其實是打算開展移動端的搜索評價研究,不過一次組會的討論催生了新的想法。從一開始對收益與付出的討論,到用戶感知因素的考慮,再到以游戲為基礎的交互模型的提出,整個工作的框架在一次次的思維碰撞中不斷完善。
從小到大也玩過不少游戲,但從未想過有一天會將游戲寫到論文中。剛開始的時候只是單純覺得這個想法挺有意思,之后則是對已有指標的分析與推導,這個過程中自己也有了一些信心,至少這個工作不會是完全沒有意義的。最后的結果也還不錯,能夠獲得 SIGIR 的最佳學生論文可以說是意外之喜吧,這里也要感謝我實驗室的老師們和同學們。
信息檢索的評價還有很多值得研究的地方,特別是目前我們對于用戶搜索時的認知過程了解得還不是很清楚,大多已有工作都基于一些相對簡單的用戶行為假設。如何更好地對用戶的交互過程進行建模,并將其應用于搜索評價,還需要更多感興趣的學者的共同努力。
歡迎點擊「閱讀原文」查看論文:
Evaluating Web Search with a Bejeweled Player Model
關于中國中文信息學會青工委
中國中文信息學會青年工作委員會是中國中文信息學會的下屬學術組織,專門面向全國中文信息處理領域的青年學者和學生開展工作。
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
點擊 |?閱讀原文?| 查看論文
總結
以上是生活随笔為你收集整理的来自闪闪宝石的光芒 - “宝石迷阵” x 信息检索 | 论文访谈间 #20的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Training RNNs as Fas
- 下一篇: 深度强化学习实战:Tensorflow实