WSDM Cup 2020 引用意图识别赛道冠军解决方案(附答辩视频、PPT和代码)
新發(fā)現(xiàn)、新理論的研究論文發(fā)表數(shù)量呈指數(shù)型增長(zhǎng),并且論文被引用量(H-index)通常被學(xué)術(shù)界衡量論文的影響力貢獻(xiàn)程度。然而,隨著學(xué)術(shù)界的競(jìng)爭(zhēng)越來(lái)越激烈,部分期刊中出現(xiàn)了一種“強(qiáng)制引用”的情況,也是就論文作者需要引用該期刊的相關(guān)文章,以提高期刊的影響因子。這些行為是對(duì)任何科學(xué)家和技術(shù)人員所要求的最高誠(chéng)信的冒犯,并且如果任其發(fā)展,可能會(huì)破壞公眾的信任并阻礙科學(xué)技術(shù)的未來(lái)發(fā)展。該競(jìng)賽是該系列競(jìng)賽中的第一場(chǎng)競(jìng)賽,探討了網(wǎng)絡(luò)搜索和數(shù)據(jù)挖掘技術(shù)在多大程度上可以用來(lái)區(qū)分多余的引文和真實(shí)的引用識(shí)別。賽題詳解可參考:https://biendata.com/competition/wsdm2020/
冠軍方案
作者:應(yīng)承軒
學(xué)校:大連理工大學(xué)
個(gè)人網(wǎng)站:https://ying.cx/
研究方向:信息檢索
答辯視頻:
解決方案:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval
答辯視頻、PPT、論文:在「AI算法之心」公眾號(hào)后臺(tái)回復(fù)“「WSDM2020」”
摘要
對(duì)語(yǔ)義檢索任務(wù)的最新研究表明,像BERT這樣的預(yù)訓(xùn)練語(yǔ)言模型具有令人印象深刻的重排序性能。在重排序過(guò)程中,將使用(查詢,文檔)對(duì)來(lái)提供經(jīng)過(guò)微調(diào)的語(yǔ)言模型,并且整個(gè)時(shí)間復(fù)雜度與查詢大小和召回集大小均成正比。在本文中,我們基于置信度得分描述了一種簡(jiǎn)單而有效的提前停止策略。在我們的實(shí)驗(yàn)中,這種策略可以避免多達(dá)30%的不必要的推理計(jì)算成本,而不會(huì)犧牲太多的排名精度。
代碼:https://github.com/chengsyuan/WSDM-Adhoc-Document-Retrieval
「Our team dlutycx ranked first on the unleak track.」
方案
我們的方案主要分為三個(gè)主要階段:
數(shù)據(jù)清洗:數(shù)據(jù)丟失的文檔將被刪除,與此任務(wù)無(wú)關(guān)的文本也將被刪除。
召回階段:通過(guò)無(wú)監(jiān)督方式(例如BM25或文檔嵌入相似性)從整個(gè)候選文檔數(shù)據(jù)庫(kù)中檢索設(shè)置給定問(wèn)題的候選集。
排序階段:這些文檔中的每一個(gè)都通過(guò)一種計(jì)算精準(zhǔn)度更高的方法進(jìn)行評(píng)分和排名。
數(shù)據(jù)清洗
在清理步驟中,我們僅刪除丟失的數(shù)據(jù)。然后,我們清除與主題不直接相關(guān)的文本。具體而言,我們刪除引文中每個(gè)句子不包含("「##」").
召回階段
在召回步驟中,我們使用Okapi BM25來(lái)衡量查詢和文檔之間的詞匯相似度。計(jì)算公式如下:
在驗(yàn)證集上進(jìn)行幾次實(shí)驗(yàn)后,我們?cè)O(shè)置和。
排序階段
在重排序步驟中,我們使用預(yù)先訓(xùn)練的BioBERT獲得相似性評(píng)分。然后,采用交叉熵?fù)p失來(lái)微調(diào)BioBERT:
image其中是相關(guān)段落的索引集,是使用BM25檢索的前20個(gè)文檔中不相關(guān)段落的索引集。為了平衡正負(fù)比率,我們對(duì)正文檔19x進(jìn)行了過(guò)度采樣。
對(duì)BioBERT進(jìn)行微調(diào)后,在重新排序時(shí),我們將此模型用作固定評(píng)分器。在以下算法中,我們描述了廣泛使用的常規(guī)重排策略:如算法1所示,常規(guī)重排序策略是簡(jiǎn)單地遍歷召回集中的每個(gè)文檔。正如我們?cè)趫D2中可以看到的,真實(shí)文檔不是均勻分布的。它們聚集在最高位置。為了解決這個(gè)問(wèn)題,我們?cè)O(shè)計(jì)了一種早期停止策略。如算法2所示,當(dāng)重新排名(經(jīng)過(guò)微調(diào)的BERT模型)顯示高置信度時(shí),我們可以認(rèn)為此文檔是最相關(guān)的文檔。
如圖3所示,最高分的分布與圖2不同。如果在重排序過(guò)程中采用算法2,則如果不相關(guān)的文件的得分大于正數(shù),則我們可能會(huì)誤將不相關(guān)的文件檢索為正確文件。誤報(bào)文件高于閾值。為了緩解這種問(wèn)題,我們提出了一種自適應(yīng)的提前停止重新排序策略,如算法3所示。我們相信基于經(jīng)驗(yàn)的批處理大小????atch size可以減少假陽(yáng)性文檔,并獲得增益(排行榜的指標(biāo))。
更多詳細(xì)細(xì)節(jié)可以參考原始論文的解決方案:An Adaptive Early Stopping Strategy for Query-based Passage Re-ranking
http://www.wsdm-conference.org/2020/wsdm_cup_reports/Task1_dlutycx.pdf
往期精彩回顧適合初學(xué)者入門(mén)人工智能的路線及資料下載機(jī)器學(xué)習(xí)在線手冊(cè)深度學(xué)習(xí)在線手冊(cè)AI基礎(chǔ)下載(pdf更新到25集)本站qq群1003271085,加入微信群請(qǐng)回復(fù)“加群”獲取一折本站知識(shí)星球優(yōu)惠券,請(qǐng)回復(fù)“知識(shí)星球”喜歡文章,點(diǎn)個(gè)在看總結(jié)
以上是生活随笔為你收集整理的WSDM Cup 2020 引用意图识别赛道冠军解决方案(附答辩视频、PPT和代码)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 科普:目标检测Anchor是什么?怎么科
- 下一篇: 我是如何提高工作和研究效率的?分享给大家