神经机器翻译推断阶段信心校准研究 原
本論文由騰訊 AI Lab 和清華大學合作完成,作者提出了一種評估神經機器翻譯模型在推斷場景下信心校準偏差的方法,并發現 Transformer 模型的信心盡管在訓練場景中校準較好,但是在推斷場景中仍然存在較大的校準偏差。以下為論文的詳細解讀。
On the Inference Calibration of Neural Machine Translation
基于概率的機器學習模型在給出預測結果的同時,往往會輸出一個對應的信心指數(i.e., confidence),該信心指數可以代表模型對自身預測結果的正確性的一個估計。在金融、醫療等安全等級較高的場景中,我們希望模型不但有較好的預測精度(i.e., accuracy),并且能夠做到“知之為知之,不知為不知”,對預測結果的正確性有準確的估計。
我們可以設想一個場景:在一個共同抗擊疫情的各國聯合醫療隊中,各國醫護人員可以使用機器翻譯系統進行交流。在涉及患者病情的關鍵性描述中,我們要求機器翻譯系統要如實反映其對翻譯結果的信心。對于模型不自信的翻譯結果,我們可以請語言專家有針對性的進行后處理,對于大部分模型自信的結果,我們可以直接使用。由此可見,對自身輸出結果是否有一個準確的信心估計,是衡量機器翻譯模型能否實際部署的重要性質。
量化模型對預測結果信心校準偏差的前人工作大多是在分類任務上開展的。但是,不同于分類任務的單一輸出,包括機器翻譯在內的生成式自然語言任務的輸出都是序列化的,并且往往具有潛在的語義結構。如何評估序列化生成模型的信心校準偏差依然是一個尚未解決的問題。
在本文中,我們對期望校準偏差(Expected Calibration Error, ECE)進行了擴展,使其能夠應用到序列化生成任務中來。具體地,ECE 在計算方式如下:
我們首先將模型在測試集中所有預測的 token 分為M組,分組的標準是每個 token 對應的信心指數(具體地,我們使用模型的翻譯概率作為信心指數),信心指數相近的 token 會被分到同一組。在每一組中我們計算所有 token 的平均準確率和平均信心指數。對所有組的平均準確率與平均信心指數的偏差進行加權平均,將會得到最終的 ECE 結果。
為了計算 ECE,一個關鍵是如何量化每個 token 的準確性。為此,我們使用 TER 方法在模型譯文和參考譯文之間建立一個對應關系,并根據 TER 的標注決定每個 token 的正確性:
至此,我們就可以使用 ECE 量化序列化生成模型在推斷場景下的信心校準偏差了。
在實驗中,我們比較了機器翻譯模型分別在訓練與推斷場景下信心校準偏差的情況:
可以看到模型在推斷階段的 ECE 遠遠高于在訓練階段的 ECE (15.83 > 1.39),說明推斷階段的信心校準偏差對目前的機器翻譯模型來說仍然是一個問題。為了深入理解模型信心校準的特性,我們分析了信心失準的 token 的語言學性質。首先,我們比較了不同頻率的 token 的特性:
實驗發現模型在高頻詞上更不容易發生信心失準,而在中低頻詞上更容易發生信心失準。我們從相對位置、繁殖力、詞性、詞粒度等角度分析了模型的信心校準情況,詳情請見論文。
為了探究當前深度學習技術與模型信心校準性質的影響,我們受 Guo et al., 2017 的啟發,研究了正則化技術對機器翻譯模型的影響:
實驗發現,dropout 和 label smoothing 這兩個在 Transformer 模型中非常常用的正則化技術有利于降低模型的 ECE。基于實驗發現,我們提出了一種 Graduated label smoothing 的方法,可以進一步減小模型在推斷場景下的 ECE。具體地,我們的設計思想是對訓練集中模型本身預測概率較高的樣例使用較大的 smoothing 系數,對于預測概率較低的樣例使用較小的 smoothing 系數。
我們還分析了 ECE 與模型大小的關系:
實驗發現盡管增大模型會提高翻譯的 BLEU 值,但是也會導致模型的 ECE 升高,這是增大模型參數量的一個弊端。另外我們發現這個問題可以通過只增大編碼器,保持解碼器不變這一簡單策略在一定程度上緩解。
總結
以上是生活随笔為你收集整理的神经机器翻译推断阶段信心校准研究 原的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 啦里啦里啦里是什么歌啊?
- 下一篇: 紫薯油炸怎么做好吃呢?