中文分词器分词效果的评测方法
[原創]中文分詞器分詞效果的評測方法
2013年8月27日 由 learnhard留言 ?轉載請注明出處:http://www.codelast.com/
現在有很多開源的中文分詞器庫,如果你的項目要選擇其一來實現中文分詞功能,必然要先評測它們的分詞效果。如何評測?下面詳細敘述。
【1】黃金標準/Golden standard
因此,要找有權威的分詞數據來做為黃金標準。
大家可以使用SIGHAN(國際計算語言學會(ACL)中文語言處理小組)舉辦的國際中文語言處理競賽Second International Chinese Word Segmentation Bakeoff(http://sighan.cs.uchicago.edu/bakeoff2005/)所提供的公開數據來評測,它包含了多個測試集以及對應的黃金標準分詞結果。
文章來源:http://www.codelast.com/
【2】評價指標
精度(Precision)、召回率(Recall)、F值(F-mesure)是用于評價一個信息檢索系統的質量的3個主要指標,以下分別簡記為P,R和F。同時,還可以把錯誤率(Error Rate)作為分詞效果的評價標準之一(以下簡記為ER)。
直觀地說,精度表明了分詞器分詞的準確程度;召回率也可認為是“查全率”,表明了分詞器切分正確的詞有多么全;F值綜合反映整體的指標;錯誤率表明了分詞器分詞的錯誤程度。
P、R、F越大越好,ER越小越好。一個完美的分詞器的P、R、F值均為1,ER值為0。
通常,召回率和精度這兩個指標會相互制約。
例如,還是拿上面那句話作為例子:“科學技術是第一生產力”(黃金標準為“科學技術 是 第一 生產力”),假設有一個分詞器很極端,把幾乎所有前后相連的詞的組合都作為分詞結果,就像這個樣子:“科學 技術 科學技術 是 是第一 第一生產力 生產力”,那么毫無疑問,它切分正確的詞已經覆蓋了黃金標準中的所有詞,即它的召回率(Recall)很高。但是由于它分錯了很多詞,因此,它的精度(Precision)很低。
因此,召回率和精度這二者有一個平衡點,我們希望它們都是越大越好,但通常不容易做到都大。
文章來源:http://www.codelast.com/
為了陳述上述指標的計算方法,先定義如下數據:
:黃金標準分割的單詞數
:分詞器錯誤標注的單詞數
:分詞器正確標注的單詞數
則以上各指標的計算公式如下:
文章來源:http://www.codelast.com/【3】正確及錯誤標注的計數算法
如上所述,我們要先計算出e和c,才能計算出各指標值。和是按如下算法來統計的: 在“黃金標準”和“待評測的結果”中,理論上,除了分詞后添加的空格之外,它們所有的文字都是相同的;唯一的不同就在于那些有差異的分詞結果的位置上。例如,“計算機 是個 好東西”(黃金標準)與“計算機 是 個 好東西”(待評測的結果)的差異就在于“是個”與“是 個”的差異,其余分詞結果都是相同的。因此,只需要找到這種差異的個數,就可以統計出分詞器正確標注了多少個詞、錯誤標注了多少個詞。
? 以下面的分詞結果為例: “計算機 總是 有問題”——黃金標準 “計算機 總 是 有問題”——待評測的結果
? 給分出來的每個詞都做位置的標記(位置從1開始): (1,4),(4,6),(6,9) ——黃金標準 (1,4),(4,5),(5,6),(6,9) ——待評測的結果
文章來源:http://www.codelast.com/ 那么我們會發現,(1,4)和(6,9)這兩個詞是相同的(即“計算機”和“有問題”),而差異在于(4,6)和(4,5),(5,6)(即“總是”和“總 是”),因此,我們只需要比較這兩個標注結果中的差異數,就可以知道分詞器正確、錯誤地標注了多少個單詞。在此例中,正確的標注的單詞數為2,錯誤標注的單詞數為2。
? 需要說明的是:在此例中,也可以認為錯誤標注的單詞數為1(即“總是”與“總 是”的差異),按照最大錯誤數來算會使錯誤率升高(在分詞精度很差的情況下,可能會導致ER>100%),不過,在所有分詞器都使用同一標準來評測的情況下,也就會很公平,并不會影響到最終的結論。
有了上面的算法,就很容易寫出一個評測程序了。這里就不把程序放上來了。
文章來源:http://www.codelast.com/
【4】參考文獻
①?Word Segmentation: Quick but not Dirty.
②?Chinese Segmentation and New Word Detection using Conditional Random Fields
Fuchun Peng, Fangfang Feng, Andrew McCallum, Computer Science Department, University of Massachusetts Amherst, 140 Governors Drive, Amherst, MA, U.S.A. 01003, {fuchun, feng, mccallum}@cs.umass.edu
③?A Compression-based Algorithm for Chinese Word Segmentation
總結
以上是生活随笔為你收集整理的中文分词器分词效果的评测方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于用户的协同过滤和皮尔逊相关系数
- 下一篇: Weka使用笔记