目前国内汉语自动分词系统的研究现状
1、幾個早期的自動分詞系統
自80年代初中文信息處理領域提出了自動分詞以來,一些實用性的分詞系統逐步得以開發,其中幾個比較有代表性的自動分詞系統在當時產生了較大的影響。
CDWS分詞系統是我國第一個實用的自動分詞系統,由北京航空航天大學計算機系于1983年設計實現,它采用的自動分詞方法為最大匹配法,輔助以詞尾字構詞糾錯技術。其分詞速度為5-10字/秒,切分精度約為1/625。
ABWS是山西大學計算機系研制的自動分詞系統,系統使用 “兩次掃描聯想-回溯”方法,運用了較多的詞法、句法等知識。其切分正確率為98.6%(不包括非常用、未登錄的專用名詞),運行速度為48詞/分鐘。
CASS是北京航空航天大學于1988年實現的分詞系統。它使用正向增字最大匹配,運用知識庫來處理歧義字段。其機械分詞速度為200字/秒以上,知識庫分詞速度150字/秒(沒有完全實現)。
書面漢語自動分詞專家系統是由北京師范大學現代教育研究所于1991前后研制實現的,它首次將專家系統方法完整地引入到分詞技術中。
2、清華大學SEG分詞系統
此系統提供了帶回溯的正向、反向、雙向最大匹配法和全切分-評價切分算法,由用戶來選擇合適的切分算法。其特點則是帶修剪的全切分-評價算法。經過封閉試驗,在多遍切分之后,全切分-評價算法的精度可以達到99%左右。
3、清華大學SEGTAG系統
 此系統著眼于將各種各類的信息進行綜合,以便最大限度地利用這些信息提高切分精度。系統使用有向圖來集成各種各樣的信息。通過實驗,該系統的切分精度基本上可達到99%左右,能夠處理未登錄詞比較密集的文本,切分速度約為30字/秒。
4、國家語委文字所應用句法分析技術的漢語自動分詞
此分詞模型考慮了句法分析在自動分詞系統中的作用,以更好地解決切分歧義。切詞過程考慮到了所有的切分可能,并運用漢語句法等信息從各種切分可能中選擇出合理的切分結果。
5、復旦分詞系統
 此系統由四個模塊構成。一、預處理模塊,利用特殊的標記將輸入的文本分割成較短的漢字串,這些標記包括標點符號、數字、字母等非漢字符,還包括文本中常見的一些字體、字號等排版信息。二、歧義識別模塊,使用正向最小匹配和逆向最大匹配對文本進行雙向掃描,如果兩種掃描結果相同,則認為切分正確,否則就判別其為歧義字段,需要進行歧義處理;三、歧義字段處理模塊,此模塊使用構詞規則和詞頻統計信息來進行排歧。最后,此系統還包括一個未登錄詞識別模塊,實驗過程中,對中文姓氏的自動辨別達到了70%的準確率。系統對文本中的地名和領域專有詞匯也進行了一定的識別。
6、哈工大統計分詞系統
此系統能夠利用上下文識別大部分生詞,解決一部分切分歧義。經測試,此系統的分詞錯誤率為1.5%,速度為236字/秒。
7、杭州大學改進的MM分詞系統
 系統的詞典采用一級首字索引結構,詞條中包括了“非連續詞”(形如C1…* Cn)。系統精度的實驗結果為95%,低于理論值99.73%,但高于通常的MM、RMM、DMM方法。
8、Microsoft Research 漢語句法分析器中的自動分詞
微軟研究院的自然語言研究所在從90年代初開始開發了一個通用型的多國語言處理平臺NLPWin,據報道,NLPWin的語法分析部分使用的是一種雙向的Chart Parsing,使用了語法規則并以概率模型作導向,并且將語法和分析器獨立開。 實驗結果表明,系統可以正確處理85%的歧義切分字段,在Pentium 200 PC上的速度約600-900字/秒。
9、北大計算語言所分詞系統
本系統由北京大學計算語言學研究所研制開發,屬于分詞和詞類標注相結合的分詞系統。系統的分詞連同標注的速度在Pentium 133Hz/16MB內存機器上的達到了每秒3千詞以上,而在Pentium II/64MB內存機器上速度高達每秒5千詞。
人工智能、大數據、云計算和物聯網的未來發展值得重視,均為前沿產業,多智時代專注于人工智能和大數據的入門和科譜,在此為你推薦幾篇優質好文:
 現代漢語文本的自動分詞算法和基本概念,都在這里了
http://www.duozhishidai.com/article-4170-1.html
1.人工智能時代,AI人才都有哪些特征?
 http://www.duozhishidai.com/article-1792-1.html
 2.大數據攜手人工智能,高校人才培養面臨新挑戰
 http://www.duozhishidai.com/article-7555-1.html
多智時代-人工智能和大數據學習入門網站|人工智能、大數據、物聯網、云計算的學習交流網站
總結
以上是生活随笔為你收集整理的目前国内汉语自动分词系统的研究现状的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 不禁网页的浏览器_网页游戏兴衰史:「农场
- 下一篇: ISO 20088耐低温泄漏的测定_IS
