改动下ICTCLAS4J 0.9.1 提供了分词速度
生活随笔
收集整理的這篇文章主要介紹了
改动下ICTCLAS4J 0.9.1 提供了分词速度
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?
改動下ICTCLAS4J 0.9.1,簡化代碼并做了一個提高了性能的不死機的DOS 命令segtag.bat
ICTCLAS4J_0.9.1 是中科院張華平的分詞系統的Java?版,改版作者Sinboy,發布在http://code.google.com/p/ictclas4j/,?我改動了一下幾個地方1. 對getNextElement采用建立臨時索引的方式提高了幾倍的分詞速度
2. 注釋了firstAdjust處的 index-- 和 index -= 2兩句
3. 建立segtag.bat 方便處理文本文件
? ?現在對一個文本文件分詞, 運行下列命令即可
? ? ? ? segtag < input_corpus.txt > output_segtaged.txt
? 直接運行 segtag?
????????那么自己輸入語句,一回車就可以看到分詞結果
4. 刪除了使用Log4J的監控日志代碼,刪除了每一步驟耗用的時間信息輸出,刪除了圖形界面代碼,
只留下bin目錄下的class文件,src目錄下的Java 源代碼,Data目錄下的詞典數據和SegTag.bat 簡化了程序
下載可以在 http://groups.google.com/group/ictclas/web/ictclas4j.zip
總結
以上是生活随笔為你收集整理的改动下ICTCLAS4J 0.9.1 提供了分词速度的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 查询数据,插入临时表
- 下一篇: 项目管理-时间冲突带来的问题