结巴分词jieba添加自定义词典
生活随笔
收集整理的這篇文章主要介紹了
结巴分词jieba添加自定义词典
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
結巴分詞添加自定義詞典,有時候很有必要。比如下面這段話:
test_text = """ 我們的健康碼也是綠色的,這憑什么就限制我們的就醫!"""如果使用默認的分詞,那么,“健康碼”這個詞會分成“健康”和“碼”
這里可以使用詞典方式,添加自定義詞典。
新建一個txt文件,在文件里輸入“健康碼”
以utf-8形式保存,這里使用pycharm,默認就是utf8.不用管。
然后使用
jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))wk_dir是詞典放置的目錄,詞典文件名默認為jiebaDict.txt.
再一次分詞,就可以得到這個結果。
如果不想用這個詞作為一整個詞,下次分詞時,還是想,健康, 和碼分開,那么就使用
jieba.del_word("健康碼")那么自定義詞典的文件就沒有這個詞。下次分詞還是會按照默認的方式,分成“健康”,“碼”
如果還想添加其他的,那么可以打開jiebaDict.txt文件,一行一行添加想要添加的自定義詞典。
或者使用
jieba.add_word("憑什么"):
自定義詞典,應該是每次使用都需要手動加載,不然不會發揮作用。
總結
以上是生活随笔為你收集整理的结巴分词jieba添加自定义词典的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas把索引变成列
- 下一篇: 利通电子最近有什么发展项目 拓展业务到军