當前位置：首頁 > 编程语言 > python >内容正文

python

python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词

發布時間：2025/5/22 python 16 豆豆

生活随笔收集整理的這篇文章主要介紹了 python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

python用來批量處理一些數據的第一步吧。

對于我這樣的的萌新。這是第一步。

#encoding=utf-8

file='test.txt'fn=open(file,"r")printfn.read()

fn.close()

在控制臺輸出txt文檔的內容，注意中文會在這里亂碼。因為和腳本文件放在同一個地方，我就沒寫路徑了。

還有一些別的操作。

這是文件open（）函數的打開mode，在第二個參數中設置。特別需要注意一下。具體還有一些別的細節操作。

可以具體看上面這個博主，自己做test熟悉。我只是做一個簡單的操作test。

這里用jieba庫，對文檔做一個中文分詞的操作，以便我們以后對這些txt文檔進行更好的分類操作。

具體可以看這個。jieba庫的安裝很方便，只要安裝了pip，配置好了環境變量。

在命令行輸入

pip install jieba

就可以自行安裝了。

我試了他的幾個函數，不知道為什么不能正常地在txt文檔輸出結果。= =只有一個可以正常使用。

（2017.05.19補充：其中所有的函數都可以在txt文檔輸出結果，只需要在前面加上三行代碼即可。）

importsys

reload(sys)

sys.setdefaultencoding("utf-8" )

#encoding=utf-8

importjiebaimportjieba.posseg as psegimportre

filename='result.txt'fileneedCut='test.txt'fn=open(fileneedCut,"r")

f=open(filename,"w+")for line infn.readlines():

words=pseg.cut(line)for w inwords:print >>f,str(w)

f.close()

fn.close()

把需要分詞的txt放到腳本同一目錄就好了。

后面是詞的屬性，左邊是test文件，右邊reault文件，和最流行的ICTCLAS的分詞后屬性貌似是一致的。= =。有點迷。

以上是生活随笔為你收集整理的python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。