python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词
python用來批量處理一些數據的第一步吧。
對于我這樣的的萌新。這是第一步。
#encoding=utf-8
file='test.txt'fn=open(file,"r")printfn.read()
fn.close()
在控制臺輸出txt文檔的內容,注意中文會在這里亂碼。因為和腳本文件放在同一個地方,我就沒寫路徑了。
還有一些別的操作。
這是文件open()函數的打開mode,在第二個參數中設置。特別需要注意一下。具體還有一些別的細節操作。
可以具體看上面這個博主,自己做test熟悉。我只是做一個簡單的操作test。
這里用jieba庫,對文檔做一個中文分詞的操作,以便我們以后對這些txt文檔進行更好的分類操作。
具體可以看這個。jieba庫的安裝很方便,只要安裝了pip,配置好了環境變量。
在命令行輸入
pip install jieba
就可以自行安裝了。
我試了他的幾個函數,不知道為什么不能正常地在txt文檔輸出結果。= =只有一個可以正常使用。
(2017.05.19補充:其中所有的函數都可以在txt文檔輸出結果,只需要在前面加上三行代碼即可。)
importsys
reload(sys)
sys.setdefaultencoding("utf-8" )
#encoding=utf-8
importjiebaimportjieba.posseg as psegimportre
filename='result.txt'fileneedCut='test.txt'fn=open(fileneedCut,"r")
f=open(filename,"w+")for line infn.readlines():
words=pseg.cut(line)for w inwords:print >>f,str(w)
f.close()
fn.close()
把需要分詞的txt放到腳本同一目錄就好了。
后面是詞的屬性,左邊是test文件,右邊reault文件,和最流行的ICTCLAS的分詞后屬性貌似是一致的。= =。有點迷。
總結
以上是生活随笔為你收集整理的python文件读写用到的库_python 读写txt文件并用jieba库进行中文分词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python 写入网络视频文件很慢_Op
- 下一篇: python爬虫开发环境_python爬