每日10行代码34:wordcloud生成词云时过滤掉某些词
生活随笔
收集整理的這篇文章主要介紹了
每日10行代码34:wordcloud生成词云时过滤掉某些词
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
今天在制作詞云時(shí)發(fā)現(xiàn)生成的詞云有很多虛詞,比方說(shuō)“情況、一是、二是、要求、加快、推進(jìn)、發(fā)展” 還有一些不想讓他出現(xiàn)的人名。這時(shí)就需要過(guò)濾某些詞了,在網(wǎng)上搜了下,發(fā)現(xiàn)大多都是在程序里添加一個(gè)列表,然后再過(guò)濾,或者是用stopwords.add() ,其實(shí)還有個(gè)方法:
修改成:
STOPWORDS = set(map(str.strip, open(os.path.join(FILE, 'stopwords'),encoding='utf-8').readlines()))就可以了,不過(guò)可能有些編輯器不用修改代碼就可以,我就沒做多的試驗(yàn)了。
這樣修改屏蔽詞有個(gè)好處就是簡(jiǎn)單,不用寫過(guò)多的代碼,用的包自身的屏蔽功能,不額外消耗內(nèi)存,一次設(shè)置終身使用。不過(guò)也有一個(gè)問(wèn)題,就是如果想針對(duì)不同的項(xiàng)目設(shè)置不同屏蔽詞的話就不行了,這種方法最適合的是設(shè)置一些常用屏蔽詞。
ps: 明天可能比較忙,先把文章發(fā)了,明天可能斷更一天。今天又爬了一個(gè)網(wǎng)站,寫的代碼可不止10行,但是跟前面爬人民日?qǐng)?bào)的項(xiàng)目差不多,就不發(fā)上來(lái)了。
總結(jié)
以上是生活随笔為你收集整理的每日10行代码34:wordcloud生成词云时过滤掉某些词的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Halcon
- 下一篇: python opencv截取视频