用python机器学习实现新闻关键词的抽取,你学会了吗?
1.關鍵詞
關鍵詞是指能反映文本主題或者意思的詞語,如論文中的Keyword字段。大多數人寫文章的時候,不會像寫論文的那樣明確的指出文章的關鍵詞是什么,關鍵詞自動標注任務正是在這種背景下產生的。
目前,關鍵詞自動標注方法分為兩類:
(1)關鍵詞分配,預先定義一個關鍵詞詞庫,對于一篇文章,從詞庫中選取若干詞語作為文章的關鍵詞;
(2)關鍵詞抽取,從文章的內容中抽取一些詞語作為關鍵詞。
2.應用場景
在文獻檢索初期,由于當時還不支持全文搜索,關鍵詞就成為了搜索文獻的重要途徑。隨著網絡規模的增長,關鍵詞成為了用戶獲取所需信息的重要工具,從而誕生了如Google、百度等基于關鍵詞的搜索引擎公司。
關鍵詞自動標注技術在推薦領域也有著廣泛的應用。如圖1所示,當用戶閱讀圖中左邊的新聞時,推薦系統可以給用戶推薦包含關鍵詞”Dropbox”、”云存儲”的資訊,同時也可以根據文章關鍵詞給用戶推薦相關的廣告。
關鍵詞可以作為用戶興趣的特征,從而滿足用戶的長尾閱讀興趣。傳統的信息訂閱系統一般使用類別或者主題作為訂閱的內容,如圖2所示。如果用戶想訂閱更細粒度的內容,這類系統就無能為力了。關鍵詞作為一種對文章更細粒度的描述,剛好可以滿足上述需求。
除了這些以外,關鍵詞還在文本聚類、分類、摘要等領域中有著重要的作用。比如在聚類時,將關鍵詞相似的幾篇文章看成一個類團可以大大提高K-means聚類的收斂速度。從某天所有新聞中提取出這些新聞的關鍵詞,就可以大致知道那天發生了什么事情。或者將某段時間中幾個人的微博拼成一篇長文本,然后抽取關鍵詞就可以知道他們主要在討論些什么話題。
3.現有問題與挑戰
文章的關鍵詞通常具有以下三個特點
· 可讀性。關鍵詞本身應該是有意義的詞或者短語。例如,“我們約會吧”是有意義的短語,而“我們”則不是。
· 相關性。關鍵詞必須與文章的主題相關。例如,一篇介紹巴薩在德比中輸給皇馬的新聞,其中可能順帶提到了“中超聯賽”這個關短語,這時就不希望這個短語被選取作為該新聞的關鍵詞。
· 覆蓋度。關鍵詞集合能對文章的主題有較好的覆蓋度,不能只集中在文章的某個主題而忽略了文章的其他主題。
從上述三個特點,可以看到關鍵詞標注算法的要求以及面臨的挑戰:
a. 新詞發現以及短語識別問題,怎樣快速識別出網絡上最新出現的詞匯(人艱不拆、可行可珍惜…)?
b. 關鍵詞候選集合的問題,并不是文章中所有的詞語都可以作為候選;
c. 怎么計算候選詞和文章之間的相關性?
d. 如何覆蓋文章的各個主題?
關鍵詞分配算法需要預先定義一個關鍵詞詞庫,這就限定了關鍵詞候選范圍,算法的可擴展性較差,且耗時耗力;關鍵詞抽取算法是從文章的內容中抽取一些詞語作為標簽詞,當文章中沒有質量較高的詞語時,這類方法就無能為力了。如果大家對Python感興趣的話,可以加一下我的微信哦:abb436574,免費領取一套學習資料和視頻課程喲~
 ?
用Python作為工具,可以對海量文本進行 機器學習 和算法分析,用最接地氣的方式挑戰數據科學領域實戰項目。
Python抽取新聞關鍵詞搭建模型教程簡介:
1. 任務目標與數據集介紹
2. 數據清理與預處理
3. 抽取數據基本特征
4. 分析文章與詞向量
5. 劃分權重
6. 候選詞統計特征
7. textrank特征提取
8. 候選詞相似度特征
9. 特征工程匯總
谷歌的自動駕駛汽車和機器人受到了很多媒體的關注,但該公司真正的未來是在機器學習領域,這種技術能使計算機變得更聰明,更個性化。-Eric Schmidt(Google董事長)
在當下數字社會,機器學習和數據分析已經成為我們生活的一部分,已經是很多系統的“動力系統”,從平凡到可以改變生活的所有。Python更像是一個工具,助力數據分析更加精準和高效。
總結
以上是生活随笔為你收集整理的用python机器学习实现新闻关键词的抽取,你学会了吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: C++:听说C++很难学?该怎么学习C+
 - 下一篇: NAVICAT连接oracle数据库的时