文献学习(part74)--Data Clustering: 50 Years Beyond K-means
學習筆記,僅供參考,有錯必糾
Data Clustering: 50 Years Beyond K-means
根據感知到的相似性對物體進行分類的做法是許多科學的基礎。將數據組織成合理的分組是理解和學習的最基本模式之一。例如,一種常見的科學分類方案將生物體分為分類等級:領域、界、門、綱等)。聚類分析是根據測量或感知的內在特征對對象進行分組的算法和方法的正式研究。聚類分析不使用先前標識符標記對象的類別標簽,即類標簽。類別信息的缺失將聚類分析(無監督學習)和鑒別分析(監督學習)區分開來。聚類分析的目的是簡單地找到一個方便和有效的數據組織,而不是建立將未來的數據分類的規則。
聚類方法的發展是一項真正的跨學科努力。分類學家、社會科學家、心理學家、生物學家、統計學家、工程師、計算機科學家、醫學研究人員以及其他收集和處理真實數據的人員都對聚類方法做出了貢獻。據JSTOR稱,數據聚類最早出現在1954年一篇關于人類學數據的文章的標題中。最著名、最簡單和最流行的聚類算法之一是K-means。它是由斯坦豪斯(1955),勞埃德(1957),鮑爾和霍爾(1965)和麥昆(1967)獨立發現的!通過谷歌Scholar進行的一項搜索發現,僅2007年一年,就有2.2萬個詞條使用了單詞聚類,1560個詞條使用了單詞數據聚類。在2006年和2007年CVPR、ECML、ICDM、ICML、NIPS和SDM上發表的所有論文中,有150篇涉及聚類。這些大量的文獻談到了聚類在機器學習、數據挖掘和模式識別中的重要性。
一個簇是由許多相似的對象組合在一起組成的。雖然很容易給出簇的功能定義,但是很難給出簇的操作定義。這是因為可以根據不同的目的將對象分組到簇中。數據可以揭示不同形狀和大小的簇。因此,在數據中識別聚類的關鍵問題是指定或學習相似性度量。盡管已經發布了數千種聚類算法,但用戶仍然面臨著選擇算法、距離度量、數據規范化、聚類數量和驗證標準的兩難選擇。熟悉應用程序領域和簇目標肯定有助于做出明智的選擇。本文將提供聚類算法的背景知識,討論聚類算法設計中的主要挑戰和關鍵問題,總結著名的聚類方法,并指出一些新興的研究方向,包括利用成對約束的半監督聚類,結合多個聚類結果的集成聚類,從側面信息中學習距離度量,同時進行特征選擇和聚類。
總結
以上是生活随笔為你收集整理的文献学习(part74)--Data Clustering: 50 Years Beyond K-means的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 星露谷物语能玩多少年
- 下一篇: 分布式与人工智能课程(part14)--