【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )
文章目錄
- I . K-Means 算法在實際應用中的缺陷
- II . K-Means 初始中心點選擇不恰當
- III . K-Means 優點 與 弊端
- IV . 基于密度的聚類方法
- V . 基于密度的聚類方法 DBSCAN 方法
- VI . ε\varepsilonε-鄰域
- VII . 核心對象
- VIII . 直接密度可達
- IX . 密度可達
- X . 密度連接
I . K-Means 算法在實際應用中的缺陷
1 . K-Means 算法中中心點選擇是隨機的 : 隨機地選擇聚類分組的中心點 ;
① 選擇實點 : 可以選擇實點 ( 當前現有的樣本值 ) 作為聚類中心點 ;
② 生成虛點 : 也可以選擇生成虛點 ( 任意位置模擬出一個樣本點 ) 作為中心點 ;
2 . 必須事先設置聚類分組個數 KKK 值 : 開始的時候并不知道將數據集分成幾組能達到最佳的分組效果 ;
① 學習出 KKK 值 : 使用其它聚類方法 , 先將數據集學習一遍 , 確定聚類分組個數 ;
② 多次聚類 : 選取不同的 KKK 聚類分組個數 , 然后看取什么值可以達到最好的聚類分組效果 ;
3 . 最佳實踐 : 運行多次 K-Means 方法 , 選取不同的 KKK 值 , 以及不同的聚類分組個數 ;
II . K-Means 初始中心點選擇不恰當
下面的數據集 , 如果使用肉眼觀察 , 選擇的中心點是如下綠色的點 , 但是如果隨機選擇中心點 , 加入選擇的很差 , 如下圖中的紅色點作為中心點 , 那么迭代之后的聚類分組如下圖所示 , 明顯該聚類分組不是最佳分組 ;
① 肉眼觀察 3-NN 聚類分組 比較合適的中心點距離 :
② 隨機選擇中心點后的聚類分組 : 這是隨機選擇的分組 , 顯然這不是最佳分組 ;
選擇的初始的中心點太垃圾 , 會導致多次迭代 , 即使算法收斂 , 多次迭代計算的聚類分組不再改變 , 得到結果也可能是不準確的 ;
這是基于距離 ( 劃分 ) 的聚類方法的固有缺陷 ;
III . K-Means 優點 與 弊端
1 . K-Means 好處是 : 簡單 , 容易理解 , 性能較高 , 能很快計算出聚類結果 ;
2 . K-Means 弊端 : 只能找出球形的聚類分組 , 對異常點 和 噪音 非常敏感 , 如果有一個異常點 , 就會導致聚類分組不準確 , 魯棒性差 ;
3 . K-Means 無法處理的情況 : 如下面的聚類 , 將不同形狀的樣本分開 , 需要識別出凹形的模式 , K-Means 無法完成該聚類操作 ;
IV . 基于密度的聚類方法
1 . 基于密度的聚類方法 :
① 方法迭代原理 : 相鄰區域的密度 , 即 單位空間內 數據樣本 點的個數 , 超過用戶定義的某個閾值 , 那么該區域需要進行聚類 , 如果低于某個閾值 , 聚類停止 , 算法終止 ;
② 聚類分組前提 : 如果想要將多個 數據樣本 劃分到一個聚類分組中 , 那么這些樣本的分布必須達到一定的密度 , 即在某個范圍大小區域內 , 該樣本點必須達到一定的數目 ; 具體的數量個數 根據空間大小 , 和 密度計算出來 ;
2 . 示例 : 如 , 先定義好 , 如果進行聚類 , 必須在 1×11 \times 11×1 平面內至少有 161616 個樣本 , 給定一個區域內的點 , 如果該區域的樣本密度值大于 161616 , 就劃分到一個聚類中 ; 如果該區域是 0.5×0.50.5\times 0.50.5×0.5 大小 , 那么只需要有 444 個就能進行聚類 , 如果這個區域是 2×22 \times 22×2 , 必須有 646464 個樣本才能聚類成一組 ;
3 . 基于密度聚類好處 : 該方法可以排除 異常點 , 噪音數據 , 魯棒性很好 ;
4 . 基于密度的聚類方法涉及到的參數 : 密度閾值 , 聚類區域范圍 ;
V . 基于密度的聚類方法 DBSCAN 方法
DBSCAN 方法 :
① 全稱 : Density Based Spatial Clustering of Application with Noise , 基于密度兼容噪音的空間聚類應用 算法 ;
② 聚類分組原理 : 數據樣本 ppp 與 qqq 存在 密度連接 關系 , 那么 ppp 和 qqq 這兩個樣本應該劃分到同一個聚類中 ;
③ 噪音識別原理 : 數據樣本 nnn 與 任何樣本 不存在 密度連接 關系 , 那么 nnn樣本 就是噪音數據 ;
VI . ε\varepsilonε-鄰域
1 . ε\varepsilonε-鄰域 : 這是一個范圍定義 , 給定一個數據樣本對象 , 以該樣本為中心 , 指定一個半徑 ε\varepsilonε , 形成一個范圍區域 , 組成了該樣本的 ε\varepsilonε-鄰域 ;
2 . ε\varepsilonε-鄰域示例 : 如果是二維平面該范圍區域是一個圓 , 如果是三維平該范圍區域是一個球 ;
3 . ε\varepsilonε-鄰域圖示 : 下面的紅點就是樣本點 , 以紅點為圓心 , 以 ε\varepsilonε 為半徑的 淺綠色區域 , 就是 ε\varepsilonε-鄰域 ;
VII . 核心對象
1 . 核心對象 : 在一個樣本對象 CCC 的 ε\varepsilonε-鄰域 中 , 有超過一定 閾值 ( 最小數量 ) 的 樣本對象分布 , 那么該樣本對象 CCC 就是核心對象 ;
2 . 核心對象 圖示 : 如果該閾值 ( 最小數量 ) 設置成 555 , 那么該 ε\varepsilonε-鄰域 中有 666 個點 , 超過了最小閾值 , 紅色 的 中心點 數據樣本 是 核心對象 ;
VIII . 直接密度可達
1 . 直接密度可達 : Directly Density Reachable ( DDR ) ;
① 概念 : 樣本 ppp 是核心對象 ( 以 ppp 為中心 ε\varepsilonε-鄰域 中超過閾值個數的樣本 ) , 樣本 qqq 在其 ε\varepsilonε-鄰域 中 , 那么 稱為 ppp 直接密度可達 qqq ; 注意方向 p→qp \rightarrow qp→q , 從 ppp 出發直接密度可達 qqq ;
② 直接密度可達有兩個條件 : ① 起點必須是核心對象 , ② 終點必須在起點的 ε\varepsilonε-鄰域 中 ;
2 . 直接密度可達的注意點 :
① 單向概念 : 注意該概念是單向的概念 , ppp 樣本出發 , 可以 直接密度可達 qqq , 反過來是不行的 ; qqq 出發不一定能到 ppp ;
② 直接密度可達 起點 : 只有 核心對象 才有資格 發起密度可達 概念 , 不是核心對象 , 沒有資格作為起點 ;
③ 直接密度可達 性質 : 如果 ppp 是核心對象 , 那么從 ppp 出發 , 可以直接密度可達其 ε\varepsilonε-鄰域 中所有的樣本點 ;
④ 如果 ppp 不是核心對象 , 那么沒有直接密度可達的概念 ;
3 . 圖示 : 紅色點 ppp 是核心對象 , qqq 在其 ε\varepsilonε-鄰域 中 , ppp 直接密度可達 qqq ;
IX . 密度可達
1 . 密度可達 : ppp 密度可達 qqq , 存在一個 由 核心對象 組成的鏈 , ppp 直接密度可達 p1p_1p1? , p1p_1p1? 直接密度可達 p2p_2p2? , ?\cdots? , pn?1p_{n-1}pn?1? 直接密度可達 pnp_npn? , 此時稱為 ppp 密度可達 qqq ;
2 . 鏈 上的核心對象要求 : 鏈的起點 , 和經過的點 , 必須是核心對象 , 鏈的最后一個點 , 可以是任意對象 ;
3 . 密度可達 與 直接密度可達區別 : 密度可達 與 直接密度可達 的概念在于 是直接可達 , 還是 間接可達 ;
4 . 密度可達圖示 : ppp 直接密度可達 qqq , qqq 直接密度可達 ttt , ppp 密度可達 ttt ;
X . 密度連接
1 . 密度連接 : ppp 和 qqq 兩個樣本 , 存在一個中間樣本對象 OOO , OOO 到 ppp 是 密度可達 的 , OOO 到 qqq 是 密度可達 的 ;
2 . 密度連接方向 : OOO 可以密度連接 ppp 和 qqq 樣本 , 但是 ppp 和 qqq 不一定能走到 OOO , 它們可能不是核心對象 ;
3 . 核心對象要求 : OOO 以及到 樣本 ppp 或者 樣本 qqq 中間的樣本都必須是核心對象 , 但是 ppp 和 qqq 兩個對象不要求是核心對象, 它們可以是普通的樣本點 ;
4 . 密度連接圖示 : 下圖中 , 樣本點 OOO 密度可達 ppp 和 qqq , 那么 ppp 和 qqq 是密度連接的 ; 其中 p,qp, qp,q 不是核心對象 , O,p1,p2,q1,q2O , p_1 , p_2 , q_1 , q_2O,p1?,p2?,q1?,q2? 是核心對象 ;
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】高斯混合模型 ( 与 K-M
- 下一篇: 【数据挖掘】基于密度的聚类方法 - DB