【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )
文章目錄
- I . 數(shù)據(jù)挖掘 功能
- II . 數(shù)據(jù)挖掘 結(jié)果判斷
- III . 數(shù)據(jù)挖掘 學(xué)習(xí)框架
- IV . 數(shù)據(jù)挖掘 分類
I . 數(shù)據(jù)挖掘 功能
1 . 概念描述 ( Concept Description ) : 主要進(jìn)行 表征 與 判斷 操作 , 概括 , 總結(jié) , 對比 數(shù)據(jù)的特征 ;
如 : 對產(chǎn)品分類 , 對真實(shí)世界進(jìn)行描述 ;
2 . 關(guān)聯(lián)分析 ( Association ) : 分析兩個事物的發(fā)生的 相關(guān)性 , 因果性 ;
如 : 尿布 與 啤酒 經(jīng)常被一起購買 ( 相關(guān)性分析 ) ; 銀行對申請貸款的人的信用評級進(jìn)行相關(guān)性分析 ;
3 . 分類和預(yù)測 ( Classification and Prediction ) : 數(shù)據(jù)挖掘中的重要部分 , 構(gòu)造用于 描述 / 區(qū)分 對 未來預(yù)測 的 分類 / 概念 的模型 ;
有監(jiān)督學(xué)習(xí)過程 : 分類和預(yù)測是典型的有監(jiān)督學(xué)習(xí)的過程 , 先給一組訓(xùn)練數(shù)據(jù) , 根據(jù)該數(shù)據(jù)進(jìn)行訓(xùn)練 , 完成后對未知的數(shù)據(jù)進(jìn)行預(yù)測 ;
如 : 預(yù)測票房 , 疾病 ; 預(yù)測未知數(shù)值 ; 根據(jù)氣候?qū)曳诸?; 根據(jù)汽車油耗對汽車分類 ;
4 . 聚類分析 ( Cluster Analysis ) : 將數(shù)據(jù)分組 , 使類內(nèi)部數(shù)據(jù)相似度最大化 , 使類之間數(shù)據(jù)的相似度最小化 ;
數(shù)據(jù)類型標(biāo)簽未知 : 將數(shù)據(jù)分組形成新類 , 分析找出分類的依據(jù) ;
5 . 異常檢測 ( Outlier Analysis ) :
① 異常值 ( Outlier ) : 不符合一般行為特點(diǎn)的數(shù)據(jù) ;
② 異常值作用 : 該數(shù)據(jù)很重要 , 用于罕見事件分析 , 欺詐檢測 ;
6 . 趨勢與演化分析 ( Trend and Evolution Analysis ) : 趨勢與偏差 , 如回歸分析 ; 序列模式挖掘 , 周期性分析 ; 基于相似性的分析 ;
II . 數(shù)據(jù)挖掘 結(jié)果判斷
數(shù)據(jù)挖掘結(jié)果判斷 : 數(shù)據(jù)挖掘得出的 知識 / 模式 , 如何判斷得出的結(jié)果是否有效 ;
① 客觀判斷方法 : 通過科學(xué)計(jì)算進(jìn)行判斷是否正確 , 該計(jì)算基于 模式 的t 統(tǒng)計(jì)和結(jié)構(gòu) ; ( 學(xué)術(shù)界判斷 )
② 主觀判斷方法 : 基于人的個人感覺 , 根據(jù)該結(jié)果是否盈利 , 客戶 ( 甲方 ) 給出評判結(jié)果 ; ( 工業(yè)界判斷 )
III . 數(shù)據(jù)挖掘 學(xué)習(xí)框架
1 . 數(shù)據(jù)挖掘技術(shù) ( 重點(diǎn) ) : 聚類分析 , 異常檢測 , 分類 , 關(guān)聯(lián)規(guī)則分析 , 序列模式分析 , 數(shù)據(jù)方體與數(shù)據(jù)倉庫 ;
2 . 數(shù)據(jù)挖掘原理 : 數(shù)據(jù)庫技術(shù) ( 索引 , 數(shù)據(jù)壓縮 , 數(shù)據(jù)結(jié)構(gòu) ) , 人工智能 , 機(jī)器學(xué)習(xí) , 統(tǒng)計(jì)學(xué) , 信息論 , 理論計(jì)算 ( 近似 / 隨機(jī) 算法 ) , 數(shù)學(xué)規(guī)劃 , 幾何計(jì)算 ;
3 . 數(shù)據(jù)挖掘應(yīng)用 : CRM , 搜索分析 , 網(wǎng)絡(luò)安全 , 生物信息分析 …
IV . 數(shù)據(jù)挖掘 分類
1 . 根據(jù)輸入數(shù)據(jù)類型分類 :
① 根據(jù) 數(shù)據(jù)模型 分類 : 根據(jù)數(shù)據(jù)模型分類 , 分類成 關(guān)系 , 面向?qū)ο?, 對象 - 關(guān)系 , 數(shù)據(jù)倉庫 等不同類型的數(shù)據(jù)模型的 數(shù)據(jù)挖掘 ;
② 根據(jù) 數(shù)據(jù)類型 分類 : 時(shí)間數(shù)據(jù) , 空間數(shù)據(jù) , 文本數(shù)據(jù) , 音視頻多媒體數(shù)據(jù) , WEB 數(shù)據(jù) 等類型的數(shù)據(jù)挖掘 ;
2 . 根據(jù)輸出數(shù)據(jù)類型分類 :
① 根據(jù)結(jié)果類型分析 : 特征分析 , 關(guān)聯(lián)分析 , 聚類分析 , 偏差分析 , 異常檢測分析 , 趨勢和演化分析 等類型的 數(shù)據(jù)挖掘 ;
② 根據(jù)挖掘的知識的粒度與抽象級別分類 : 高抽象的泛化知識 , 原始層的知識 , 多層的知識 ;
3 . 根據(jù)采用的技術(shù)分類 : 如 機(jī)器學(xué)習(xí) , 模式識別 , 神經(jīng)網(wǎng)絡(luò) , 可視化 等技術(shù)類型的 數(shù)據(jù)挖掘 ;
4 . 根據(jù)應(yīng)用領(lǐng)域分類 : 如 金融 , 生物 , 電訊 等領(lǐng)域的數(shù)據(jù)挖掘 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘简介 ( 6 个常用功能 | 数据挖掘结果判断 | 数据挖掘学习框架 | 数据挖掘分类 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【设计模式】适配器模式 ( 类适配器代码
- 下一篇: 【设计模式】享元模式 简介 ( 定义 |