异常数据4种剔除方法_数据分析系列 22/32 | 9种常用的数据分析方法
要使各種結構化的、非結構化的、海量的數據實現標準化、信息化,能夠提供業務績效評估、業務決策支持等要求,我們首先需要進行數據分析。
同時,圍繞業務問題,采用合適的分析方法,分析模型,以及分析工具,這是數據分析師的必備技能。這里介紹了一些常用的數據分析方法供大家參考。
PART
01
一般統計類
一、描述性統計
描述性統計是一類統計方法的匯總,揭示了數據分布特性。它主要包括數據的頻數分析、數據的集中趨勢分析、數據離散程度分析、數據的分布以及一些基本的統計圖形。
1、缺失值填充:常用方法有剔除法、均值法、決策樹法。
2、正態性檢驗:很多統計方法都要求數值服從或近似服從正態分布,所以在做數據分析之前需要進行正態性檢驗。常用方法:非參數檢驗的K-量檢驗、P-P圖、Q-Q圖、W檢驗、動差法。
二、回歸分析
回歸分析是應用極其廣泛的數據分析方法之一。它基于觀測數據建立變量間適當的依賴關系,以分析數據內在規律。
1. 一元線性分析
只有一個自變量X與因變量Y有關,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態分布。
2. 多元線性回歸分析
使用條件:分析多個自變量X與因變量Y的關系,X與Y都必須是連續型變量,因變量Y或其殘差必須服從正態分布。
3.Logistic回歸分析
線性回歸模型要求因變量是連續的正態分布變量,且自變量和因變量呈線性關系,而Logistic回歸模型對因變量的分布沒有要求,一般用于因變量是離散時的情況。
4. 其他回歸方法:非線性回歸、有序回歸、Probit回歸、加權回歸等。
三、方差分析
使用條件:各樣本須是相互獨立的隨機樣本;各樣本來自正態分布總體;各總體方差相等。
1. 單因素方差分析:一項試驗只有一個影響因素,或者存在多個影響因素時,只分析一個因素與響應變量的關系。
2. 多因素有交互方差分析:一頊實驗有多個影響因素,分析多個影響因素與響應變量的關系,同時考慮多個影響因素之間的關系。
3. 多因素無交互方差分析:分析多個影響因素與響應變量的關系,但是影響因素之間沒有影響關系或忽略影響關系。
4. 協方差分析:傳統的方差分析存在明顯的弊端,無法控制分析中存在的某些隨機因素,降低了分析結果的準確度。協方差分析主要是在排除了協變量的影響后再對修正后的主效應進行方差分析,是將線性回歸與方差分析結合起來的一種分析方法。
四、假設檢驗
1. 參數檢驗
參數檢驗是在已知總體分布的條件下(一般要求總體服從正態分布)對一些主要的參數(如均值、百分數、方差、相關系數等)進行的檢驗。
2. 非參數檢驗
非參數檢驗則不考慮總體分布是否已知,常常也不是針對總體參數,而是針對總體的某些一般性假設(如總體分布的位罝是否相同,總體分布是否正態)進行檢驗。
適用情況:順序類型的數據資料,這類數據的分布形態一般是未知的。
1)雖然是連續數據,但總體分布形態未知或者非正態;
2)總體分布雖然正態,數據也是連續類型,但樣本容量極小,如10以下;
主要方法包括:卡方檢驗、秩和檢驗、二項檢驗、游程檢驗、K-量檢驗等。
PART
02
數據挖掘類
五、相關分析
相關分析是一種非確定性的關系,研究現象之間是否存在某種依存關系,并對具體有依存關系的現象探討其相關方向以及相關程度。
1.單相關:兩個因素之間的相關關系叫單相關,即研究時只涉及一個自變量和一個因變量;
2.復相關:三個或三個以上因素的相關關系叫復相關,即研究時涉及兩個或兩個以上的自變量和因變量相關;
3.偏相關:在某一現象與多種現象相關的場合,當假定其他變量不變時,其中兩個變量之間的相關關系稱為偏相關。
六、聚類分析
聚類是將數據分類到不同的類或者簇這樣的一個過程,因此同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數據出發,自動進行分類。
1)系統聚類法:適用于小樣本的樣本聚類或指標聚類,一般用系統聚類法來聚類指標,又稱分層聚類。
2)逐步聚類法 :適用于大樣本的樣本聚類。
3)其他聚類法 :兩步聚類、K均值聚類等。
七、判別分析
判別分析,是一種統計判別和分組技術,就一定數量樣本的一個分組變量和相應的其他多元變量的已知信息,確定分組與其他多元變量信息所屬的樣本進行判別分組。
判別分析與聚類分析的區別
1.聚類分析可以對樣本逬行分類,也可以對指標進行分類;而判別分析只能對樣本進行分類;
2.聚類分析事先不知道事物的類別,也不知道分為幾類;而判別分析必須事先知道事物的類別,并且知道分幾類;
3.聚類分析不需要分類的歷史資料,而直接對樣本進行分類;而判別分析需要分類歷史資料去建立判別函數,然后才能對樣本進行分類。
八、因子分析
因子分析是指研究從變量群中提取共性因子的統計技術,從大量的數據中尋找內在的聯系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法、最大似然法、最小平方法、阿爾法抽因法、拉奧典型抽因法等等。這些方法本質上大都是近似方法,以相關系數矩陣為基礎。在社會學研究中,因子分析常采用以主成分分析為基礎的反復法。
九、主成分分析
通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。其主要思想是降維,將n維特征映射到k維上(k
與因子分析比較:
相同:都能夠起到分析多個原始變量內在結構關系的作用;
不同:主成分分析重在綜合原始變適的信息.而因子分析重在解釋原始變量間的關系。
以上就是我們今天說的9種常用的數據分析方法,后期我們會一一舉例子應用,敬請期待。
歡迎關注微信公眾號,訪問更多精彩:數據之魅。
如需轉載,請聯系授權,謝謝合作。
總結
以上是生活随笔為你收集整理的异常数据4种剔除方法_数据分析系列 22/32 | 9种常用的数据分析方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: send函数 获得已发送数据长度_蓝牙B
- 下一篇: python数据科学导论 中南_Pyth