【机器学习PAI实践二】人口普查统计
產品地址:https://data.aliyun.com/product/learn?spm=a21gt.99266.416540.102.OwEfx2
一、背景
感謝大家關注玩轉數據系列文章,我們希望通過在阿里云機器學習平臺上提供demo數據并搭建相關的實驗流程的方式來幫助大家學習如何通過算法來挖掘數據中的價值。本系列文章包含詳細的實驗流程以及相關的文檔教程,歡迎大家進入阿里云數加機器學習平臺體驗。實驗案例請在新建實驗頁簽查看,如下圖。
本章作為玩轉數據系列的開篇,先提供一個簡單的案例給大家熱身。通過截取一份人口普查的數據,對學歷和收入進行統計和分析。主要目的是幫助大家學習阿里云機器學習實驗的搭建流程和組件的使用方式。任何關于阿里云機器學習方面的交流歡迎訪問我們的云棲社區公眾號。
二、數據集介紹
數據源: UCI開源數據集Adult
針對美國某區域的一次人口普查結果,共32561條數據。具體字段如下表:
| age | 年齡 | double |
| workclass | 工作類型 | string |
| fnlwgt | 序號 | string |
| education | 教育程度 | string |
| education_num | 受教育時間 | double |
| maritial_status | 婚姻狀況 | string |
| occupation | 職業 | string |
| relationship | 關系 | string |
| race | 種族 | string |
| sex | 性別 | string |
| capital_gain | 資本收益 | string |
| capital_loss | 資本損失 | string |
| hours_per_week | 每周工作小時數 | double |
| native_country | 原籍 | string |
| income | 收入 | string |
三、數據探索流程
選中人口統計demo,從模型生成實驗,如下圖:
使用方式:
-用戶通過從左邊列表拖拽組件到試驗區域搭建實驗流程
-在配置區域對每個組件的參數進行設置
1.數據導入
機器學習平臺的底層計算式阿里云分布式計算系統MaxCompute(原名ODPS),所以實驗數據需要先導入到ODPS表里,用戶可以通過讀ODPS表(圖中的數據源-人口統計)組件導入數據。上傳成功后,右鍵組件可以查看數據,如下圖:
2.理解數據
數據導入后就可以對數據進行分析了,整個實現從縱向看分為三個部分。
其中全表統計和數值分布統計是幫助用戶更好的理解一份數據,理解一份數據是符合泊松分布或是高斯分布,連續或是離散的對之后的算法的選擇會有一定幫助(具體的對照關系在之后的文章會詳細介紹)。阿里云機器學習的每個套件都提供了可視化顯示結果的功能,下圖是數值統計的直方圖組件結果,可以清楚地看到每個輸入數值的分布情況。
3.統計不同學歷的人員的收入情況
每個人都想增加收入,都想知道哪些因素對收入的影響最大。這些問題都可以通過提取特征,利用機器學習算法訓練來得到。本文主要目的是簡單介紹一下機器學習平臺的使用方法,這里簡單的針對不同學歷的人員的收入做一下統計。
(1)數據的預處理
我們看到在收入統計的這條線上,數據流入的第一個組件是SQL腳本(如下圖),機器學習平臺提供SQL腳本對于數據進行處理。這里是將string型的income字段轉換成二值型的0和1的形式。0表示年收入在50K以下,1表示年收入在50K以上。這種將文本數據數值化是機器學習特征處理的常用方式,以后會經常用到這種方式。
(2)過濾與映射
這一步主要是通過過濾與映射組件將數據按照學歷分為三部分,分別是博士、碩士和學士。過濾與映射底層是SQL語法,支持where過濾條件,用戶通過在右邊的配置欄填寫過濾條件即可。
(3)統計結果
通過每個百分位組件就可以方便的得到每個分類下的收入比例。下圖是調成折線圖的展示效果,結果中為0的點也就是年收入在50K以下的人群占比例百分之25左右。
結合三個百分位組件就可以得到如下圖結果。
| 博士 | 75% |
| 碩士 | 57% |
| 學士 | 42% |
四、其它
作者微信公眾號:
凡人機器學習
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的【机器学习PAI实践二】人口普查统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习PAI实践一】搭建心脏病预测案
- 下一篇: 【机器学习PAI实践三】雾霾成因分析