机器学习PAL数据预处理
機器學習PAL數據預處理
 本文介紹如何對原始數據進行數據預處理,得到模型訓練集和模型預測集。
 前提條件
 完成數據準備,詳情請參見準備數據。
 操作步驟
-  登錄PAI控制臺。 
-  在左側導航欄,選擇模型開發和訓練 > Studio-可視化建模。 
-  在PAI可視化建模頁面,單擊進入機器學習。 
 
-  將組件拖入畫布并拼接為實驗。 
 i. 在左側菜單欄,單擊組件。
 ii. 在組件列表,選擇數據預處理 > 數據合并,將類型轉換和歸一化組件拖入畫布。
 iii. 在組件列表,將工具下的SQL腳本組件拖入畫布,并與準備數據中的讀數據表組件拼接為實驗,如下圖所示。
 
-  配置組件參數。 
 i. 單擊畫布中的SQL腳本組件,在右側SQL腳本編輯框中輸入SQL語句,將字符型字段轉化為數值型。
 ii. select age,
 iii. (case sex when ‘male’ then 1 else 0 end) as sex,
 iv. (case cp when ‘angina’ then 0 when ‘notang’ then 1 else 2 end) as cp,
 v. trestbps,
 vi. chol,
 vii. (case fbs when ‘true’ then 1 else 0 end) as fbs,
 viii. (case restecg when ‘norm’ then 0 when ‘abn’ then 1 else 2 end) as restecg,
 ix. thalach,
 x. (case exang when ‘true’ then 1 else 0 end) as exang,
 xi. oldpeak,
 xii. (case slop when ‘up’ then 0 when ‘flat’ then 1 else 2 end) as slop,
 xiii. ca,
 xiv. (case thal when ‘norm’ then 0 when ‘fix’ then 1 else 2 end) as thal,
 xv. (case status when ‘sick’ then 1 else 0 end) as ifHealth
 from ${t1};
 xvi. 單擊畫布中的類型轉換組件,在右側字段設置頁簽,單擊轉換為double類型的列下的選擇字段,將所有字段轉換為double類型。
 
xvii. 單擊畫布中的歸一化組件,在右側字段設置頁簽,選擇所有字段。
 7. 單擊畫布上方的運行,運行過程中右鍵單擊組件,可以查看組件的輸出。
 8. 在組件列表,選擇數據預處理 > 數據合并,將拆分組件拖入畫布并與其他組件拼接,單擊運行。
 
拆分組件默認將原始數據按4:1拆分為模型訓練集和模型預測集。您也可以單擊拆分組件,在右側參數設置頁簽,設置切分比例。
 后續步驟
 完成數據預處理后,需要進行數據可視化,詳情請參見數據可視化。
總結
以上是生活随笔為你收集整理的机器学习PAL数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 机器学习PAL基本概念
- 下一篇: 机器学习PAL数据可视化
