Apache Spark机器学习.1.7 机器学习工作流示例
1.7 機器學(xué)習(xí)工作流示例
為了進一步了解學(xué)習(xí)機器學(xué)習(xí)的工作流,在這里讓我們學(xué)習(xí)一些例子。
本書后續(xù)章節(jié)會研究風(fēng)險建模、欺詐檢測、客戶視圖、流失預(yù)測和產(chǎn)品推薦。對于諸如此類的項目,目標(biāo)往往是確定某些問題的原因,或者建立一個因果模型。下面是使用工作流建立一個因果模型的一個例子。
1.檢查數(shù)據(jù)結(jié)構(gòu),以確保更好地理解數(shù)據(jù):
數(shù)據(jù)是橫截面數(shù)據(jù)嗎?是隱含著時間信息的合并數(shù)據(jù)嗎?
是否使用了分類變量?
2.檢查缺失值:
不知道或者忘記了一個答案可能會被記錄為一個中立或特殊的類別
一些變量可能有很多缺失值
根據(jù)需要重新記錄一些變量
3.進行一些描述性研究,開始講故事:
使用比較方法和交叉列表
檢查一些關(guān)鍵變量的變異性(標(biāo)準(zhǔn)差和方差)
4.ind變量(外生變量)的選擇組:
作為問題原因的候選
5.基本描述性統(tǒng)計:
所有變量的均值、標(biāo)準(zhǔn)差和頻率
6.測量工作:
研究一些測量值的規(guī)模(efa探索性因子分析在這里可能是有用的)
形成測量模型
7.本地模型:
從全局中找出部分以探索其中關(guān)系
使用交叉列表
圖表展示
使用邏輯回歸
使用線性回歸
8.開展一些偏相關(guān)分析,以幫助模型設(shè)定。
9.使用(8)的結(jié)果,提出結(jié)構(gòu)方程模型:
確定主結(jié)構(gòu)和次結(jié)構(gòu)
將測量和結(jié)構(gòu)模型進行關(guān)聯(lián)
10.初次擬合:
運用SPSS為lisrel或Mplus創(chuàng)建數(shù)據(jù)集
使用lisrel或Mplus編程
11.模型修正:
使用SEM結(jié)果(主要模型擬合指數(shù))來指導(dǎo)
再次分析偏相關(guān)性
12.診斷:
分布
殘差
曲線
13.到這里我們應(yīng)該可以開展最終模型估計了:
如果不能,請重復(fù)步驟13和14
14.模型解釋(識別和量化因果效應(yīng))
可參考 Spark Pipelines: http://www.researchmethods.org/step-by-step1.pdf。
Apache Spark團隊認(rèn)識到了機器學(xué)習(xí)工作流的重要性,因此,他們開發(fā)了Spark pipeline來高效處理工作流問題。
Spark 機器學(xué)習(xí)代表一個可以作為pipeline的機器學(xué)習(xí)工作流,它由一系列以特定順序運行的PipelineStages組成。
PipelineStages包括:Spark轉(zhuǎn)換、Spark估計和Spark評估。
機器學(xué)習(xí)的工作流可以是非常復(fù)雜的,因此創(chuàng)建和調(diào)整它們非常耗時。研發(fā)Spark 機器學(xué)習(xí)Pipeline,使得機器學(xué)習(xí)工作流的構(gòu)造和調(diào)整更為容易,尤其可以表示以下主要階段:
1.數(shù)據(jù)加載
2.特征提取
3.模型估計
4.模型評價
5.模型解釋
對于以上任務(wù),可以使用Spark轉(zhuǎn)換器進行特征提取。Spark估計器用來訓(xùn)練和估計模型,Spark評估器用來評價模型。
從技術(shù)上看,Spark中的pipeline作為一系列處理過程的有序組合,每個過程可以是轉(zhuǎn)換,或者是估計,或者是評估。這些過程按照順序執(zhí)行,輸入的數(shù)據(jù)集遵循各過程順序進行修改。在轉(zhuǎn)換過程中,調(diào)用transform() 方法進行數(shù)據(jù)集處理。在估計過程中,調(diào)用fit()方法生成一個轉(zhuǎn)換器(轉(zhuǎn)換器將成為pipeline Model或擬合pipeline的一部分),并且在數(shù)據(jù)集上調(diào)用轉(zhuǎn)換器的transform()方法。
上面給出的技術(shù)說明都是針對線性pipeline模型。一旦數(shù)據(jù)流圖形成有向無環(huán)圖(Directed Acyclic Graph,DAG),Spark也可能生產(chǎn)非線性pipeline模型。
更多關(guān)于Spark pipeline的信息,請訪問如下鏈接:http://spark.apache.org/docs/latest/ml-guide.html#pipeline。
總結(jié)
以上是生活随笔為你收集整理的Apache Spark机器学习.1.7 机器学习工作流示例的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《OpenGL ES 3.x游戏开发(下
- 下一篇: 《MINECRAFT我的世界 新手完全攻