(视频+图文)机器学习入门系列-第15章
機(jī)器學(xué)習(xí)入門系列,黃海廣老師主講。本站將持續(xù)更新,ppt、代碼、課后習(xí)題見文末。
本系列的目錄
01.引言
02.回歸
03.邏輯回歸
04.樸素貝葉斯
05.機(jī)器學(xué)習(xí)實(shí)踐
06.機(jī)器學(xué)習(xí)庫Scikit-learn
07.KNN算法
08.決策樹
09.集成學(xué)習(xí)
10.人工神經(jīng)網(wǎng)絡(luò)
11.支持向量機(jī)
12.聚類
13.降維
14.關(guān)聯(lián)規(guī)則
15.機(jī)器學(xué)習(xí)項(xiàng)目流程
本章目錄
15.1 機(jī)器學(xué)習(xí)項(xiàng)目流程概述
15.2?數(shù)據(jù)清洗
15.3 特征工程
15.4 數(shù)據(jù)建模
15.1 機(jī)器學(xué)習(xí)項(xiàng)目流程概述
視頻講解
圖文內(nèi)容
15.2 數(shù)據(jù)清洗
視頻講解
圖文內(nèi)容
15.3 特征工程
視頻講解
圖文內(nèi)容
15.4 回歸的評(píng)價(jià)指標(biāo)
視頻講解
項(xiàng)目講解
這是一個(gè)機(jī)器學(xué)習(xí)的完整流程,附代碼非常全,幾乎適合任何監(jiān)督學(xué)習(xí)的分類問題,本文提供代碼和數(shù)據(jù)下載。
作者:WillKoehrsen
翻譯:DeqianBai(https://github.com/DeqianBai)
這是2018年夏天,一位美國(guó)數(shù)據(jù)科學(xué)家在申請(qǐng)工作時(shí)的“作業(yè)”,完整的英文版作業(yè)在:
https://github.com/WillKoehrsen/machine-learning-project-walkthrough/blob/master/hw_assignment.pdf
項(xiàng)目目標(biāo):
使用提供的建筑能源數(shù)據(jù)開發(fā)一個(gè)模型,該模型可以預(yù)測(cè)建筑物的能源之星得分,
然后解釋結(jié)果以找到最能預(yù)測(cè)得分的變量。
項(xiàng)目介紹:
這是一個(gè)受監(jiān)督的回歸機(jī)器學(xué)習(xí)任務(wù):給定一組包含目標(biāo)(在本例中為分?jǐn)?shù))的數(shù)據(jù),我們希望訓(xùn)練一個(gè)可以學(xué)習(xí)將特征(也稱為解釋變量)映射到目標(biāo)的模型。
受監(jiān)督問題:我們可以知道數(shù)據(jù)的特征和目標(biāo),我們的目標(biāo)是訓(xùn)練可以學(xué)習(xí)兩者之間映射關(guān)系的模型。
回歸問題:Energy Star Score是一個(gè)連續(xù)變量。
在訓(xùn)練中,我們希望模型能夠?qū)W習(xí)特征和分?jǐn)?shù)之間的關(guān)系,因此我們給出了特征和答案。然后,為了測(cè)試模型的學(xué)習(xí)效果,我們?cè)谝粋€(gè)從未見過答案的測(cè)試集上進(jìn)行評(píng)估
我們?cè)?strong>拿到一個(gè)機(jī)器學(xué)習(xí)問題之后,要做的第一件事就是制作出我們的機(jī)器學(xué)習(xí)項(xiàng)目清單。下面給出了一個(gè)可供參考的機(jī)器學(xué)習(xí)項(xiàng)目清單,它應(yīng)該適用于大多數(shù)機(jī)器學(xué)習(xí)項(xiàng)目,雖然確切的實(shí)現(xiàn)細(xì)節(jié)可能有所不同,但機(jī)器學(xué)習(xí)項(xiàng)目的一般結(jié)構(gòu)保持相對(duì)穩(wěn)定:
數(shù)據(jù)清理和格式化
探索性數(shù)據(jù)分析
特征工程和特征選擇
基于性能指標(biāo)比較幾種機(jī)器學(xué)習(xí)模型
對(duì)最佳模型執(zhí)行超參數(shù)調(diào)整
在測(cè)試集上評(píng)估最佳模型
解釋模型結(jié)果
得出結(jié)論
提前設(shè)置機(jī)器學(xué)習(xí)管道結(jié)構(gòu)讓我們看到每一步是如何流入另一步的。但是,機(jī)器學(xué)習(xí)管道是一個(gè)迭代過程,因此我們并不總是以線性方式遵循這些步驟。我們可能會(huì)根據(jù)管道下游的結(jié)果重新審視上一步。例如,
雖然我們可以在構(gòu)建任何模型之前執(zhí)行特征選擇,但我們可以使用建模結(jié)果返回并選擇一組不同的特征。
或者,建模可能會(huì)出現(xiàn)意想不到的結(jié)果,這意味著我們希望從另一個(gè)角度探索我們的數(shù)據(jù)。
一般來說,你必須完成一步才能繼續(xù)下一步,但不要覺得一旦你第一次完成一步,你就不能回頭做出改進(jìn)!你可以在任何時(shí)候返回前面的步驟并作出相應(yīng)的修改。
代碼部分
代碼部分較長(zhǎng),僅貼代碼的目錄,完整代碼在文末提供下載。
1. 數(shù)據(jù)清理和格式化
1.1 加載并檢查數(shù)據(jù)
1.2 ?數(shù)據(jù)類型和缺失值
1.2.1 將數(shù)據(jù)轉(zhuǎn)換為正確的類型
1.3 處理缺失值
2. 探索性數(shù)據(jù)分析
2.1 單變量圖
2.2 去除異常值
2.3 尋找關(guān)系
2.4 特征與目標(biāo)之間的相關(guān)性
2.5 雙變量圖(Two-Variable Plots)
2.5.1 Pairs Plot
3. 特征工程和特征選擇
3.1 特征工程
3.2 特征選擇(去除共線特征)
3.3 劃分訓(xùn)練集和測(cè)試集
3.4 建立Baseline
小結(jié)
4. 基于性能指標(biāo)比較幾種機(jī)器學(xué)習(xí)模型
4.1 輸入缺失值
4.2 特征縮放
4.3 需要評(píng)估的模型
5. 對(duì)最佳模型執(zhí)行超參數(shù)調(diào)整
5.1 超參數(shù)
5.2 使用隨機(jī)搜索和交叉驗(yàn)證進(jìn)行超參數(shù)調(diào)整
6. 在測(cè)試集上評(píng)估最佳模型
7. 解釋模型結(jié)果
7.1 特征重要性
7.2 使用特征重要性進(jìn)行特征選擇
7.3 本地可解釋的與模型無關(guān)的解釋
7.4 檢查單個(gè)決策樹
8. 得出結(jié)論
8.1 得出結(jié)論
記錄發(fā)現(xiàn)
代碼截圖
相關(guān)資源
課程門檻較低,只要有本科三年級(jí)以上的數(shù)學(xué)知識(shí),會(huì)一種編程語言,就可以掌握這門課程的絕大部分內(nèi)容。
課程鏈接(中國(guó)大學(xué)慕課,有習(xí)題和證書):
https://www.icourse163.org/course/WZU-1464096179
課程資源(pdf版本課件和代碼)公布在Github:
https://github.com/fengdu78/WZU-machine-learning-course
課程視頻也可以在b站觀看(觀看方便,但無課后習(xí)題和證書):
https://www.bilibili.com/video/BV1gP4y177cf?share_source=copy_web
?如果是在校老師,請(qǐng)告知我們學(xué)校和姓名,我可以發(fā)原版ppt文件,請(qǐng)用edu郵箱聯(lián)系我:haiguang2000@wzu.edu.cn
?機(jī)器學(xué)習(xí)交流qq群955171419,加入微信群請(qǐng)掃碼:
總結(jié)
以上是生活随笔為你收集整理的(视频+图文)机器学习入门系列-第15章的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql too many conne
- 下一篇: vue学习:事件传递(冒泡和捕获),事件