顶尖机器学习学习路线,6个月让你的技术成为行业TOP5%
AI是一門入門簡(jiǎn)單,但想深入?yún)s很難的學(xué)科,這也是為什么AI高端人才一直非常緊缺的重要原因。在AI領(lǐng)域技術(shù)領(lǐng)域,我們可以說機(jī)器學(xué)習(xí)功底決定了一個(gè)人的上限也不為過。為什么?機(jī)器學(xué)習(xí)就像物理學(xué)中的數(shù)學(xué),如果你對(duì)數(shù)學(xué)沒有很好地掌握,想深入物理學(xué)科是不太可能的。放到AI領(lǐng)域,不管你做NLP方向也好,還是CV方向也好,只要深入下去,都會(huì)發(fā)現(xiàn)跟機(jī)器學(xué)習(xí)息息相關(guān)。
在工作中,你是否能夠利用1-3天的時(shí)間來(lái)復(fù)現(xiàn)任意頂會(huì)的文章?是否能夠按照實(shí)際的場(chǎng)景靈活提出新的模型,或者提出對(duì)現(xiàn)有模型的改造?實(shí)際上這些是核心競(jìng)爭(zhēng)力,同時(shí)是走向高端人才必須要經(jīng)歷的門檻。雖然很有挑戰(zhàn),但一旦過了這個(gè)門檻你就會(huì)發(fā)現(xiàn)你是市場(chǎng)中的TOP5%.
所以我們?cè)O(shè)計(jì)了這樣的一門課程,目的就是一個(gè):讓你有機(jī)會(huì)成為市場(chǎng)中的TOP5%。我們希望通過這樣的一門課程來(lái)增強(qiáng)對(duì)機(jī)器學(xué)習(xí)的深入理解,掌握背后的每個(gè)細(xì)節(jié),這一點(diǎn)很重要。這門課程主要包含了凸優(yōu)化、圖神經(jīng)網(wǎng)絡(luò)、深度貝葉斯以及強(qiáng)化學(xué)習(xí),也是機(jī)器學(xué)習(xí)領(lǐng)域比較主流的四大領(lǐng)域。每個(gè)領(lǐng)域都有一定的門檻,但真正經(jīng)歷過之后大概率會(huì)驚訝地發(fā)現(xiàn)自己成長(zhǎng)了不少。?
下面對(duì)每個(gè)部分的內(nèi)容詳細(xì)做了介紹,感興趣的朋友們可以來(lái)咨詢更多。?
1. 凸優(yōu)化部分
凸優(yōu)化在人工智能領(lǐng)域有著舉足輕重的地位,對(duì)于模型的訓(xùn)練實(shí)際上等同于對(duì)模型的優(yōu)化。我們平時(shí)使用的sgd, adam, adagrad, l-bfgs這類算法均屬于優(yōu)化范疇。在AI的應(yīng)用中,當(dāng)我們構(gòu)造了目標(biāo)函數(shù)之后,接下來(lái)的工作就是優(yōu)化部分。那為什么凸優(yōu)化這么重要呢?設(shè)想一下,如果你想設(shè)計(jì)一個(gè)新的模型,或者在原有的模型基礎(chǔ)做一些創(chuàng)新,那對(duì)于新構(gòu)造的目標(biāo)函數(shù),你需要懂得如何去優(yōu)化,以及用什么樣的優(yōu)化算法才能解出更好的局部最優(yōu)解。所以,對(duì)于想進(jìn)階的AI工程師來(lái)說,凸優(yōu)化是必備課,必須要掌握的內(nèi)容。
課程大綱
第一周:凸優(yōu)化基礎(chǔ)
學(xué)習(xí)目標(biāo):了解凸優(yōu)化技術(shù)以及應(yīng)用場(chǎng)景,理解凸優(yōu)化技術(shù)的類別、技術(shù)范疇、以及能把凸優(yōu)化技術(shù)跟生活和工作中的問題聯(lián)系在一起。同時(shí),深入理解線性規(guī)劃技術(shù),以及它在不同場(chǎng)景中的應(yīng)用,并能夠?qū)崿F(xiàn)。
學(xué)習(xí)安排:
- 從優(yōu)化角度理解機(jī)器學(xué)習(xí)
- 凸優(yōu)化的重要性
- 常見的凸優(yōu)化問題
- 線性規(guī)劃以及Simplex Method
- Stochastic LP
- P,NP,NPC問題
- 案例分析:運(yùn)輸中的優(yōu)化問題
- 案例分析:打車中的優(yōu)化問題
- 案例分析:投放運(yùn)營(yíng)中的優(yōu)化問題
第二周:凸優(yōu)化基礎(chǔ)
學(xué)習(xí)目標(biāo):學(xué)習(xí)如何識(shí)別凸函數(shù)和如果判定凸函數(shù),這里會(huì)涉及到三種不同的方法以及多個(gè)案例講解。同時(shí),本周能學(xué)到二次規(guī)劃相關(guān)的知識(shí),以及能夠用二次規(guī)劃去模擬的實(shí)際問題以及求解方式。?
學(xué)習(xí)安排:
- 如何判斷一個(gè)集合是凸集
- 各類凸集以及證明
- 方法1:Prove by Definition
-?方法2:First-order Convexity
- 方法3:Second-order Convexity
- 二次規(guī)劃問題以及凸函數(shù)證明
-?最小二乘問題詳解
- 案例分析:WDM距離計(jì)算
-?案例分析:股票投資組合優(yōu)化問題
第三周:常見的凸優(yōu)化問題
學(xué)習(xí)目標(biāo):學(xué)習(xí)如何識(shí)別凸函數(shù)和如果判定凸函數(shù),這里會(huì)涉及到三種不同的方法以及多個(gè)案例講解。同時(shí),本周能學(xué)到二次規(guī)劃相關(guān)的知識(shí),以及能夠用二次規(guī)劃去模擬的實(shí)際問題以及求解方式。?
學(xué)習(xí)安排:
- 常見的凸優(yōu)化問題類別
- 半正定規(guī)劃問題(SDP)
- 幾何規(guī)劃問題(GP)
-?非凸函數(shù)的優(yōu)化方法
- 非凸函數(shù)的松弛華
- 整數(shù)規(guī)劃以及松弛華
-?案例分析:Set Cover問題
-?案例分析:Vertex Cover問題
-?案例分析:0-1 Knapsack問題
-?案例分析:Cutting-stock問題
-?案例分析:Max-cut問題
第四周:優(yōu)化與量化投資
學(xué)習(xí)目標(biāo):作為一個(gè)案例章節(jié),主要學(xué)習(xí)優(yōu)化在量化投資中的應(yīng)用,同時(shí)也學(xué)習(xí)常見的量化投資策略。這一章的學(xué)習(xí)一方面可以帶來(lái)對(duì)新的領(lǐng)域的學(xué)習(xí),同時(shí)也給其他領(lǐng)域的問題提供思路。??
學(xué)習(xí)安排:
- 量化投資介紹
- 如何閱讀K線圖
- 基于規(guī)則的量化策略
- 基于機(jī)器學(xué)習(xí)模型的量化策略
- 基于LP、QP優(yōu)化的量化策略
- Efficient Frontier, Sharp Ratio
- 量化平臺(tái)介紹
第五周:對(duì)偶(Duality)
學(xué)習(xí)目標(biāo):掌握對(duì)偶相關(guān)的知識(shí),對(duì)偶可以算是優(yōu)化領(lǐng)域最為經(jīng)典的一套方法論。學(xué)完本部分之后,可以對(duì)已有的模型做改進(jìn),同時(shí)能夠靈活做對(duì)偶轉(zhuǎn)換。深入理解對(duì)偶領(lǐng)域中的Lower Bound Property,KKT條件,Weak Duality等基本理論。一句話,Duality是優(yōu)化的精華!?
學(xué)習(xí)安排:
- 拉格朗日對(duì)偶函數(shù)
- 對(duì)偶的幾何意義
- Lower Bound Property
- Weak and Strong Duality
- KKT條件
- LP、QP、SDP的對(duì)偶轉(zhuǎn)換
- 對(duì)偶的一些應(yīng)用場(chǎng)景
- 經(jīng)典機(jī)器學(xué)習(xí)模型的對(duì)偶轉(zhuǎn)換
- 案例分析:SVM的完整對(duì)偶轉(zhuǎn)換
- 案例分析:不同損失函數(shù)的分析
第六周:對(duì)偶(Duality)
學(xué)習(xí)目標(biāo):掌握對(duì)偶相關(guān)的知識(shí),對(duì)偶可以算是優(yōu)化領(lǐng)域最為經(jīng)典的一套方法論。學(xué)完本部分之后,可以對(duì)已有的模型做改進(jìn),同時(shí)能夠靈活做對(duì)偶轉(zhuǎn)換。深入理解對(duì)偶領(lǐng)域中的Lower Bound Property,KKT條件,Weak Duality等基本理論。一句話,Duality是優(yōu)化的精華!?
學(xué)習(xí)安排:
- Gradient Descent
- GD的收斂分析
- Subgradient Method
- Proximal Gradient Descent
- Projected Gradient Descent
- Stochastic Gradient Descent
- Newton's Method
- Quasi-Newton Method
- L-BFGS
- 案例分析:ADMM的分析
- 案例分析:Adadelta, Adam的比較
第七周:優(yōu)化技術(shù)進(jìn)階
學(xué)習(xí)目標(biāo):掌握其他主流的優(yōu)化技術(shù),這些都屬于比較進(jìn)階的內(nèi)容,需要前面內(nèi)容的基礎(chǔ)。主要掌握Interior Point Method,ADMM等模型。
學(xué)習(xí)安排:
- Mirror Ascent
- 分布式梯度下降法
- Interior Point Method
- ADMM方法
- Sparsity與優(yōu)化關(guān)系
- Combinatorial優(yōu)化
作業(yè)項(xiàng)目:優(yōu)化與量化投資
項(xiàng)目描述:量化投資作為金融領(lǐng)域一大分支,今年來(lái)受到了很大的關(guān)注。在這個(gè)項(xiàng)目中,我們將使用在課程中已學(xué)過的優(yōu)化技術(shù)來(lái)搭建買賣策 略,并在平臺(tái)上做回測(cè),最終得到策略的效果。這個(gè)項(xiàng)目的主要目的有以下幾種:
1. 了解并掌握量化投資領(lǐng)域,雖然跟很多人的工作關(guān)系不大,但畢竟是一個(gè)新興領(lǐng)域,而且跟 AI 技術(shù)的結(jié)合比較緊密,強(qiáng)烈建議借此機(jī)會(huì)學(xué)習(xí)。
2. 掌握并實(shí)戰(zhàn)優(yōu)化技術(shù),通過編寫真正的策略會(huì)真正明白優(yōu)化技術(shù)如何應(yīng)用在工業(yè)界環(huán)境中。
3. 基于給定的優(yōu)化方法,自己試著去改進(jìn)并創(chuàng)造新的優(yōu)化方法,讓回測(cè)效果更好。
涉及到的技術(shù):量化投資、凸優(yōu)化
感興趣的請(qǐng)?zhí)砑幼稍冾檰?/strong>
2. 圖神經(jīng)網(wǎng)絡(luò):
圖神經(jīng)網(wǎng)絡(luò)是指神經(jīng)網(wǎng)絡(luò)在圖上應(yīng)用的模型的統(tǒng)稱,根據(jù)采用的技術(shù)不同和分類方法的不同,又可以分為下圖中的不同種類,例如從傳播的方式來(lái)看,圖神經(jīng)網(wǎng)絡(luò)可以分為圖卷積神經(jīng)網(wǎng)絡(luò)(GCN),圖注意力網(wǎng)絡(luò)(GAT,縮寫為了跟GAN區(qū)分),Graph LSTM等等,本質(zhì)上還是把文本圖像的那一套網(wǎng)絡(luò)結(jié)構(gòu)技巧借鑒過來(lái)做了新的嘗試。在本次課上,我們著重學(xué)習(xí)關(guān)于圖卷積技術(shù)以及其相關(guān)知識(shí),例如:圖論基礎(chǔ),GCN的卷積由來(lái)和詳解,GAT等相關(guān)邊嵌入模型,以及GCN在各個(gè)方向的應(yīng)用。
課程大綱
第一周:GNN相關(guān)數(shù)學(xué)基礎(chǔ)(1)
學(xué)習(xí)目標(biāo):掌握?qǐng)D神經(jīng)網(wǎng)絡(luò)中涉及到的基礎(chǔ)理論,包括不同空間的描述,傅里葉變化以及CNN相關(guān)的技術(shù)。
學(xué)習(xí)安排:
-?空間向量和圖論
- Inner Product, Hilbert Space
- 傅里葉變化
- Eigenfunction, Eigenvalue
- CNN的卷積和池化
- 介紹CNN的卷積層
- 如何卷積、信息如何傳遞
- 池化層的作用和基本設(shè)計(jì)
- 案例分析:各類矩陣分解方法比較
第二周:GNN相關(guān)數(shù)學(xué)基礎(chǔ)(2)
學(xué)習(xí)目標(biāo):掌握?qǐng)D神經(jīng)網(wǎng)絡(luò)中涉及到的基礎(chǔ)理論,包括不同空間的描述,傅里葉變化以及CNN相關(guān)的技術(shù)。?
學(xué)習(xí)安排:
- Subgraph
- Network Motif
- Network Community Detection
- 拉普拉斯算法
- 拉普拉斯矩陣
- SVD,QR分解
- 基于向量機(jī)分解
- Block分解
- 拉普拉斯算子和矩陣的數(shù)學(xué)意義
第三周:圖卷積詳解
學(xué)習(xí)目標(biāo):掌握?qǐng)D卷積相關(guān)的基本知識(shí),這是理解圖神經(jīng)網(wǎng)絡(luò)的根本。在本部分,系統(tǒng)性掌握我們目前常使用的GCN模型是如何得出來(lái)的,而不是停留在僅僅使用的層面,這里包括ChebNet等我們需要理解的內(nèi)容。?
學(xué)習(xí)安排:
- 圖卷積的幾何意義
- Graph?Filter
- Graph Convolution
- ChebNet
- GCN詳解
- Graph Pooling
- MCMC介紹
- Importance Sampling
- Rejection Sampling?
- 案例分析:基于GCN的推薦
- 案例分析:CNN的權(quán)重剪枝
第四周:邊嵌入的圖卷積
學(xué)習(xí)目標(biāo):掌握Spatial類型圖神經(jīng)網(wǎng)絡(luò),本質(zhì)上跟GCN的構(gòu)造方式是不一樣的,但變得越來(lái)越流行。本節(jié)重點(diǎn)掌握GAT以及Attention如何用在圖神經(jīng)網(wǎng)絡(luò)之中。??
學(xué)習(xí)安排:
- Spatial Convolution
- Mixture Model Network
- Attention機(jī)制
- Graph Attention Networks(GAT)
- Edge Convolution
-?EGCN, Monet
- 近似優(yōu)化問題
- 減少計(jì)算量的介紹
- 案例分析:Attention機(jī)制剖析
第五周:圖神經(jīng)網(wǎng)絡(luò)改進(jìn)與應(yīng)用
學(xué)習(xí)目標(biāo):掌握改進(jìn)圖神經(jīng)網(wǎng)絡(luò),以及它背后的思路。這種能力可以帶給你,今后在工作中遇到類似的問題,你也有能力做一些模型上的改進(jìn)!
學(xué)習(xí)安排:
- NRI
-?Relative Position與圖神經(jīng)網(wǎng)絡(luò)拓展
- Relative GCN
-?融入Edge特征
- Knowledge GCN
- ST-GCN
- Graphsage的設(shè)計(jì)
- Graphsage的應(yīng)用
- 案例分析:基于圖的文本分類案例
- 案例分析:基于圖的閱讀理解
第六周:其他的常見圖模型
學(xué)習(xí)目標(biāo):除了GCN,GAT等主流圖神經(jīng)網(wǎng)絡(luò)模型之外,還有一些非常流行的圖模型。本節(jié)主要幫助學(xué)員掌握此類模型,包括Deepwalk, Node2Vec等非常有價(jià)值的模型。
學(xué)習(xí)安排:
- GNN的其他變種
- Deep Walk模型
- Node2Vec模型
- Struc2Vec模型
- HyperGCN模型
- HGCN的設(shè)計(jì)和應(yīng)用
作業(yè)項(xiàng)目:基于GCN的鏈路預(yù)測(cè)
項(xiàng)目描述:鏈路預(yù)測(cè)(Link Prediction)是通過已知的網(wǎng)絡(luò)節(jié)點(diǎn)以及網(wǎng)絡(luò)結(jié)構(gòu)等信息預(yù)測(cè)網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個(gè)節(jié)點(diǎn)之間產(chǎn)生鏈接的可能性。近幾年在線社交網(wǎng)絡(luò)發(fā)展非常迅速,鏈路預(yù)測(cè)可以基于當(dāng)前的網(wǎng)絡(luò)結(jié)構(gòu)去預(yù)測(cè)哪些尚未結(jié)交的用戶“應(yīng)該是朋友”,并將此結(jié)果作為“朋友推薦”發(fā)送給用戶:如果預(yù)測(cè)足夠準(zhǔn)確,顯然有助于提高相關(guān)網(wǎng)站在用戶心目中的地位,從而提高用戶對(duì)該網(wǎng)站的忠誠(chéng)度。另外,鏈路預(yù)測(cè)的思想和方法,還可以用于在已知部分節(jié)點(diǎn)類型的網(wǎng)絡(luò)中預(yù)測(cè)未標(biāo)簽節(jié)點(diǎn)的類型——這可以用于判斷一篇學(xué)術(shù)論文的類型或者判斷一個(gè)手機(jī)用戶是否產(chǎn)生了切換運(yùn)營(yíng)商(例如從移動(dòng)到聯(lián)通)的念頭。
涉及到的技術(shù):GCN,GAT,KGCN,相似度計(jì)算,圖論
感興趣的請(qǐng)?zhí)砑幼稍冾檰?/strong>
3. 貝葉斯深度學(xué)習(xí)
貝葉斯深度學(xué)習(xí)是一項(xiàng)迅速崛起的技術(shù),融合了深度學(xué)習(xí)和貝葉斯核心技術(shù),使得模型本身可以更好地捕獲數(shù)據(jù)中的不確定性,同時(shí)也能預(yù)測(cè)出結(jié)果的不確定性,同時(shí)貝葉斯模型也比較適合小數(shù)據(jù)量的場(chǎng)景。通過本次課程的學(xué)習(xí),學(xué)員能夠系統(tǒng)性掌握貝葉斯核心技術(shù),包括MCMC,變分法,VAE, 貝葉斯優(yōu)化,主題模型,對(duì)抗學(xué)習(xí),以及如何應(yīng)用在不同的場(chǎng)景中,既有助于應(yīng)用層面上的提升,也有助于科研。
課程大綱
第一周:貝葉斯機(jī)器學(xué)習(xí)介紹
學(xué)習(xí)目標(biāo):掌握貝葉斯基本理論、掌握最大似然與貝葉斯估計(jì)之間的區(qū)別,以及跟集成模型之間的關(guān)系。了解貝葉斯學(xué)習(xí)中的兩種近似算法,MCMC與VI以及區(qū)別。同時(shí),掌握如何解決具體的貝葉斯學(xué)習(xí)問題。?
學(xué)習(xí)安排:
-?貝葉斯定理
- MLE、MAP以及貝葉斯估計(jì)
- 集成模型與貝葉斯方法比較
- 貝葉斯推理中的困難
- 貝葉斯近似算法介紹
- 案例分析:基于貝葉斯的股價(jià)預(yù)測(cè)
- 案例分析:貝葉斯線性回歸
-?案例分析:Probabilistic Programming
- 案例分析:Edwin的使用以及實(shí)戰(zhàn)
第二周:貝葉斯樸素貝葉斯與主題模型
學(xué)習(xí)目標(biāo):系統(tǒng)性掌握主題模型的細(xì)節(jié),包括它的背景、生成過程以及推理。通過此學(xué)習(xí),同時(shí)也可以掌握跟貝葉斯樸素貝葉斯之間的聯(lián)系,以及在生成邏輯中的差異。??
學(xué)習(xí)安排:
-?樸素貝葉斯模型回顧
- 貝葉斯樸素貝葉斯的生成過程
- 概率圖的表示
- 主題模型的應(yīng)用
- 主題模型的生成過程
- 主題模型的應(yīng)用場(chǎng)景
-?案例分析:LDA的代碼剖析
-?案例分析:基于LDA的文本分析
-?案例分析:Bayesian-LSTM的文本分析
第三周:MCMC采樣技術(shù)
學(xué)習(xí)目標(biāo):掌握各類采樣技術(shù),特別是吉布斯采樣,也是MCMC中最為重要的一項(xiàng)技術(shù)。另外,完完整整地掌握LDA的所有詳細(xì)的推導(dǎo)細(xì)節(jié)。?
學(xué)習(xí)安排:
-?MCMC采樣技術(shù)介紹
- 狄利克雷分布
- 吉布斯采樣
- 貝葉斯樸素貝葉斯求解
- LDA與吉布斯采樣
- 各類采樣技術(shù)介紹
-? Importance Sampling?
-? Rejection Sampling?
-??案例分析:不同采樣技術(shù)實(shí)現(xiàn)與比較
第四周:變分法技術(shù)
學(xué)習(xí)目標(biāo):掌握近似算法中另外一個(gè)最核心的技術(shù)-變分法。掌握如何設(shè)計(jì)變分參數(shù)、如何優(yōu)化變分的目標(biāo)函數(shù)以及最后的模型的預(yù)測(cè)。這里涉及到KL散度、ELBo、和優(yōu)化等內(nèi)容。?
學(xué)習(xí)安排:
- KL散度
- ELBo的構(gòu)造
-?變分法的目標(biāo)函數(shù)
- 坐標(biāo)下降法
- 求解LDA的參數(shù)
- 變分參數(shù)的設(shè)計(jì)
-?SVI的介紹
-?基于SVI求解LDA
- 案例分析:在推薦領(lǐng)域中的應(yīng)用
-?案例分析:如何設(shè)置合適的prior
第五周:貝葉斯深度學(xué)習(xí)
學(xué)習(xí)目標(biāo):掌握如何通過貝葉斯深度學(xué)習(xí)模型去量化模型和數(shù)據(jù)中的不確定性,主要學(xué)習(xí)MC Dropout等技術(shù)。同時(shí)掌握深度生成模型技術(shù)以及它們的應(yīng)用。?
學(xué)習(xí)安排:
- 貝葉斯深度學(xué)習(xí)的應(yīng)用
- 貝葉斯與VAE
-?Reparameterization Trick
-?深度生成模型
-?貝葉斯模型與不確定性分析
-?MC Dropout
-?案例分析:基于VAE的文本生成
第六周:貝葉斯深度學(xué)習(xí)與自然語(yǔ)言處理
學(xué)習(xí)目標(biāo):掌握貝葉斯深度學(xué)習(xí)在自然語(yǔ)言處理任務(wù)中的應(yīng)用,包括命名實(shí)體識(shí)別、文本分析等任務(wù)。?同時(shí),掌握Adversial Attack相關(guān)的技術(shù),以及它跟貝葉斯方法論之間的關(guān)系。?
學(xué)習(xí)安排:
- 貝葉斯序列模型
-?詞性標(biāo)注與實(shí)體識(shí)別
-?Adversial Learning
-?Adversial Attack
-?基于GNN的Adversial Learning
- 案例分析:基于貝葉斯網(wǎng)絡(luò)的命名實(shí)體識(shí)別
-?案例分析:基于貝葉斯深度學(xué)習(xí)的文本分析
作業(yè)項(xiàng)目:基于修改版LDA的情感分析
項(xiàng)目描述:本項(xiàng)目的目的是如何基于LDA來(lái)自動(dòng)抽取文本中的情感,這個(gè)項(xiàng)目涉及到對(duì)于LDA模型的改造以及對(duì)于新模型的推導(dǎo),具有一定的挑戰(zhàn)。在本項(xiàng)目中,我們會(huì)一步步引導(dǎo)學(xué)員去設(shè)計(jì)模型,并對(duì)模型做出吉布斯采樣的全部推導(dǎo)過程以及實(shí)現(xiàn)環(huán)節(jié)。通過此項(xiàng)目,學(xué)員會(huì)親身體會(huì)整個(gè)貝葉斯模型的設(shè)計(jì)和訓(xùn)練過程。
涉及到的技術(shù):主題模型,吉布斯采樣,Collapsed吉布斯采樣,無(wú)監(jiān)督情感分析
感興趣的請(qǐng)?zhí)砑幼稍冾檰?/strong>
4. 深度強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,相較于機(jī)器學(xué)習(xí)經(jīng)典的有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)問題,強(qiáng)化學(xué)習(xí)最大的特點(diǎn)是在交互中學(xué)習(xí)(Learning from Interaction)。Agent在與環(huán)境的交互中根據(jù)獲得的獎(jiǎng)勵(lì)或懲罰不斷的學(xué)習(xí)知識(shí),更加適應(yīng)環(huán)境。RL學(xué)習(xí)的范式非常類似于我們?nèi)祟悓W(xué)習(xí)知識(shí)的過程,也正因此,RL被視為實(shí)現(xiàn)通用AI重要途徑。<br>通過融合深度學(xué)習(xí),深度強(qiáng)化學(xué)習(xí)迅速在圍棋,游戲等場(chǎng)景取得了超越人類的表現(xiàn)。通過本次課程,學(xué)員能夠系統(tǒng)的掌握深度學(xué)習(xí)框架及核心技術(shù),包括 Markov Desision Process, Monte Carlo Control, SARSA, Q learning, Value Approximation, Deep reinforcement Learning ,及強(qiáng)化學(xué)習(xí)在游戲,自然語(yǔ)言中, 推薦的應(yīng)用過程,即有助于應(yīng)用層面上的提升,也給科研提供新的思路與方向。
課程大綱
第一周:強(qiáng)化學(xué)習(xí)基礎(chǔ)(1)
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)最基本的知識(shí),包括MDP, Bellman Equation以及動(dòng)態(tài)規(guī)劃,這些對(duì)后續(xù)的學(xué)習(xí)是必須的。?
學(xué)習(xí)安排:
-?Markov Decision Process(MDP)
-?Bellman Equation
- Dynamic Programming
- Model-free Prediction
-?Monte Carlo Leanring
- TD Learning?
第二周:強(qiáng)化學(xué)習(xí)基礎(chǔ)(2)
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)最基本的知識(shí),包括Model free policy,Monte Carlo Control, Q-Learning等。?
學(xué)習(xí)安排:
-?Model-free control
-?On-policy Monte Carlo Control
- On-policy TD learning
- SARSA, SARSA Lambda
- Off-policy
- Importance Sampling
- Q-learning
- 案例分析:Atari的實(shí)現(xiàn)以及講解
第三周:強(qiáng)化學(xué)習(xí)基礎(chǔ)
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)核心方法論,能把相應(yīng)的技術(shù)應(yīng)用在自己的問題當(dāng)中。主要的技術(shù)涉及深度強(qiáng)化學(xué)習(xí)。?
學(xué)習(xí)安排:
- Policy Gradient
- Deep?reinforcement learning
- Actor?critic
- Advanced?reinforcement learing
-?案例分析:RL在文本生成中的應(yīng)用
第四周:探索、實(shí)施、推薦系統(tǒng)
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)在online learning的應(yīng)用,包括各類multi-armed bandit算法,以及在推薦中的應(yīng)用。?
學(xué)習(xí)安排:
- Multi-armed Bandits
- Explore and Exploit
-?Thompson Sampling
- Epsilon Greedy
-?Upper Confidence Bound
- Epsilon Greedy
-?UCB
- 案例分析:強(qiáng)化學(xué)習(xí)與推薦系統(tǒng)
第五周:多智能體的強(qiáng)化學(xué)習(xí)與稀疏Reward的設(shè)計(jì)
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)中的多智能體學(xué)習(xí)和各種Reward設(shè)計(jì)方法,能夠靈活在自身的問題中應(yīng)用起來(lái)。?
學(xué)習(xí)安排:
- Multi agent Reinforcement Learning
- Sparse Reward Design
- Inverse RL
- AlphaGo詳解
第六周:強(qiáng)化學(xué)習(xí)在NLP、量化和游戲中的應(yīng)用
學(xué)習(xí)目標(biāo):掌握強(qiáng)化學(xué)習(xí)在主流場(chǎng)景中的應(yīng)用,包括自然語(yǔ)言處理、量化投資以及游戲。?
學(xué)習(xí)安排:
- 案例分析:強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景
- 案例分析:強(qiáng)化學(xué)習(xí)在NLP中的應(yīng)用
- 案例分析:強(qiáng)化學(xué)習(xí)在量化投資中的應(yīng)用
- 案例分析:強(qiáng)化學(xué)習(xí)在游戲中的應(yīng)用
- SeqGan講解
作業(yè)項(xiàng)目:利用強(qiáng)化學(xué)習(xí)搭建游戲智能體
項(xiàng)目描述:本項(xiàng)目 (coursework) 旨在實(shí)踐并設(shè)計(jì)強(qiáng)化學(xué)習(xí)算法來(lái)探索,解決解決強(qiáng)化學(xué)習(xí)問題。其中包括模擬HFO ( Half Field Offence)及 Flappy Bird。通過此項(xiàng)目,期望同學(xué)們能充分理解,并可掌握,應(yīng)用 (但不限于) :狀態(tài)State, 動(dòng)作Action, MDP( 馬爾可夫決策過程)。State value function ,State Action value function 如何進(jìn)行估計(jì),迭代及預(yù)測(cè)。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)化學(xué)習(xí)對(duì)Value Approximation進(jìn)行評(píng)估, 并進(jìn)行Policy優(yōu)化。Exploration 和 Exploitation 的平衡優(yōu)化也將會(huì)在本項(xiàng)目的最后進(jìn)行探索。。
涉及到的技術(shù):MDP建模,Q Learning,Monte Carlo control,Value Iteration, Deep Q Learning
感興趣的請(qǐng)?zhí)砑幼稍冾檰?/strong>
關(guān)于我們-一切從信任開始
我們專注人工智能人才培養(yǎng)4年,在AI領(lǐng)域,國(guó)內(nèi)屬于最頭部的人才培養(yǎng)黃埔院校。在AI人才培養(yǎng)上,已跟京東、騰訊等大廠一直建立者良好的戰(zhàn)略合作關(guān)系,學(xué)員也來(lái)自斯坦福、伯克利、清華、北大等世界級(jí)名校。
職場(chǎng)成功案例
姓名:李**
學(xué)校專業(yè):燕山大學(xué) 控制工程專業(yè) 2019級(jí)碩士畢業(yè)生
原工作單位:軟通動(dòng)力 算法工程師 年薪20萬(wàn)
跳槽方向:算法工程師
匹配方案:技術(shù)研修+背景提升+求職面試一籃子服務(wù)
最終跳槽公司:榮耀 年薪45萬(wàn)
履約服務(wù)時(shí)長(zhǎng):7個(gè)月
姓名:Jerry Zhao
學(xué)校專業(yè):澳大利亞國(guó)立大學(xué) 計(jì)算機(jī)專業(yè) 2018級(jí)本科畢業(yè)生
原工作單位:魯班軟件 初級(jí)算法工程師 年薪18萬(wàn)
跳槽方向:ML算法工程師
匹配方案:技術(shù)研修+案例項(xiàng)目學(xué)習(xí)+求職面試一籃子服務(wù)
最終跳槽公司:網(wǎng)易 年薪40萬(wàn)
履約服務(wù)時(shí)長(zhǎng):4個(gè)月
姓名:錢**
學(xué)校專業(yè):中國(guó)農(nóng)業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù) 2018級(jí)本科畢業(yè)生
原工作單位:聚美國(guó)際 算法工程師 年薪22萬(wàn)
跳槽方向:算法工程師?
匹配方案:技術(shù)研修+導(dǎo)師咨詢+求職面試一籃子服務(wù)
最終跳槽公司:亞馬遜電商 年薪47萬(wàn)
履約服務(wù)時(shí)長(zhǎng):11個(gè)月
姓名:蔡*
學(xué)校專業(yè):中科院自動(dòng)化所 智能控制與計(jì)算智能 2020級(jí)博士畢業(yè)生
原工作單位:中國(guó)科學(xué)院自動(dòng)化研究所-智能系統(tǒng)與工程研究中心-實(shí)習(xí) 年薪5萬(wàn)
跳槽方向:ML算法工程師
匹配方案:背景提升+大廠技術(shù)大牛求職方向規(guī)劃+求職面試一籃子服務(wù)
最終跳槽公司:比亞迪 年薪38萬(wàn)
履約服務(wù)時(shí)長(zhǎng):2個(gè)月
歷屆學(xué)員去向
大廠前輩導(dǎo)師
李文哲
貪心科技CEO
美國(guó)南加州大學(xué)博士
曾任獨(dú)角獸金科集團(tuán)首席數(shù)據(jù)科學(xué)家、美國(guó)亞馬遜和高盛的高級(jí)工程師
金融行業(yè)開創(chuàng)知識(shí)圖譜做大數(shù)據(jù)反欺詐的第一人
先后在AAAI、KDD、AISTATS、CHI等國(guó)際會(huì)議上發(fā)表過15篇以上論文
楊老師
推薦系統(tǒng),計(jì)算機(jī)視覺領(lǐng)域?qū)<?/p>
香港城市大學(xué)博士,加州大學(xué)美熹德分校博士后
主要從事機(jī)器學(xué)習(xí),圖卷積,圖嵌入的研究
先后在ECCV, Trans on Cybernetics, Trans on NSE, INDIN等國(guó)際頂會(huì)及期刊上發(fā)表過數(shù)篇論文
王老師
畢業(yè)于QS排名TOP20名校
先后任職于亞馬遜,華為,平安科技等AI研發(fā)部門
主要從事機(jī)器閱讀理解,信息檢索,文本生成等方向的研究
先后在AAAI, ICLR等發(fā)表數(shù)篇論文,擁有多項(xiàng)國(guó)家發(fā)明專利
感興趣的請(qǐng)?zhí)砑幼稍冾檰?/strong>
總結(jié)
以上是生活随笔為你收集整理的顶尖机器学习学习路线,6个月让你的技术成为行业TOP5%的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: shell su 密码_[SU模型]
- 下一篇: dhcp工具_网络分析之DHCP服务闯入