【AI不惑境】数据压榨有多狠,人工智能就有多成功
大家好,今天開(kāi)始就進(jìn)入了專(zhuān)欄《AI不惑境》的更新了,這是第一篇文章,講述數(shù)據(jù)如何驅(qū)動(dòng)深度學(xué)習(xí)。
進(jìn)入到不惑境界,就是向高手邁進(jìn)的開(kāi)始了,在這個(gè)境界需要自己獨(dú)立思考。如果說(shuō)學(xué)習(xí)是一個(gè)從模仿,到追隨,到創(chuàng)造的過(guò)程,那么到這個(gè)階段,應(yīng)該躍過(guò)了模仿和追隨的階段,進(jìn)入了創(chuàng)造的階段。從這個(gè)境界開(kāi)始,講述的問(wèn)題可能不再有答案,更多的是激發(fā)大家一起來(lái)思考。
作者&編輯 | 全能言有三
深度學(xué)習(xí)成功源于三駕馬車(chē),模型,數(shù)據(jù)和硬件,這背后最核心的還是數(shù)據(jù),深度學(xué)習(xí)正是因?yàn)閷W(xué)會(huì)了從數(shù)據(jù)中抽象知識(shí),才能夠完成各種各樣的任務(wù)。
人工智能的發(fā)展,伴隨著對(duì)數(shù)據(jù)的使用方法的進(jìn)化,今天就來(lái)聊聊。
?
1 數(shù)據(jù)與學(xué)習(xí)
我一直對(duì)學(xué)生說(shuō),如果你不能認(rèn)識(shí)到數(shù)據(jù)對(duì)一個(gè)任務(wù)的重要性,不知道什么樣的數(shù)據(jù)能夠完成手中的任務(wù),就不算真正的入門(mén)深度學(xué)習(xí)。
在此之前,你可以去沉迷于各種框架,技巧,項(xiàng)目。
我們回想一下,大部分人的成長(zhǎng)是什么樣的過(guò)程。
(1) 一個(gè)剛剛出生的小孩,對(duì)這個(gè)世界的一切都表現(xiàn)出了無(wú)差別的興趣,接受各種信息就是成長(zhǎng)。
(2) 在青少年時(shí)期,我們?cè)诩议L(zhǎng)和老師的帶領(lǐng)下,從背課文寫(xiě)作業(yè)開(kāi)始學(xué)習(xí),大部分錯(cuò)誤的行為會(huì)得到糾錯(cuò),正確的行為會(huì)得到獎(jiǎng)勵(lì)。
(3) 隨著成長(zhǎng),有的人在自己工作的領(lǐng)域里熟練玩轉(zhuǎn)數(shù)據(jù)和模型,充分發(fā)掘和運(yùn)用已有的知識(shí),另一部分人所做的事情不再有答案,需要自己去探索新的規(guī)律,比如成立自己的公司,創(chuàng)作新的知識(shí)。
這幾個(gè)階段,背后的核心都是數(shù)據(jù)。
(1) 沒(méi)有知識(shí)的時(shí)候,所有已有的數(shù)據(jù)都是知識(shí)。
(2) 學(xué)習(xí)知識(shí)的時(shí)候,需要針對(duì)自己要學(xué)習(xí)的領(lǐng)域進(jìn)行已有數(shù)據(jù)庫(kù)的選擇,想學(xué)語(yǔ)言就要背單詞庫(kù),學(xué)數(shù)學(xué)就要做題庫(kù),學(xué)音樂(lè)就要練樂(lè)譜,這時(shí)候用已有的數(shù)據(jù)進(jìn)行學(xué)習(xí)。
(3) 使用知識(shí)的時(shí)候,就要調(diào)整自己學(xué)習(xí)到的知識(shí)用于新輸入的數(shù)據(jù),在這個(gè)過(guò)程中,知識(shí)也隨之更新。
(4) 創(chuàng)造知識(shí)的時(shí)候,就要觀察社會(huì)和科學(xué)規(guī)律,從中進(jìn)行總結(jié),面對(duì)的就是沒(méi)有人整理過(guò)的數(shù)據(jù)。
可以毫不夸張的說(shuō),人一生大部分時(shí)間都用著統(tǒng)計(jì)學(xué)獲取,整理和分析數(shù)據(jù),知識(shí)從數(shù)據(jù)中來(lái),就像老子說(shuō)的“道法自然”。
?
2 從有監(jiān)督特征工程到無(wú)監(jiān)督特征學(xué)習(xí)
說(shuō)起無(wú)監(jiān)督和有監(jiān)督方法,仍然先舉一個(gè)依法治國(guó)和無(wú)為而治的對(duì)比。
依法治國(guó)核心就在于設(shè)定了各種各樣的法令讓大家遵循,而無(wú)為而治的核心就是不干預(yù),讓國(guó)家在自然規(guī)律下運(yùn)轉(zhuǎn)。很明顯后者是更高級(jí)的存在,也更難實(shí)現(xiàn),不確定性大。
這個(gè)例子說(shuō)的正是有監(jiān)督和無(wú)監(jiān)督方法在社會(huì)學(xué)的代表,從有監(jiān)督到無(wú)監(jiān)督是進(jìn)步的,然后我們?cè)倏纯粗悄芟到y(tǒng)的成長(zhǎng)。
(1) 最初級(jí)的智能系統(tǒng),其實(shí)就是用機(jī)器來(lái)使用專(zhuān)家的知識(shí),依靠的是專(zhuān)家在某一個(gè)領(lǐng)域的大量的經(jīng)驗(yàn)積累。從20世紀(jì)60年代開(kāi)始到80年代第二次人工智能浪潮,專(zhuān)家系統(tǒng)的研究是非常流行的,大家感興趣可以去了解。
(2) 隨著技術(shù)的發(fā)展,研究者發(fā)現(xiàn)專(zhuān)家系統(tǒng)實(shí)在是過(guò)于簡(jiǎn)單和脆弱,于是研究出了一系列的模型,包括人工神經(jīng)網(wǎng)絡(luò)/SVM等等。通過(guò)專(zhuān)家的經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,完成知識(shí)的初步抽象(提取特征),之后丟給模型進(jìn)行進(jìn)一步的學(xué)習(xí)。與專(zhuān)家系統(tǒng)相比模型的復(fù)雜度大大提升,因此也可以開(kāi)始解決更加復(fù)雜的問(wèn)題,比如人臉的檢測(cè),語(yǔ)音的識(shí)別。在20世紀(jì)末和21世紀(jì)初,有監(jiān)督的機(jī)器學(xué)習(xí)方法得到了非常廣泛的應(yīng)用和研究。
(3) 隨著大數(shù)據(jù)的爆發(fā)以及科學(xué)家的不斷探索,研究人員開(kāi)始認(rèn)識(shí)到通過(guò)專(zhuān)家的經(jīng)驗(yàn)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是不合適的,數(shù)據(jù)的維度太高,專(zhuān)家不可能知道每一個(gè)任務(wù)到底需要怎樣的預(yù)處理,所以無(wú)監(jiān)督特征學(xué)習(xí)方法誕生。對(duì)于一個(gè)無(wú)監(jiān)督的特征學(xué)習(xí)系統(tǒng),它的輸入應(yīng)該盡可能是原始的數(shù)據(jù),最大程度上保證信息的完整。至于學(xué)習(xí)的規(guī)則,仍然由專(zhuān)家來(lái)制定。
于是專(zhuān)家設(shè)計(jì)出各種各樣的模型架構(gòu)和優(yōu)化目標(biāo)來(lái)指導(dǎo)系統(tǒng)從數(shù)據(jù)中進(jìn)行學(xué)習(xí),與有監(jiān)督的特征工程的最大區(qū)別在于使用數(shù)據(jù)的方式,這一類(lèi)方法也被稱(chēng)為特征學(xué)習(xí),于是我們有了傳統(tǒng)的機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)算法之分。
(4) 再往后發(fā)展,就需要機(jī)器自己創(chuàng)造模型,人類(lèi)專(zhuān)家在其中所起的作用很小,甚至沒(méi)有,這也是人工智能的未來(lái),或許社會(huì)發(fā)展到一定的階段,真的會(huì)有創(chuàng)造生命的那一天吧。
?
3 深度學(xué)習(xí)第一階段-學(xué)習(xí)特征
在深度學(xué)習(xí)發(fā)展的第一階段中,重點(diǎn)就是專(zhuān)家設(shè)計(jì)模型和優(yōu)化策略,從數(shù)據(jù)中學(xué)習(xí)特征表達(dá)。
深度學(xué)習(xí)的成功很大程度上歸功于卷積神經(jīng)網(wǎng)絡(luò)CNN模型架構(gòu),在圖像,語(yǔ)音等領(lǐng)域都取得了大大突破。CNN是一種無(wú)監(jiān)督的特征學(xué)習(xí)模型,輸入原始數(shù)據(jù),然后完成學(xué)習(xí)。關(guān)于CNN的基礎(chǔ),大家可以去閱讀公眾號(hào)的相關(guān)文章。
在這個(gè)過(guò)程中,模型的架構(gòu)固然會(huì)影響最終的結(jié)果,但是更重要的卻是數(shù)據(jù)集,沒(méi)有一個(gè)好的數(shù)據(jù)集,怎么都不可能訓(xùn)練出好的模型。關(guān)于數(shù)據(jù)集的重要性,可以閱讀往期文章。
【數(shù)據(jù)】深度學(xué)習(xí)從“數(shù)據(jù)集”開(kāi)始?
?
4 深度學(xué)習(xí)第二階段-學(xué)習(xí)模型
在深度學(xué)習(xí)發(fā)展的第二階段中,重點(diǎn)就是學(xué)習(xí)網(wǎng)絡(luò)模型本身和各種相關(guān)的策略。
在第一階段,典型的工作流程是準(zhǔn)備數(shù)據(jù),選擇模型框架,定義各類(lèi)優(yōu)化參數(shù),然后開(kāi)始訓(xùn)練。
模型的架構(gòu)需要研究人員手動(dòng)設(shè)計(jì),模型的各類(lèi)訓(xùn)練參數(shù)包括歸一化方法,初始化方法,激活函數(shù)等等也需要研究人員根據(jù)經(jīng)驗(yàn)進(jìn)行調(diào)試。數(shù)據(jù)的使用,包括預(yù)處理,增強(qiáng)策略也需要研究人員進(jìn)行嘗試。
但是技術(shù)發(fā)展到今天,研究人員開(kāi)始從數(shù)據(jù)中學(xué)習(xí)模型本身。
4.1、AutoML自動(dòng)模型結(jié)構(gòu)設(shè)計(jì)技術(shù)
在深度學(xué)習(xí)發(fā)展的這些年里,研究人員用盡了各種手段去探索和設(shè)計(jì)各種各樣的網(wǎng)絡(luò),研究網(wǎng)絡(luò)的深度,寬度,卷積的方式,淺層深層的信息流動(dòng)和融合等,可以參見(jiàn)往期文章。
【完結(jié)】總結(jié)12大CNN主流模型架構(gòu)設(shè)計(jì)思想?
然而到了今天,新的網(wǎng)絡(luò)設(shè)計(jì)方法開(kāi)始流行,以Google Brain提出的AutoML為代表的技術(shù),讓機(jī)器根據(jù)不同的任務(wù)(數(shù)據(jù)),自動(dòng)搜索最佳的模型架構(gòu),數(shù)據(jù)驅(qū)動(dòng)了模型的學(xué)習(xí)。
谷歌AutoML創(chuàng)造者Quoc Le:未來(lái)最好的人工智能模型將由機(jī)器生成?
4.2、AutoAugment自動(dòng)數(shù)據(jù)增強(qiáng)策略
曾幾何時(shí),我們采用各種各樣的幾何變換,顏色變換策略來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。隨機(jī)裁剪,顏色擾動(dòng),都對(duì)提升模型的泛化能力起著至關(guān)重要的作用。
而如今,是時(shí)候?qū)ふ腋玫姆椒恕R訥oogle Brain提出的AutoAugment為代表的方法,使用增強(qiáng)學(xué)習(xí)對(duì)不同的任務(wù)學(xué)習(xí)到了各自最合適的增強(qiáng)方法,可以參考往期文章。
【技術(shù)綜述】深度學(xué)習(xí)中的數(shù)據(jù)增強(qiáng)方法都有哪些??
4.3、自動(dòng)優(yōu)化參數(shù)選擇
曾幾何時(shí),我們?cè)O(shè)計(jì),比較,分析sigmoid,tanh,relu等激活函數(shù)對(duì)網(wǎng)絡(luò)性能的影響。
而Google Brain提出的以Swish為代表的方法,在一系列一元函數(shù)和二元函數(shù)組成的搜索空間中,進(jìn)行了組合搜索實(shí)驗(yàn),利用數(shù)據(jù)學(xué)習(xí)到了比ReLU更好的激活函數(shù),可以參考往期文章。
【AI初識(shí)境】激活函數(shù):從人工設(shè)計(jì)到自動(dòng)搜索?
曾幾何時(shí),我們還在爭(zhēng)論是最大池化好還是平均池化好,如今基于數(shù)據(jù)的池化策略已經(jīng)被廣泛研究。
曾幾何時(shí),我們還在不知道選擇什么樣的歸一化方法好,如今,基于數(shù)據(jù)的歸一化策略也在被研究。
曾幾何時(shí),我們還在不知道選擇什么樣的優(yōu)化方法好,如今,基于數(shù)據(jù)的優(yōu)化方法也在被研究。
這些內(nèi)容,可以參考公眾號(hào)的《AI初識(shí)境》,后面我們也會(huì)做更多詳細(xì)的解讀。
可以說(shuō),從模型的結(jié)構(gòu)設(shè)計(jì),模型的優(yōu)化參數(shù)選擇,數(shù)據(jù)的使用策略,深度學(xué)習(xí)正在全面走向自動(dòng)化。
很久以前,我們只會(huì)使用抽象好的數(shù)據(jù)。后來(lái),我們學(xué)會(huì)了從數(shù)據(jù)中自己抽象特征。后來(lái),我們發(fā)明了一個(gè)系統(tǒng)讓它去抽象特征。再到后來(lái),我們想讓數(shù)據(jù)把系統(tǒng)也學(xué)了。
下期預(yù)告:模型的深度和寬度對(duì)性能的影響。
?
轉(zhuǎn)載文章請(qǐng)后臺(tái)聯(lián)系
侵權(quán)必究
比如網(wǎng)絡(luò)loss不正常,怎么調(diào)都不管用。
比如訓(xùn)練好好的,測(cè)試就是結(jié)果不對(duì)。
bug天天有,深度學(xué)習(xí)算法工程師遇到的特別多,如果你想交流更多,就來(lái)有三AI知識(shí)星球?qū)崟r(shí)提問(wèn)交流吧,大咖眾多,總有能解決你問(wèn)題的。
不惑境
AI白身境系列完整閱讀:
第一期:【AI白身境】深度學(xué)習(xí)從棄用windows開(kāi)始
第二期:【AI白身境】Linux干活三板斧,shell、vim和git
第三期:【AI白身境】學(xué)AI必備的python基礎(chǔ)
第四期:【AI白身境】深度學(xué)習(xí)必備圖像基礎(chǔ)
第五期:【AI白身境】搞計(jì)算機(jī)視覺(jué)必備的OpenCV入門(mén)基礎(chǔ)
第六期:【AI白身境】只會(huì)用Python?g++,CMake和Makefile了解一下
第七期:【AI白身境】學(xué)深度學(xué)習(xí)你不得不知的爬蟲(chóng)基礎(chǔ)
第八期:?【AI白身境】深度學(xué)習(xí)中的數(shù)據(jù)可視化
第九期:【AI白身境】入行AI需要什么數(shù)學(xué)基礎(chǔ):左手矩陣論,右手微積分
第十期:【AI白身境】一文覽盡計(jì)算機(jī)視覺(jué)研究方向
第十一期:【AI白身境】AI+,都加在哪些應(yīng)用領(lǐng)域了
第十二期:【AI白身境】究竟誰(shuí)是paper之王,全球前10的計(jì)算機(jī)科學(xué)家
AI初識(shí)境系列完整閱讀
第一期:【AI初識(shí)境】從3次人工智能潮起潮落說(shuō)起
第二期:【AI初識(shí)境】從頭理解神經(jīng)網(wǎng)絡(luò)-內(nèi)行與外行的分水嶺
第三期:【AI初識(shí)境】近20年深度學(xué)習(xí)在圖像領(lǐng)域的重要進(jìn)展節(jié)點(diǎn)
第四期:【AI初識(shí)境】激活函數(shù):從人工設(shè)計(jì)到自動(dòng)搜索
第五期:【AI初識(shí)境】什么是深度學(xué)習(xí)成功的開(kāi)始?參數(shù)初始化
第六期:【AI初識(shí)境】深度學(xué)習(xí)模型中的Normalization,你懂了多少?
第七期:【AI初識(shí)境】為了圍剿SGD大家這些年想過(guò)的那十幾招
第八期:【AI初識(shí)境】被Hinton,DeepMind和斯坦福嫌棄的池化,到底是什么?
第九期:【AI初識(shí)境】如何增加深度學(xué)習(xí)模型的泛化能力
第十期:【AI初識(shí)境】深度學(xué)習(xí)模型評(píng)估,從圖像分類(lèi)到生成模型
第十一期:【AI初識(shí)境】深度學(xué)習(xí)中常用的損失函數(shù)有哪些?
第十二期:【AI初識(shí)境】給深度學(xué)習(xí)新手開(kāi)始項(xiàng)目時(shí)的10條建議
AI不惑境系列完整閱讀:
第一期:【AI不惑境】數(shù)據(jù)壓榨有多狠,人工智能就有多成功
感謝各位看官的耐心閱讀,不足之處希望多多指教。后續(xù)內(nèi)容將會(huì)不定期奉上,歡迎大家關(guān)注有三公眾號(hào) 有三AI!
總結(jié)
以上是生活随笔為你收集整理的【AI不惑境】数据压榨有多狠,人工智能就有多成功的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【AI-1000问】为什么CNN中的卷积
- 下一篇: 【直播预告】计算机视觉中数据增强原理和实