机器学习文献综述
機(jī)器學(xué)習(xí)文獻(xiàn)綜述
一、背景介紹
數(shù)據(jù)庫:百度詞條、知網(wǎng)數(shù)據(jù)庫。檢索式:機(jī)器學(xué)習(xí)
檢索結(jié)果及分析:
機(jī)器學(xué)習(xí)有下面幾種定義: “機(jī)器學(xué)習(xí)是一門人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能”。 “機(jī)器學(xué)習(xí)是對(duì)能通過經(jīng)驗(yàn)自動(dòng)改進(jìn)的計(jì)算機(jī)算法的研究”。 “機(jī)器學(xué)習(xí)是用數(shù)據(jù)或以往的經(jīng)驗(yàn),以此優(yōu)化計(jì)算機(jī)程序的性能標(biāo)準(zhǔn)。” 一種經(jīng)常引用的英文定義是:A computer program is said to learn from experience E withrespect to some class of tasks T and performance measure P, if its performanceat tasks in T, as measured by P, improves with experience E。
機(jī)器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論論等多門學(xué)科。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。它是人工智能的核心,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域,它主要使用歸納、綜合而不是演繹。它的應(yīng)用已遍及人工智能的各個(gè)分支,如專家系統(tǒng)、自動(dòng)推理、自然語言理解、模式識(shí)別、計(jì)算機(jī)視覺、智能機(jī)器人等領(lǐng)域。
機(jī)器學(xué)習(xí)是人工智能研究較為年輕的分支,它的發(fā)展過程大體上分為四個(gè)時(shí)期。第一階段是20世紀(jì)50年代中葉到60年代中葉,屬于熱烈時(shí)期。在這個(gè)時(shí)期,所研究的是“沒有知識(shí)”的學(xué)習(xí),即“無知”學(xué)習(xí)。其研究目標(biāo)是各類自組織系統(tǒng)和自適應(yīng)系統(tǒng),其主要研究方法是不斷修改系統(tǒng)的控制參數(shù)和改進(jìn)系統(tǒng)的執(zhí)行能力,不涉及與具體任務(wù)有關(guān)的知識(shí)。本階段的代表性工作是:塞繆爾(Samuel)的下棋程序。但這種學(xué)習(xí)的結(jié)果遠(yuǎn)不能滿足人們對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的期望。第二階段是在60年代中葉到70年代中葉,被稱為機(jī)器學(xué)習(xí)的冷靜時(shí)期。本階段的研究目標(biāo)是模擬人類的概念學(xué)習(xí)過程,并采用邏輯結(jié)構(gòu)或圖結(jié)構(gòu)作為機(jī)器內(nèi)部描述。本階段的代表性工作有溫斯頓(Winston)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng)和海斯羅思(Hayes-Roth)等的基本邏輯的歸納學(xué)習(xí)系統(tǒng)。第三階段從20世紀(jì)70年代中葉到80年代中葉,稱為復(fù)興時(shí)期。在此期間,人們從學(xué)習(xí)單個(gè)概念擴(kuò)展到學(xué)習(xí)多個(gè)概念,探索不同的學(xué)習(xí)策略和方法,且在本階段已開始把學(xué)習(xí)系統(tǒng)與各種應(yīng)用結(jié)合起來,并取得很大的成功,促進(jìn)機(jī)器學(xué)習(xí)的發(fā)展。1980年,在美國的卡內(nèi)基—梅隆(CMU)召開了第一屆機(jī)器學(xué)習(xí)國際研討會(huì),標(biāo)志著機(jī)器學(xué)習(xí)研究已在全世界興起。
從本質(zhì)上講,機(jī)器學(xué)習(xí)就是要使計(jì)算機(jī)能模擬人的學(xué)習(xí)行為,自動(dòng)地通過學(xué)習(xí)獲取知識(shí)和技能,不斷改善性能,實(shí)現(xiàn)人工智能。
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,各行各業(yè)積累的數(shù)字化數(shù)據(jù)越來越多,如微博的數(shù)字化、聊天記錄的數(shù)字化、視頻探頭信息的數(shù)字化,大數(shù)據(jù)(Big Data)成為當(dāng)今流行的研究主題,在這種潮流下,如何對(duì)這些數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)蘊(yùn)涵的規(guī)律及有價(jià)值的信息,機(jī)器學(xué)習(xí)我想將有一席用武之地。
?
二、研究現(xiàn)狀
數(shù)據(jù)庫:Find+發(fā)現(xiàn)。檢索式:機(jī)器學(xué)習(xí)*算法*綜述
檢索結(jié)果及分析:
1、機(jī)器學(xué)習(xí)分類
? 機(jī)器學(xué)習(xí),一般根據(jù)處理的數(shù)據(jù)是否存在人為標(biāo)注主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)用有標(biāo)簽的數(shù)據(jù)作為最終學(xué)習(xí)目標(biāo),通常學(xué)習(xí)效果好,但獲取有標(biāo)簽數(shù)據(jù)的代價(jià)是昂貴的,無監(jiān)督學(xué)習(xí)相當(dāng)于自學(xué)習(xí)或自助式學(xué)習(xí),便于利用更多的數(shù)據(jù),同時(shí)可能會(huì)發(fā)現(xiàn)數(shù)據(jù)中存在的更多模式的先驗(yàn)知識(shí)(有時(shí)會(huì)超過手工標(biāo)注的模式信息),但學(xué)習(xí)效率較低。二者的共性是通過建立數(shù)學(xué)模型為最優(yōu)化問題進(jìn)行求解,通常沒有完美的解法。
監(jiān)督學(xué)習(xí)的數(shù)據(jù)集包括初始訓(xùn)練數(shù)據(jù)和人為標(biāo)注目標(biāo),希望根據(jù)標(biāo)注特征從訓(xùn)練集數(shù)據(jù)中學(xué)習(xí)到對(duì)象劃分的規(guī)則,并應(yīng)用此規(guī)則在測(cè)試集數(shù)據(jù)中預(yù)測(cè)結(jié)果,輸出有標(biāo)記的學(xué)習(xí)方式。因此,監(jiān)督學(xué)習(xí)的根本目標(biāo)是訓(xùn)練機(jī)器學(xué)習(xí)的泛化能力。監(jiān)督學(xué)習(xí)的典型算法有:邏輯回歸、多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等;典型應(yīng)用有:回歸分析、任務(wù)分類等。
無監(jiān)督學(xué)習(xí),用于處理未被分類標(biāo)記的樣本集數(shù)據(jù)并且事先不需要進(jìn)行訓(xùn)練,希望通過學(xué)習(xí)尋求數(shù)據(jù)間的內(nèi)在模式和統(tǒng)計(jì)規(guī)律,從而獲得樣本數(shù)據(jù)的結(jié)構(gòu)特征,因此,無監(jiān)督學(xué)習(xí)的根本目標(biāo)是在學(xué)習(xí)過程中根據(jù)相似性原理進(jìn)行區(qū)分"無監(jiān)督學(xué)習(xí)更近似于人類的學(xué)習(xí)方式,被譽(yù)為:人工智能最有價(jià)值的地方。無監(jiān)督學(xué)習(xí)的典型算法有自動(dòng)編碼器、受限玻爾茲曼機(jī)、深度置信網(wǎng)絡(luò)等;典型應(yīng)用有:聚類和異常檢測(cè)等。
總之,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)在算法的指導(dǎo)下,能夠自動(dòng)學(xué)習(xí)大量輸入數(shù)據(jù)樣本的數(shù)據(jù)結(jié)構(gòu)和內(nèi)在規(guī)律,給機(jī)器賦予一定的智慧,從而對(duì)新樣本進(jìn)行智能識(shí)別,甚至實(shí)現(xiàn)對(duì)未來的預(yù)測(cè)"。
?
2、機(jī)器學(xué)習(xí)目前研究現(xiàn)狀
(1)面向任務(wù):在預(yù)定的一些任務(wù)中,分析和開發(fā)學(xué)習(xí)系統(tǒng),以便改善完成任務(wù)的水平,這是專家系統(tǒng)研究中提出的研究問題;
(2)認(rèn)識(shí)模擬:主要研究人類學(xué)習(xí)過程及其計(jì)算機(jī)的行為模擬,這是從心理學(xué)角度研究的問題;
(3)理論分析研究:從理論上探討各種可能學(xué)習(xí)方法的空間和獨(dú)立于應(yīng)用領(lǐng)域之外的各種算法。
這三個(gè)研究方向各有自己的研究目標(biāo),每一個(gè)方向的進(jìn)展都會(huì)促進(jìn)另一個(gè)方向的研究。這三個(gè)方面的研究都將促進(jìn)各方面問題和學(xué)習(xí)基本概念的交叉結(jié)合,推動(dòng)了整個(gè)機(jī)器學(xué)習(xí)的研究。
?
3、機(jī)器學(xué)習(xí)主要算法
數(shù)據(jù)庫:谷歌搜索。檢索式:機(jī)器學(xué)習(xí)主要算法
檢索結(jié)果及分析:
(1)回歸算法
?? 在大部分機(jī)器學(xué)習(xí)課程中,回歸算法都是介紹的第一個(gè)算法。原因有兩個(gè):一.回歸算法比較簡單,介紹它可以讓人平滑地從統(tǒng)計(jì)學(xué)遷移到機(jī)器學(xué)習(xí)中。二.回歸算法是后面若干強(qiáng)大算法的基石,如果不理解回歸算法,無法學(xué)習(xí)那些強(qiáng)大的算法。回歸算法有兩個(gè)重要的子類:即線性回歸和邏輯回歸。
?? 線性回歸就是我們前面說過的房價(jià)求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?一般使用“最小二乘法”來求解。“最小二乘法”的思想是這樣的,假設(shè)我們擬合出的直線代表數(shù)據(jù)的真實(shí)值,而觀測(cè)到的數(shù)據(jù)代表擁有誤差的值。為了盡可能減小誤差的影響,需要求解一條直線使所有誤差的平方和最小。最小二乘法將最優(yōu)問題轉(zhuǎn)化為求函數(shù)極值問題。函數(shù)極值在數(shù)學(xué)上我們一般會(huì)采用求導(dǎo)數(shù)為0的方法。但這種做法并不適合計(jì)算機(jī),可能求解不出來,也可能計(jì)算量太大。
?? 計(jì)算機(jī)科學(xué)界專門有一個(gè)學(xué)科叫“數(shù)值計(jì)算”,專門用來提升計(jì)算機(jī)進(jìn)行各類計(jì)算時(shí)的準(zhǔn)確性和效率問題。例如,著名的“梯度下降”以及“牛頓法”就是數(shù)值計(jì)算中的經(jīng)典算法,也非常適合來處理求解函數(shù)極值的問題。梯度下降法是解決回歸模型中最簡單且有效的方法之一。從嚴(yán)格意義上來說,由于后文中的神經(jīng)網(wǎng)絡(luò)和推薦算法中都有線性回歸的因子,因此梯度下降法在后面的算法實(shí)現(xiàn)中也有應(yīng)用。
?? 邏輯回歸是一種與線性回歸非常類似的算法,但是,從本質(zhì)上講,線型回歸處理的問題類型與邏輯回歸不一致。線性回歸處理的是數(shù)值問題,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房價(jià)。而邏輯回歸屬于分類算法,也就是說,邏輯回歸預(yù)測(cè)結(jié)果是離散的分類,例如判斷這封郵件是否是垃圾郵件,以及用戶是否會(huì)點(diǎn)擊此廣告等等。
?? 實(shí)現(xiàn)方面的話,邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來說并不直觀,你只需要理解對(duì)數(shù)值越大,函數(shù)越逼近1,數(shù)值越小,函數(shù)越逼近0),接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè),例如概率大于0.5,則這封郵件就是垃圾郵件,或者腫瘤是否是惡性的等等。從直觀上來說,邏輯回歸是畫出了一條分類線。
假設(shè)我們有一組腫瘤患者的數(shù)據(jù),這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn)),有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”:患者的年齡與腫瘤的大小。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上,形成了我上圖的數(shù)據(jù)。
?? 當(dāng)我有一個(gè)綠色的點(diǎn)時(shí),我該判斷這個(gè)腫瘤是惡性的還是良性的呢?根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型,也就是圖中的分類線。這時(shí),根據(jù)綠點(diǎn)出現(xiàn)在分類線的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色,也就是說屬于惡性腫瘤。
邏輯回歸算法劃出的分類線基本都是線性的(也有劃出非線性分類線的邏輯回歸,不過那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低),這意味著當(dāng)兩類之間的界線不是線性時(shí),邏輯回歸的表達(dá)能力就不足。下面的兩個(gè)算法是機(jī)器學(xué)習(xí)界最強(qiáng)大且重要的算法,都可以擬合出非線性的分類線。
(2)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)(也稱之為人工神經(jīng)網(wǎng)絡(luò),ANN)算法是80年代機(jī)器學(xué)習(xí)界非常流行的算法,不過在90年代中途衰落。現(xiàn)在,攜著“深度學(xué)習(xí)”之勢(shì),神經(jīng)網(wǎng)絡(luò)重裝歸來,重新成為最強(qiáng)大的機(jī)器學(xué)習(xí)算法之一。
神經(jīng)網(wǎng)絡(luò)的誕生起源于對(duì)大腦工作機(jī)理的研究。早期生物界學(xué)者們使用神經(jīng)網(wǎng)絡(luò)來模擬大腦。機(jī)器學(xué)習(xí)的學(xué)者們使用神經(jīng)網(wǎng)絡(luò)進(jìn)行機(jī)器學(xué)習(xí)的實(shí)驗(yàn),發(fā)現(xiàn)在視覺與語音的識(shí)別上效果都相當(dāng)好。在BP算法(加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程的數(shù)值算法)誕生以后,神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)入了一個(gè)熱潮。BP算法的發(fā)明人之一是前面介紹的機(jī)器學(xué)習(xí)大牛Geoffrey Hinton。具體說來,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)機(jī)理是什么?簡單來說,就是分解與整合。在著名的Hubel-Wiesel試驗(yàn)中,學(xué)者們研究貓的視覺分析機(jī)理是這樣的。
比方說,一個(gè)正方形,分解為四個(gè)折線進(jìn)入視覺處理的下一層中。四個(gè)神經(jīng)元分別處理一個(gè)折線。每個(gè)折線再繼續(xù)被分解為兩條直線,每條直線再被分解為黑白兩個(gè)面。于是,一個(gè)復(fù)雜的圖像變成了大量的細(xì)節(jié)進(jìn)入神經(jīng)元,神經(jīng)元處理以后再進(jìn)行整合,最后得出了看到的是正方形的結(jié)論。這就是大腦視覺識(shí)別的機(jī)理,也是神經(jīng)網(wǎng)絡(luò)工作的機(jī)理。
讓我們看一個(gè)簡單的神經(jīng)網(wǎng)絡(luò)的邏輯架構(gòu)。在這個(gè)網(wǎng)絡(luò)中,分成輸入層,隱藏層,和輸出層。輸入層負(fù)責(zé)接收信號(hào),隱藏層負(fù)責(zé)對(duì)數(shù)據(jù)的分解與處理,最后的結(jié)果被整合到輸出層。每層中的一個(gè)圓代表一個(gè)處理單元,可以認(rèn)為是模擬了一個(gè)神經(jīng)元,若干個(gè)處理單元組成了一個(gè)層,若干個(gè)層再組成了一個(gè)網(wǎng)絡(luò),也就是"神經(jīng)網(wǎng)絡(luò)"。
?
?
?
?
?
?
?
?
?
圖1、神經(jīng)網(wǎng)絡(luò)的邏輯構(gòu)架
(3)SVM(支持向量機(jī))
支持向量機(jī)算法是誕生于統(tǒng)計(jì)學(xué)習(xí)界,同時(shí)在機(jī)器學(xué)習(xí)界大放光彩的經(jīng)典算法。
支持向量機(jī)算法從某種意義上來說是邏輯回歸算法的強(qiáng)化:通過給予邏輯回歸算法更嚴(yán)格的優(yōu)化條件,支持向量機(jī)算法可以獲得比邏輯回歸更好的分類界線。但是如果沒有某類函數(shù)技術(shù),則支持向量機(jī)算法最多算是一種更好的線性分類技術(shù)。
但是,通過跟高斯“核”的結(jié)合,支持向量機(jī)可以表達(dá)出非常復(fù)雜的分類界線,從而達(dá)成很好的的分類效果。“核”事實(shí)上就是一種特殊的函數(shù),最典型的特征就是可以將低維的空間映射到高維的空間。例如下圖所示:
?
?
?
?
?
?
??
?
圖2、支持向量機(jī)圖例
支持向量機(jī)是一種數(shù)學(xué)成分很濃的機(jī)器學(xué)習(xí)算法(相對(duì)的,神經(jīng)網(wǎng)絡(luò)則有生物科學(xué)成分)。在算法的核心步驟中,有一步證明,即將數(shù)據(jù)從低維映射到高維不會(huì)帶來最后計(jì)算復(fù)雜性的提升。于是,通過支持向量機(jī)算法,既可以保持計(jì)算效率,又可以獲得非常好的分類效果。因此支持向量機(jī)在90年代后期一直占據(jù)著機(jī)器學(xué)習(xí)中最核心的地位,基本取代了神經(jīng)網(wǎng)絡(luò)算法。直到現(xiàn)在神經(jīng)網(wǎng)絡(luò)借著深度學(xué)習(xí)重新興起,兩者之間才又發(fā)生了微妙的平衡轉(zhuǎn)變。
(4)聚類算法
前面的算法中的一個(gè)顯著特征就是我的訓(xùn)練數(shù)據(jù)中包含了標(biāo)簽,訓(xùn)練出的模型可以對(duì)其他未知數(shù)據(jù)預(yù)測(cè)標(biāo)簽。在下面的算法中,訓(xùn)練數(shù)據(jù)都是不含標(biāo)簽的,而算法的目的則是通過訓(xùn)練,推測(cè)出這些數(shù)據(jù)的標(biāo)簽。這類算法有一個(gè)統(tǒng)稱,即無監(jiān)督算法(前面有標(biāo)簽的數(shù)據(jù)的算法則是有監(jiān)督算法)。無監(jiān)督算法中最典型的代表就是聚類算法。
讓我們還是拿一個(gè)二維的數(shù)據(jù)來說,某一個(gè)數(shù)據(jù)包含兩個(gè)特征。我希望通過聚類算法,給他們中不同的種類打上標(biāo)簽,我該怎么做呢?簡單來說,聚類算法就是計(jì)算種群中的距離,根據(jù)距離的遠(yuǎn)近將數(shù)據(jù)劃分為多個(gè)族群。聚類算法中最典型的代表就是K-Means算法。
(5)降維算法?
降維算法也是一種無監(jiān)督學(xué)習(xí)算法,其主要特征是將數(shù)據(jù)從高維降低到低維層次。在這里,維度其實(shí)表示的是數(shù)據(jù)的特征量的大小,例如,房價(jià)包含房子的長、寬、面積與房間數(shù)量四個(gè)特征,也就是維度為4維的數(shù)據(jù)。可以看出來,長與寬事實(shí)上與面積表示的信息重疊了,例如面積=長 ×寬。通過降維算法我們就可以去除冗余信息,將特征減少為面積與房間數(shù)量兩個(gè)特征,即從4維的數(shù)據(jù)壓縮到2維。于是我們將數(shù)據(jù)從高維降低到低維,不僅利于表示,同時(shí)在計(jì)算上也能帶來加速。
剛才說的降維過程中減少的維度屬于肉眼可視的層次,同時(shí)壓縮也不會(huì)帶來信息的損失(因?yàn)樾畔⑷哂嗔?。如果肉眼不可視,或者沒有冗余的特征,降維算法也能工作,不過這樣會(huì)帶來一些信息的損失。但是,降維算法可以從數(shù)學(xué)上證明,從高維壓縮到的低維中最大程度地保留了數(shù)據(jù)的信息。因此,使用降維算法仍然有很多的好處。
降維算法的主要作用是壓縮數(shù)據(jù)與提升機(jī)器學(xué)習(xí)其他算法的效率。通過降維算法,可以將具有幾千個(gè)特征的數(shù)據(jù)壓縮至若干個(gè)特征。另外,降維算法的另一個(gè)好處是數(shù)據(jù)的可視化,例如將5維的數(shù)據(jù)壓縮至2維,然后可以用二維平面來可視。降維算法的主要代表是PCA算法(即主成分分析算法)。?
(6)推薦算法
推薦算法是目前業(yè)界非常火的一種算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運(yùn)用。推薦算法的主要特征就是可以自動(dòng)向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。推薦算法有兩個(gè)主要的類別:一類是基于物品內(nèi)容的推薦,是將與用戶購買的內(nèi)容近似的物品推薦給用戶,這樣的前提是每個(gè)物品都得有若干個(gè)標(biāo)簽,因此才可以找出與用戶購買物品類似的物品,這樣推薦的好處是關(guān)聯(lián)程度較大,但是由于每個(gè)物品都需要貼標(biāo)簽,因此工作量較大。?
另一類是基于用戶相似度的推薦,則是將與目標(biāo)用戶興趣相同的其他用戶購買的東西推薦給目標(biāo)用戶,例如小A歷史上買了物品B和C,經(jīng)過算法分析,發(fā)現(xiàn)另一個(gè)與小A近似的用戶小D購買了物品E,于是將物品E推薦給小A。
兩類推薦都有各自的優(yōu)缺點(diǎn),在一般的電商應(yīng)用中,一般是兩類混合使用。推薦算法中最有名的算法就是協(xié)同過濾算法。?
(7)其他
除了以上算法之外,機(jī)器學(xué)習(xí)界還有其他的如高斯判別,樸素貝葉斯,決策樹等等算法。但是上面列的六個(gè)算法是使用最多,影響最廣,種類最全的典型。機(jī)器學(xué)習(xí)界的一個(gè)特色就是算法眾多,發(fā)展百花齊放。
?
三、機(jī)器學(xué)習(xí)的研究進(jìn)展
數(shù)據(jù)庫:谷歌搜索。檢索式:機(jī)器學(xué)習(xí)*進(jìn)展
檢索結(jié)果及分析:
1、機(jī)器學(xué)習(xí)的研究近況
隨著機(jī)器學(xué)習(xí)的深入研究與應(yīng)用,新的網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法不斷涌現(xiàn),進(jìn)一步推進(jìn)了機(jī)器學(xué)習(xí)的發(fā)展。下面主要從模型結(jié)構(gòu)與網(wǎng)絡(luò)參數(shù)設(shè)計(jì)、學(xué)習(xí)算法兩方面對(duì)近幾年機(jī)器學(xué)習(xí)的研究進(jìn)展進(jìn)行介紹。
(1)模型結(jié)構(gòu)及網(wǎng)絡(luò)參數(shù)設(shè)計(jì)
Liu yan等人提出一種半監(jiān)督可識(shí)別深度置信網(wǎng)絡(luò)算法(ccbRD)并成功應(yīng)用于圖像的分類。Luo等人提出稀疏組受限波爾曼機(jī)(SGRBM)算法,通過實(shí)驗(yàn)表明該算法可以提取更局部的特征、提高識(shí)別率。Yu Dong等提出一種深度凸起網(wǎng)絡(luò)(DCN) 算法,并用于構(gòu)建語音分類的可擴(kuò)展體系。Huang等人提出一種通過局部卷積深度置信網(wǎng)絡(luò)模型學(xué)習(xí)圖像總體結(jié)構(gòu)特征的方法,并在人
臉數(shù)據(jù)庫測(cè)試通過,取得良好效果。羅切爾提出改進(jìn)RBM的Class RBM算法,實(shí)現(xiàn)在不訓(xùn)練分類器的前提下,提高在線實(shí)時(shí)監(jiān)測(cè)學(xué)習(xí)特征的識(shí)別性能。Zhou等人提出一種半監(jiān)督卷積深度網(wǎng)絡(luò)(CDN)算法,可用于圖像分類。Mrazova等人提出一種增長式CNN,實(shí)現(xiàn)快速自動(dòng)調(diào)整網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),有效處理高維數(shù)據(jù)!逐層迭代提取高級(jí)抽象特征。Kai Ming等人提出一種空間金字塔池化CNN算法,實(shí)現(xiàn)不同尺寸圖像的識(shí)別。
?
(2)學(xué)習(xí)方法
Wong等人提出一種基于Fisher準(zhǔn)則、運(yùn)用正則化要求進(jìn)行深度學(xué)習(xí)提取特征的算法(RD-FM),通過實(shí)驗(yàn)表明該方法比核應(yīng)運(yùn)具有更強(qiáng)的特征識(shí)別能力、微調(diào)階段正則化應(yīng)用的必要性。Collobert提出一種根據(jù)深度卷積遞歸圖
變換網(wǎng)絡(luò)(GTN)進(jìn)行快速自然語言解析的算法,在保持性能的同時(shí),提高了解析速度。Hinton提出通過阻止特征檢測(cè)器網(wǎng)絡(luò)權(quán)值的相互作用來改善神經(jīng)網(wǎng)絡(luò)的性能。Duchi等提出一種自適應(yīng)次梯度方法用于在線學(xué)習(xí)和隨機(jī)優(yōu)化。孫志軍等人提出一種基于邊際Fisher準(zhǔn)則的深度學(xué)習(xí)特征提取算法。Zhou等提出一種半監(jiān)督活躍深度網(wǎng)絡(luò)(ADN)算法,用于解決標(biāo)記數(shù)據(jù)不足的情感分類問題。TOM等人提出用于語句情感分類的高級(jí)深度學(xué)習(xí)算法。Schaul等人提出一種學(xué)習(xí)率自適應(yīng)方法。
?
四、機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)
數(shù)據(jù)庫:谷歌搜索???? 檢索式:機(jī)器學(xué)習(xí)*挑戰(zhàn)
目前,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)領(lǐng)域的研究與應(yīng)用取得巨大進(jìn)展有目共睹,有力地推動(dòng)了人工智能的發(fā)展"但是也應(yīng)該看到,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)前沿畢竟還是一個(gè)新生事物,多數(shù)結(jié)論是通過實(shí)驗(yàn)或經(jīng)驗(yàn)獲得,還有待于理論的深入研究與支持。CNN的推動(dòng)者和創(chuàng)始人之一的美國紐約大學(xué)教授 Yann? Lucan在2015IEEE計(jì)算機(jī)視覺與模式識(shí)別會(huì)議上指出深度學(xué)習(xí)的幾個(gè)關(guān)鍵限制:缺乏背后工作的理論基礎(chǔ)和推理機(jī)制;缺乏短期記憶;不能進(jìn)行無監(jiān)督學(xué)習(xí)。
另外,基于多層人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)受到人類大腦皮層分層工作的啟發(fā),雖然深度學(xué)習(xí)是目前最接近人類大腦的智能學(xué)習(xí)方法,但是當(dāng)前的深度網(wǎng)絡(luò)在結(jié)構(gòu)!功能!機(jī)制上都與人腦有較大的差距。并且對(duì)大腦皮層本身的結(jié)構(gòu)與機(jī)理還缺乏精準(zhǔn)認(rèn)知,如果要真正模擬人腦的100多億個(gè)神經(jīng)元組成的神經(jīng)系統(tǒng),目前還難以實(shí)現(xiàn)。因此,對(duì)計(jì)算神經(jīng)科學(xué)的研究也需要有很長一段路要走。
還有,機(jī)器學(xué)習(xí)模型的網(wǎng)絡(luò)結(jié)構(gòu)!算法及參數(shù)越發(fā)龐大、復(fù)雜,通常只有在大數(shù)據(jù)量、大計(jì)算量支持下才能訓(xùn)練出精準(zhǔn)的模型,對(duì)運(yùn)行環(huán)境要求越來越高!占用資源也越來越多,這也抬高了其應(yīng)用門檻。
總之,機(jī)器學(xué)習(xí)方興未艾并且擁有廣闊的研究與應(yīng)用前景,但是面臨的挑戰(zhàn)也不容忽視,二者交相輝映才能夠把機(jī)器學(xué)習(xí)推向更高的境界。
?
五、結(jié)論
本文對(duì)機(jī)器學(xué)習(xí)進(jìn)行了較為全面介紹,包括機(jī)器學(xué)習(xí)的概念,發(fā)展簡史及分類,重點(diǎn)分析了機(jī)器學(xué)習(xí)的經(jīng)典算法,還介紹了機(jī)器學(xué)習(xí)的最新研究進(jìn)展。愿景和應(yīng)用,最后探討了機(jī)器學(xué)習(xí)面臨的挑戰(zhàn)。毋庸諱言,以深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,目前在諸多領(lǐng)域取得了巨大進(jìn)展,并且展示出強(qiáng)大的發(fā)展?jié)摿?#xff0c;但是更應(yīng)該看到,人工智能仍然處理初級(jí)階段,機(jī)器學(xué)習(xí)仍然主要依賴監(jiān)督學(xué)習(xí),還沒有跨越弱人工智能,并且作為機(jī)器學(xué)習(xí)模型基礎(chǔ)的人腦認(rèn)知研究還有諸多空白需要填補(bǔ)!機(jī)器學(xué)習(xí)理論本身亟需新的突破!計(jì)算機(jī)科學(xué)技術(shù)及相關(guān)學(xué)科領(lǐng)域的發(fā)展與支撐與有待于進(jìn)一步加強(qiáng),因此,對(duì)于機(jī)器學(xué)習(xí),我們要走的路一定很長、很長。
令人欣喜的是機(jī)器學(xué)習(xí)已經(jīng)成為全人類共同矚目、發(fā)力的研究與應(yīng)用領(lǐng)域,并且已經(jīng)上升為國家戰(zhàn)略2013-2014年,美國!歐盟和日本先后啟動(dòng)了國家大型腦研究計(jì)劃;中國未來五年計(jì)劃實(shí)施的100個(gè)重大工程及項(xiàng)目中“腦科學(xué)與類腦研究”名列第四。因此,可以預(yù)見機(jī)器學(xué)習(xí)的道路是曲折的,前途是光明的。
?
?
?
?
?
?
?
?
總結(jié)
- 上一篇: (转)python调取C/C++的dll
- 下一篇: poj2631