當(dāng)前位置：首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

数据挖掘（10）：卷积神经网络算法的一个实现

發(fā)布時間：2025/7/14 卷积神经网络 46 豆豆

生活随笔收集整理的這篇文章主要介紹了数据挖掘（10）：卷积神经网络算法的一个实现小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

前言

從理解卷積神經(jīng)到實現(xiàn)它，前后花了一個月時間，現(xiàn)在也還有一些地方?jīng)]有理解透徹，CNN還是有一定難度的，不是看哪個的博客和一兩篇論文就明白了，主要還是靠自己去專研，閱讀推薦列表在末尾的參考文獻(xiàn)。目前實現(xiàn)的CNN在MINIT數(shù)據(jù)集上效果還不錯，但是還有一些bug，因為最近比較忙，先把之前做的總結(jié)一下，以后再繼續(xù)優(yōu)化。

卷積神經(jīng)網(wǎng)絡(luò)CNN是Deep Learning的一個重要算法，在很多應(yīng)用上表現(xiàn)出卓越的效果，[1]中對比多重算法在文檔字符識別的效果，結(jié)論是CNN優(yōu)于其他所有的算法。CNN在手寫體識別取得最好的效果，[2]將CNN應(yīng)用在基于人臉的性別識別，效果也非常不錯。前段時間我用BP神經(jīng)網(wǎng)絡(luò)對手機(jī)拍照圖片的數(shù)字進(jìn)行識別，效果還算不錯，接近98%，但在漢字識別上表現(xiàn)不佳，于是想試試卷積神經(jīng)網(wǎng)絡(luò)。

1、CNN的整體網(wǎng)絡(luò)結(jié)構(gòu)

卷積神經(jīng)網(wǎng)絡(luò)是在BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)，與BP類似，都采用了前向傳播計算輸出值，反向傳播調(diào)整權(quán)重和偏置；CNN與標(biāo)準(zhǔn)的BP最大的不同是：CNN中相鄰層之間的神經(jīng)單元并不是全連接，而是部分連接，也就是某個神經(jīng)單元的感知區(qū)域來自于上層的部分神經(jīng)單元，而不是像BP那樣與所有的神經(jīng)單元相連接。CNN的有三個重要的思想架構(gòu)：

局部區(qū)域感知
權(quán)重共享
空間或時間上的采樣

局部區(qū)域感知能夠發(fā)現(xiàn)數(shù)據(jù)的一些局部特征，比如圖片上的一個角，一段弧，這些基本特征是構(gòu)成動物視覺的基礎(chǔ)[3]；而BP中，所有的像素點是一堆混亂的點，相互之間的關(guān)系沒有被挖掘。

CNN中每一層的由多個map組成，每個map由多個神經(jīng)單元組成，同一個map的所有神經(jīng)單元共用一個卷積核（即權(quán)重），卷積核往往代表一個特征，比如某個卷積和代表一段弧，那么把這個卷積核在整個圖片上滾一下，卷積值較大的區(qū)域就很有可能是一段弧。注意卷積核其實就是權(quán)重，我們并不需要單獨去計算一個卷積，而是一個固定大小的權(quán)重矩陣去圖像上匹配時，這個操作與卷積類似，因此我們稱為卷積神經(jīng)網(wǎng)絡(luò)，實際上，BP也可以看做一種特殊的卷積神經(jīng)網(wǎng)絡(luò)，只是這個卷積核就是某層的所有權(quán)重，即感知區(qū)域是整個圖像。權(quán)重共享策略減少了需要訓(xùn)練的參數(shù)，使得訓(xùn)練出來的模型的泛華能力更強(qiáng)。

采樣的目的主要是混淆特征的具體位置，因為某個特征找出來后，它的具體位置已經(jīng)不重要了，我們只需要這個特征與其他的相對位置，比如一個“8”，當(dāng)我們得到了上面一個”o”時，我們不需要知道它在圖像的具體位置，只需要知道它下面又是一個“o”我們就可以知道是一個’8′了，因為圖片中”8″在圖片中偏左或者偏右都不影響我們認(rèn)識它，這種混淆具體位置的策略能對變形和扭曲的圖片進(jìn)行識別。

CNN的這三個特點是其對輸入數(shù)據(jù)在空間（主要針對圖像數(shù)據(jù)）上和時間（主要針對時間序列數(shù)據(jù)，參考TDNN）上的扭曲有很強(qiáng)的魯棒性。CNN一般采用卷積層與采樣層交替設(shè)置，即一層卷積層接一層采樣層，采樣層后接一層卷積…這樣卷積層提取出特征，再進(jìn)行組合形成更抽象的特征，最后形成對圖片對象的描述特征，CNN后面還可以跟全連接層，全連接層跟BP一樣。下面是一個卷積神經(jīng)網(wǎng)絡(luò)的示例：

圖1（圖片來源）

卷積神經(jīng)網(wǎng)絡(luò)的基本思想是這樣，但具體實現(xiàn)有多重版本，我參考了matlab的Deep Learning的工具箱DeepLearnToolbox，這里實現(xiàn)的CNN與其他最大的差別是采樣層沒有權(quán)重和偏置，僅僅只對卷積層進(jìn)行一個采樣過程，這個工具箱的測試數(shù)據(jù)集是MINIST，每張圖像是28*28大小，它實現(xiàn)的是下面這樣一個CNN：

圖2

2、網(wǎng)絡(luò)初始化

CNN的初始化主要是初始化卷積層和輸出層的卷積核（權(quán)重）和偏置，DeepLearnToolbox里面對卷積核和權(quán)重進(jìn)行隨機(jī)初始化，而對偏置進(jìn)行全0初始化。

3、前向傳輸計算

前向計算時，輸入層、卷積層、采樣層、輸出層的計算方式不相同。

3.1 輸入層：輸入層沒有輸入值，只有一個輸出向量，這個向量的大小就是圖片的大小，即一個28*28矩陣;

3.2 卷積層：卷積層的輸入要么來源于輸入層，要么來源于采樣層，如上圖紅色部分。卷積層的每一個map都有一個大小相同的卷積核，Toolbox里面是5*5的卷積核。下面是一個示例，為了簡單起見，卷積核大小為2*2，上一層的特征map大小為4*4，用這個卷積在圖片上滾一遍，得到一個一個(4-2+1)*（4-2+1）=3*3的特征map，卷積核每次移動一步，因此。在Toolbox的實現(xiàn)中，卷積層的一個map與上層的所有map都關(guān)聯(lián)，如上圖的S2和C3，即C3共有6*12個卷積核，卷積層的每一個特征map是不同的卷積核在前一層所有map上作卷積并將對應(yīng)元素累加后加一個偏置，再求sigmod得到的。還有需要注意的是，卷積層的map個數(shù)是在網(wǎng)絡(luò)初始化指定的，而卷積層的map的大小是由卷積核和上一層輸入map的大小決定的，假設(shè)上一層的map大小是n*n、卷積核的大小是k*k，則該層的map大小是(n-k+1)*(n-k+1)，比如上圖的24*24的map大小24=（28-5+1）。斯坦福的深度學(xué)習(xí)教程更加詳細(xì)的介紹了卷積特征提取的計算過程。

　　圖3

3.3 采樣層（subsampling,Pooling）：采樣層是對上一層map的一個采樣處理，這里的采樣方式是對上一層map的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計，區(qū)域大小為scale*scale，有些實現(xiàn)是取小區(qū)域的最大值，而ToolBox里面的實現(xiàn)是采用2*2小區(qū)域的均值。注意，卷積的計算窗口是有重疊的，而采用的計算窗口沒有重疊，ToolBox里面計算采樣也是用卷積(conv2(A,K,’valid’))來實現(xiàn)的，卷積核是2*2，每個元素都是1/4，去掉計算得到的卷積結(jié)果中有重疊的部分，即：

圖4

4、反向傳輸調(diào)整權(quán)重

反向傳輸過程是CNN最復(fù)雜的地方，雖然從宏觀上來看基本思想跟BP一樣，都是通過最小化殘差來調(diào)整權(quán)重和偏置，但CNN的網(wǎng)絡(luò)結(jié)構(gòu)并不像BP那樣單一，對不同的結(jié)構(gòu)處理方式不一樣，而且因為權(quán)重共享，使得計算殘差變得很困難，很多論文[1][5]和文章[4]都進(jìn)行了詳細(xì)的講述，但我發(fā)現(xiàn)還是有一些細(xì)節(jié)沒有講明白，特別是采樣層的殘差計算，我會在這里詳細(xì)講述。

4.1輸出層的殘差

和BP一樣，CNN的輸出層的殘差與中間層的殘差計算方式不同，輸出層的殘差是輸出值與類標(biāo)值得誤差值，而中間各層的殘差來源于下一層的殘差的加權(quán)和。輸出層的殘差計算如下：

公式來源

這個公式不做解釋，可以查看公式來源，看斯坦福的深度學(xué)習(xí)教程的解釋。

4.2 下一層為采樣層（subsampling）的卷積層的殘差

當(dāng)一個卷積層L的下一層(L+1)為采樣層，并假設(shè)我們已經(jīng)計算得到了采樣層的殘差，現(xiàn)在計算該卷積層的殘差。從最上面的網(wǎng)絡(luò)結(jié)構(gòu)圖我們知道，采樣層（L+1）的map大小是卷積層L的1/（scale*scale），ToolBox里面，scale取2，但這兩層的map個數(shù)是一樣的，卷積層L的某個map中的4個單元與L+1層對應(yīng)map的一個單元關(guān)聯(lián)，可以對采樣層的殘差與一個scale*scale的全1矩陣進(jìn)行克羅內(nèi)克積進(jìn)行擴(kuò)充，使得采樣層的殘差的維度與上一層的輸出map的維度一致，Toolbox的代碼如下，其中d表示殘差，a表示輸出值：

1	net.layers{l}.d{j} = net.layers{l}.a{j} .* (1 - net.layers{l}.a{j}) .* expand(net.layers{l + 1}.d{j}, [net.layers{l + 1}.scale net.layers{l + 1}.scale 1])

擴(kuò)展過程：

圖5

利用卷積計算卷積層的殘差：

圖6

4.3 下一層為卷積層（subsampling）的采樣層的殘差

當(dāng)某個采樣層L的下一層是卷積層(L+1)，并假設(shè)我們已經(jīng)計算出L+1層的殘差，現(xiàn)在計算L層的殘差。采樣層到卷積層直接的連接是有權(quán)重和偏置參數(shù)的，因此不像卷積層到采樣層那樣簡單。現(xiàn)再假設(shè)L層第j個map Mj與L+1層的M2j關(guān)聯(lián)，按照BP的原理，L層的殘差Dj是L+1層殘差D2j的加權(quán)和，但是這里的困難在于，我們很難理清M2j的那些單元通過哪些權(quán)重與Mj的哪些單元關(guān)聯(lián)，Toolbox里面還是采用卷積（稍作變形）巧妙的解決了這個問題，其代碼為：

1	convn(net.layers{l + 1}.d{j}, rot180(net.layers{l + 1}.k{i}{j}), 'full');

rot180表示對矩陣進(jìn)行180度旋轉(zhuǎn)（可通過行對稱交換和列對稱交換完成），為什么這里要對卷積核進(jìn)行旋轉(zhuǎn)，答案是：通過這個旋轉(zhuǎn)，’full’模式下得卷積的正好抓住了前向傳輸計算上層map單元與卷積和及當(dāng)期層map的關(guān)聯(lián)關(guān)系，需要注意的是matlab的內(nèi)置函數(shù)convn在計算卷積前，會對卷積核進(jìn)行一次旋轉(zhuǎn)，因此我們之前的所有卷積的計算都對卷積核進(jìn)行了旋轉(zhuǎn)：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

a = ????1???? 1 ????1???? 1 ????1???? 1 k = ????2???? 3 ????5???? 6 ????8???? 9 >> convn(a,k,'full') ans = ????3???? 6???? 5???? 3 ???12??? 21??? 16???? 9 ???27??? 45??? 33??? 18 ???24??? 39??? 28??? 15 ???15??? 24??? 17???? 9

convn在計算前還會對待卷積矩陣進(jìn)行0擴(kuò)展，如果卷積核為k*k，待卷積矩陣為n*n，需要以n*n原矩陣為中心擴(kuò)展到(n+2(k-1))*(n+2(k-1))，所有上面convn(a,k,’full’)的計算過程如下：

圖7

實際上convn內(nèi)部是否旋轉(zhuǎn)對網(wǎng)絡(luò)訓(xùn)練沒有影響，只要內(nèi)部保持一致（即都要么旋轉(zhuǎn)，要么都不旋轉(zhuǎn)），所有我的卷積實現(xiàn)里面沒有對卷積核旋轉(zhuǎn)。如果在convn計算前，先對卷積核旋轉(zhuǎn)180度，然后convn內(nèi)部又對其旋轉(zhuǎn)180度，相當(dāng)于卷積核沒有變。
為了描述清楚對卷積核旋轉(zhuǎn)180與卷積層的殘差的卷積所關(guān)聯(lián)的權(quán)重與單元，正是前向計算所關(guān)聯(lián)的權(quán)重與單元，我們選一個稍微大一點的卷積核，即假設(shè)卷積層采用用3*3的卷積核，其上一層采樣層的輸出map的大小是5*5，那么前向傳輸由采樣層得到卷積層的過程如下：

圖8

這里我們采用自己實現(xiàn)的convn（即內(nèi)部不會對卷積核旋轉(zhuǎn)），并假定上面的矩陣A、B下標(biāo)都從1開始，那么有：

1 2 3 4 5 6 7 8 9

B11 = A11*K11 + A12*K12 + A13*K13 + A21*K21 + A22*K22 + A23*K23 + A31*K31 + A32*K32 + A33*K33 B12 = A12*K11 + A13*K12 + A14*K13 + A22*K21 + A23*K22 + A24*K23 + A32*K31 + A33*K32 + A34*K33 B13 = A13*K11 + A14*K12 + A15*K13 + A23*K21 + A24*K22 + A25*K23 + A33*K31 + A34*K32 + A35*K33 B21 = A21*K11 + A22*K12 + A23*K13 + A31*K21 + A32*K22 + A33*K23 + A41*K31 + A42*K32 + A43*K33 B22 = A22*K11 + A23*K12 + A24*K13 + A32*K21 + A33*K22 + A34*K23 + A42*K31 + A43*K32 + A44*K33 B23 = A23*K11 + A24*K12 + A25*K13 + A33*K21 + A34*K22 + A35*K23 + A43*K31 + A44*K32 + A45*K33 B31 = A31*K11 + A32*K12 + A33*K13 + A41*K21 + A42*K22 + A43*K23 + A51*K31 + A52*K32 + A53*K33 B32 = A32*K11 + A33*K12 + A34*K13 + A42*K21 + A43*K22 + A44*K23 + A52*K31 + A53*K32 + A54*K33 B33 = A33*K11 + A34*K12 + A35*K13 + A43*K21 + A44*K22 + A45*K23 + A53*K31 + A54*K32 + A55*K33

我們可以得到B矩陣每個單元與哪些卷積核單元和哪些A矩陣的單元之間有關(guān)聯(lián)：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

A11 [K11] [B11] A12 [K12, K11] [B12, B11] A13 [K13, K12, K11] [B12, B13, B11] A14 [K13, K12] [B12, B13] A15 [K13] [B13] A21 [K21, K11] [B21, B11] A22 [K22, K21, K12, K11] [B12, B22, B21, B11] A23 [K23, K22, K21, K13, K12, K11] [B23, B22, B21, B12, B13, B11] A24 [K23, K22, K13, K12] [B23, B12, B13, B22] A25 [K23, K13] [B23, B13] A31 [K31, K21, K11] [B31, B21, B11] A32 [K32, K31, K22, K21, K12, K11] [B31, B32, B22, B12, B21, B11] A33 [K33, K32, K31, K23, K22, K21, K13, K12, K11] [B23, B22, B21, B31, B12, B13, B11, B33, B32] A34 [K33, K32, K23, K22, K13, K12] [B23, B22, B32, B33, B12, B13] A35 [K33, K23, K13] [B23, B13, B33] A41 [K31, K21] [B31, B21] A42 [K32, K31, K22, K21] [B32, B22, B21, B31] A43 [K33, K32, K31, K23, K22, K21] [B31, B23, B22, B32, B33, B21] A44 [K33, K32, K23, K22] [B23, B22, B32, B33] A45 [K33, K23] [B23, B33] A51 [K31] [B31] A52 [K32, K31] [B31, B32] A53 [K33, K32, K31] [B31, B32, B33] A54 [K33, K32] [B32, B33] A55 [K33] [B33]

然后再用matlab的convn(內(nèi)部會對卷積核進(jìn)行180度旋轉(zhuǎn))進(jìn)行一次convn(B,K,’full’)，結(jié)合圖7，看紅色部分，除去0，A11=B’33*K’33=B11*K11，發(fā)現(xiàn)A11正好與K11、B11關(guān)聯(lián)對不對；我們再看一個A24=B’34*K’21+B’35*K’22+B’44*K’31+B’45*K’32=B12*K23+B13*K22+B22*K13+B23*K12，發(fā)現(xiàn)參與A24計算的卷積核單元與B矩陣單元，正好是前向計算時關(guān)聯(lián)的單元，所以我們可以通過旋轉(zhuǎn)卷積核后進(jìn)行卷積而得到采樣層的殘差。

殘差計算出來后，剩下的就是用更新權(quán)重和偏置，這和BP是一樣的，因此不再細(xì)究，有問題歡迎交流。

5、代碼實現(xiàn)

詳細(xì)的代碼不再這里貼了，我依舊放在了github，歡迎參考和指正。我又是在重造車輪了，沒有使用任何第三方的庫類，這里貼一下調(diào)用代碼：

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

public static void runCnn() { ????????//創(chuàng)建一個卷積神經(jīng)網(wǎng)絡(luò) ????????LayerBuilder builder = new LayerBuilder(); ????????builder.addLayer(Layer.buildInputLayer(new Size(28, 28))); ????????builder.addLayer(Layer.buildConvLayer(6, new Size(5, 5))); ????????builder.addLayer(Layer.buildSampLayer(new Size(2, 2))); ????????builder.addLayer(Layer.buildConvLayer(12, new Size(5, 5))); ????????builder.addLayer(Layer.buildSampLayer(new Size(2, 2))); ????????builder.addLayer(Layer.buildOutputLayer(10)); ????????CNN cnn = new CNN(builder, 50); ????????? ????????//導(dǎo)入數(shù)據(jù)集 ????????String fileName = "dataset/train.format"; ????????Dataset dataset = Dataset.load(fileName, ",", 784); ????????cnn.train(dataset, 3);// ????????String modelName = "model/model.cnn"; ????????cnn.saveModel(modelName);??????? ????????dataset.clear(); ????????dataset = null; ????????? ????????//預(yù)測 ????????// CNN cnn = CNN.loadModel(modelName);??? ????????Dataset testset = Dataset.load("dataset/test.format", ",", -1); ????????cnn.predict(testset, "dataset/test.predict"); ????}

6、參考文獻(xiàn)

[1].YANN LECUN. Gradient-Based Learning Applied to Document Recognition.

[2].Shan Sung LIEW. Gender classification: A convolutional neural network approach.

[3] D. H. Hubel and T. N. Wiesel, “Receptive fields, binocular interaction teraction,and functional architecture in the cat’s visual cortex,”

[4] tornadomeet. http://www.cnblogs.com/tornadomeet/p/3468450.html.

[5] Jake Bouvrie. Notes on Convolutional Neural Networks.

[6] C++實現(xiàn)的詳細(xì)介紹. http://www.codeproject.com/Articles/16650/Neural-Network-for-Recognition-of-Handwritten-Digi

[7] matlab DeepLearnToolbox https://github.com/rasmusbergpalm/DeepLearnToolbox

from:??fengfenggirl（@也愛數(shù)據(jù)挖掘）? ?

http://blog.jobbole.com/90186/

轉(zhuǎn)載于:https://www.cnblogs.com/GarfieldEr007/p/5342943.html

總結(jié)

以上是生活随笔為你收集整理的数据挖掘（10）：卷积神经网络算法的一个实现的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： (AIDE)Android Eclips
下一篇： jvm简单笔记(3)