卷積神經(jīng)網(wǎng)絡(luò)cnn從入門到精通_第1頁(yè)
已閱讀1頁(yè),還剩84頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、卷積神經(jīng)網(wǎng)絡(luò)CNN從入門到精通卷積神經(jīng)網(wǎng)絡(luò)算法的一個(gè)實(shí)現(xiàn)前言從理解卷積神經(jīng)到實(shí)現(xiàn)它,前后花了一個(gè)月時(shí)間,現(xiàn)在也還有一些地方?jīng)]有理解透徹,CNN還是有一定難度的,不是看哪個(gè)的博客和一兩篇論文就明白了,主要還是靠自己去專研,閱讀推薦列表在末尾的參考文獻(xiàn)。目前實(shí)現(xiàn)的CNN在MINIT數(shù)據(jù)集上效果還不錯(cuò),但是還有一些bug,因?yàn)樽罱容^忙,先把之前做的總結(jié)一下,以后再繼續(xù)優(yōu)化。卷積神經(jīng)網(wǎng)絡(luò)CNN是DeepLearning的一個(gè)重要算法,在很多應(yīng)

2、用上表現(xiàn)出卓越的效果,[1]中對(duì)比多重算法在文檔字符識(shí)別的效果,結(jié)論是CNN優(yōu)于其他所有的算法。CNN在手寫體識(shí)別取得最好的效果,[2]將CNN應(yīng)用在基于人臉的性別識(shí)別,效果也非常不錯(cuò)。前段時(shí)間我用BP神經(jīng)網(wǎng)絡(luò)對(duì)手機(jī)拍照?qǐng)D片的數(shù)字進(jìn)行識(shí)別,效果還算不錯(cuò),接近98%,但在漢字識(shí)別上表現(xiàn)不佳,于是想試試卷積神經(jīng)網(wǎng)絡(luò)。1、CNN的整體網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)是在BP神經(jīng)網(wǎng)絡(luò)的改進(jìn),與BP類似,都采用了前向傳播計(jì)算輸出值,反向傳播調(diào)整權(quán)重和偏置;C

3、NN與標(biāo)準(zhǔn)的BP最大的不同是:CNN中相鄰層之間的神經(jīng)單元并不是全連接,而是部分連接,也就是某個(gè)神經(jīng)單元的感知區(qū)域來自于上層的部分神經(jīng)單元,而不是像BP那樣與所有的神經(jīng)單元相連接。CNN的有三個(gè)重要的思想架構(gòu):局部區(qū)域感知權(quán)重共享空間或時(shí)間上的采樣局部區(qū)域感知能夠發(fā)現(xiàn)數(shù)據(jù)的一些局部特征,比如圖片上的一個(gè)角,一段弧,這些基本特征是構(gòu)成動(dòng)物視覺的基礎(chǔ)[3];而BP中,所有的像素點(diǎn)是一堆混亂的點(diǎn),相互之間的關(guān)系沒有被挖掘。CNN中每一層的由多

4、個(gè)map組成,每個(gè)map由多個(gè)神經(jīng)單元組成,同一個(gè)map的所有神經(jīng)單元共用一個(gè)卷積核(即權(quán)重),卷積核往往代表一個(gè)特征,比如某個(gè)卷積和代表一段弧,那么把這個(gè)卷積核在整個(gè)圖片上滾一下,卷積值較大的區(qū)域就很有可能是一段弧。注意卷積核其實(shí)就是權(quán)重,我們并不需要單獨(dú)去計(jì)算一個(gè)卷積,而是一個(gè)固定大小的權(quán)重矩陣去圖像上匹配時(shí),這個(gè)操作與卷積類似,因此我們稱為卷積神經(jīng)網(wǎng)絡(luò),實(shí)際上,BP也可以看做一種特殊的卷積神經(jīng)網(wǎng)絡(luò),只是這個(gè)卷積核就是某層的所有權(quán)重

5、,即感知區(qū)域是整個(gè)圖像。權(quán)重共享策略減少了需要訓(xùn)練的參數(shù),使得訓(xùn)練出來的模型的泛華能力更強(qiáng)。采樣的目的主要是混淆特征的具體位置,因?yàn)槟硞€(gè)特征找出來后,它的具體位置已經(jīng)不重要了,我們只需要這個(gè)特征與其他的相對(duì)位置,比如一個(gè)“8”,當(dāng)我們得到了上面一個(gè)“o“時(shí),我們不需要知道它在圖像的具體位置,只需要知道它下面又是一個(gè)“o”我們就可以知道是一個(gè)8了,因?yàn)閳D片中“8“在圖片中偏左或者偏右都不影響我們認(rèn)識(shí)它,這種混淆具體位置的策略能對(duì)變形和扭曲

6、的圖片進(jìn)行識(shí)別。CNN的這三個(gè)特點(diǎn)是其對(duì)輸入數(shù)據(jù)在空間(主要針對(duì)圖像數(shù)據(jù))上和時(shí)間(主要針對(duì)時(shí)間序列數(shù)據(jù),參考TDNN)上的扭曲有很強(qiáng)的魯棒性。CNN一般采用卷積層與map與上層的所有map都關(guān)聯(lián),如上圖的S2和C3,即C3共有612個(gè)卷積核,卷積層的每一個(gè)特征map是不同的卷積核在前一層所有map上作卷積并將對(duì)應(yīng)元素累加后加一個(gè)偏置,再求sigmod得到的。還有需要注意的是,卷積層的map個(gè)數(shù)是在網(wǎng)絡(luò)初始化指定的,而卷積層的map的大

7、小是由卷積核和上一層輸入map的大小決定的,假設(shè)上一層的map大小是nn、卷積核的大小是kk,則該層的map大小是(nk1)(nk1),比如上圖的2424的map大小24=(2851)。斯坦福的深度學(xué)習(xí)教程更加詳細(xì)的介紹了卷積特征提取的計(jì)算過程。圖33.3采樣層(采樣層(subsamplingPooling):采樣層是對(duì)上一層map的一個(gè)采樣處理,這里的采樣方式是對(duì)上一層map的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì),區(qū)域大小為scalescale,有

8、些實(shí)現(xiàn)是取小區(qū)域的最大值,而ToolBox里面的實(shí)現(xiàn)是采用22小區(qū)域的均值。注意,卷積的計(jì)算窗口是有重疊的,而采用的計(jì)算窗口沒有重疊,ToolBox里面計(jì)算采樣也是用卷積(conv2(AKvalid))來實(shí)現(xiàn)的,卷積核是22,每個(gè)元素都是14,去掉計(jì)算得到的卷積結(jié)果中有重疊的部分,即:圖44、反向傳輸調(diào)整權(quán)重反向傳輸過程是CNN最復(fù)雜的地方,雖然從宏觀上來看基本思想跟BP一樣,都是通過最小化殘差來調(diào)整權(quán)重和偏置,但CNN的網(wǎng)絡(luò)結(jié)構(gòu)并不像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論