下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于自編碼器的數(shù)據(jù)降維理論概述目錄TOC\o"1-3"\h\u22653基于自編碼器的數(shù)據(jù)降維理論概述 1252131.1神經(jīng)網(wǎng)絡(luò)理論 1209171.2自編碼器(Auto-Encoder) 1201191.3稀疏編碼理論 2250231.4卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork) 337281.5過擬合與欠擬合 51.1神經(jīng)網(wǎng)絡(luò)理論提到神經(jīng)網(wǎng)絡(luò),可能給人的第一印象是人體的大腦內(nèi)錯(cuò)綜復(fù)雜的神經(jīng)系統(tǒng),人體神經(jīng)網(wǎng)絡(luò)的秘密可能只被人挖掘出一小部分,但是在機(jī)器學(xué)習(xí)的領(lǐng)域,人們可以直接模仿人的神經(jīng)網(wǎng)絡(luò)來建立模型。人們仿照人類的大腦,給模型賦予數(shù)萬神經(jīng)元,這些神經(jīng)元之間的作用與人腦不同的是,可以通過外界條件令神經(jīng)元的結(jié)構(gòu)作出改變,而神經(jīng)網(wǎng)絡(luò)可以通過神經(jīng)元的結(jié)構(gòu)以及神經(jīng)元之間作用的改變,進(jìn)行適應(yīng)性的變化。人類大腦中的神經(jīng)元,承擔(dān)了大腦信息以及人體信號(hào)的傳遞工作,同樣的,計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元也擔(dān)負(fù)著這樣的工作,而且,神經(jīng)元還可以通過訓(xùn)練得到不斷的進(jìn)步,從而能夠敏感地獲取到獨(dú)特的信息或數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)分為輸入層、隱層和輸出層。通過輸出層獲得直觀的結(jié)果,可以了解計(jì)算機(jī)是如何學(xué)習(xí)的。人工干涉可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元,訓(xùn)練過程是神經(jīng)元連續(xù)更新,形成神經(jīng)系統(tǒng)的前向和后向傳播過程。自編碼器是一種基于神經(jīng)網(wǎng)絡(luò)互聯(lián)和協(xié)作形成的算法模型。然后對(duì)隱藏層中的各層進(jìn)行分層訓(xùn)練,在神經(jīng)元數(shù)低于輸入層時(shí),對(duì)高維數(shù)據(jù)進(jìn)行特征提取。自編碼器是由神經(jīng)網(wǎng)絡(luò)的逐層連接、累積和協(xié)作下形成的算法模型。然后,通過對(duì)隱層的逐層訓(xùn)練,在隱層神經(jīng)元數(shù)小于輸入層神經(jīng)元數(shù)的情況下,對(duì)高維數(shù)據(jù)進(jìn)行特征提取。1.2自編碼器(Auto-Encoder)如上文所引出的,自編碼器REF_Ref32336\r\h[5]類屬于神經(jīng)網(wǎng)絡(luò)的一種,基本形式是輸入等于輸出,訓(xùn)練的是其內(nèi)部的神經(jīng)元,得到的輸出結(jié)果是輸入的一種重構(gòu)。自編碼器的主要作用是重構(gòu)輸入,這也是基于其進(jìn)行數(shù)據(jù)降維的概念基礎(chǔ)。然而,自編碼器并不局限于重構(gòu)輸入,輸入數(shù)據(jù)由隱層神經(jīng)元編碼,以得到數(shù)據(jù)的精髓部分,這才是其最主要的結(jié)構(gòu)性功能。圖2-1展示了自編碼器的主要訓(xùn)練流程:圖SEQ圖\*ARABIC2-1自編碼器訓(xùn)練過程如圖可以看出,自編碼器是由編碼器(encoder)和解碼器(decoder)構(gòu)成的,訓(xùn)練過程就是對(duì)輸入數(shù)據(jù)“取其精華,去其糟粕”的過程,解碼器的作用就是將訓(xùn)練得到的“精華”數(shù)據(jù)進(jìn)行解壓,將其還原成可以展示出來的原始信息。我們?cè)诒疚膶?duì)算法的論述,針對(duì)的是前面編碼階段的部分,此部分與數(shù)據(jù)降維關(guān)系較密切,而解碼器的模型,只做展示性論述。1.3稀疏編碼理論稀疏編碼(Sparsecoding)的概念起源于視覺神經(jīng)網(wǎng)絡(luò)的研究,它用來表示多維數(shù)據(jù)中同時(shí)處于活躍狀態(tài)的少量神經(jīng)元。通過建立統(tǒng)計(jì)特征之間的定量關(guān)系,稱為理解神經(jīng)系統(tǒng)信息處理機(jī)制的理論工具。如圖2-2所示,稀疏編碼理論[6]中,一些信號(hào)或圖像被取作本征向量,其部分的基本原子形成標(biāo)準(zhǔn)化的基本矩陣,稱為基。信號(hào)的共軛差積頻率的波形或圖像的組件的邊緣可以形成基本矩陣。圖2-2DAE示范圖稀疏性可以簡單地理解為神經(jīng)元具有激活與抑制兩種狀態(tài),區(qū)別這兩種狀態(tài)的方法是基于神經(jīng)元的輸出,接近1表示激活,接近0表示抑制。稀疏性限制是指神經(jīng)元大部分時(shí)間受到抑制的限制,神經(jīng)元的激活函數(shù)是sigmoid函數(shù)。如圖2-3,某一隱藏層的神經(jīng)元部分收到抑制,并未全部發(fā)揮作用。圖2-3自編碼器的隱層神經(jīng)元受抑制引入稀疏的好處在于其能夠?qū)μ卣鬟M(jìn)行自動(dòng)選擇。學(xué)習(xí)過程,有些信息與數(shù)據(jù)可能與我們需要的輸出無關(guān)或無法提供有用信息,盡管考慮這些信息會(huì)減小最小化目標(biāo)函數(shù)的誤差,但是預(yù)測過程考慮這些無關(guān)信息,可能會(huì)使對(duì)輸出的預(yù)測造成干擾,稀疏化將刪除這些無用的特征,即權(quán)重置0。本文所涉實(shí)驗(yàn)會(huì)將稀疏規(guī)則化算子L1/L2引入輸入層,為了限制編碼器的稀疏性,實(shí)現(xiàn)稀疏編碼。1.4卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork)卷積神經(jīng)網(wǎng)絡(luò)(CNN)又稱“平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)(SIANN)”,也是由生物的視覺神經(jīng)知覺的機(jī)制仿造而來,它具有按層次結(jié)構(gòu)進(jìn)行翻譯不變性分類的能力,是深度學(xué)習(xí)的代表性算法之一。卷積神經(jīng)網(wǎng)絡(luò)(CNN)REF_Ref32767\r\h[6],主要用于處理具有相似網(wǎng)格結(jié)構(gòu)的數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),“卷積”是一種特殊的線性運(yùn)算。計(jì)算機(jī)中的圖形,由于存儲(chǔ)著一些空間關(guān)聯(lián)性的信息,所以是一個(gè)三維數(shù)據(jù),而全連接神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)輸入,是把無論幾維數(shù)據(jù)都攤開為一維數(shù)據(jù),但是攤平的過程中會(huì)忽視圖形形狀,也就是數(shù)據(jù)的波形,這之中可能隱藏著對(duì)我們有用的值得提取的特征,所以卷積神經(jīng)網(wǎng)絡(luò)就要被用來保持形狀的不變。以計(jì)算機(jī)的視覺角度,圖像由許多像素組成,每個(gè)像素有三個(gè)代表RGB原色的通道,如圖2-4的例子,假設(shè)圖像的尺寸為32×32,通道為1,即單色,如果采用全連通的神經(jīng)網(wǎng)絡(luò),結(jié)構(gòu)中的每個(gè)神經(jīng)元都需連接,那么網(wǎng)絡(luò)中就有32個(gè)神經(jīng)元×32=1024個(gè)神經(jīng)元,如果隱層有10個(gè)神經(jīng)元,需要的參數(shù)就有32×32×10×10+10+10=102420個(gè),這對(duì)于計(jì)算機(jī)而言仍是個(gè)恐怖的數(shù)量級(jí),做一次反向傳播要消耗極大的計(jì)算量,這還不是三色的大圖片,如果像素再大些,計(jì)算量難以想象。但其實(shí),拋開傳統(tǒng)網(wǎng)絡(luò)想,那么大量的參數(shù),是否有重復(fù)的現(xiàn)象呢,對(duì)于人識(shí)別人來說,我們看到他的鼻子,嘴巴,眼睛,就可以知道是誰,也就得出一切這個(gè)人的已知信息,這些就是通過局部特征判斷全部特征,且這一過程提取到的是有效的輸入圖像的平移不變特征,符合前面說到的內(nèi)容。我們通過卷積計(jì)算,提取到圖像的局部特征,換言之,不再局限于每個(gè)小像素,而是集成到像素塊中進(jìn)行處理,如圖2-4。每一層都計(jì)算出一小塊像素區(qū)域作為局部特征,再又卷積和池化操作將這些局部特征匯聚到一起作為下一層的卷積層的輸入,一層一層地迭代,一開始的小量特征也不斷變大,最終只需對(duì)局部特征處理就可以得到輸出,這種學(xué)習(xí)方式在提高計(jì)算效率的同時(shí),也提高了計(jì)算精度。圖2-4卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程上圖中,輸入層要對(duì)原始圖像的輸入數(shù)據(jù)進(jìn)行預(yù)處理。卷積層進(jìn)行的是輸入于卷積核的內(nèi)積運(yùn)算,作用是從前一層提取出位移不變特征,以同樣維數(shù)的形式將輸入數(shù)據(jù)傳輸至下一層,CNN通過這種過程理解具有形狀的數(shù)據(jù)。池化層在卷積層后,負(fù)責(zé)將其產(chǎn)生的特征圖尺寸減小,通常以減小一半的運(yùn)算,對(duì)數(shù)據(jù)單元中的有效信息進(jìn)行篩選,將前一層傳過來的若干單元組合成一個(gè)單元。全連接層就是收集空間擴(kuò)散信息,最后由輸出層選擇類。1.5過擬合與欠擬合前面的論述可以看出,假設(shè)是神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)學(xué)習(xí)中的重要手段,而當(dāng)我們?yōu)榱俗非蠹僭O(shè)的一致性而讓假設(shè)變得過于嚴(yán)格的現(xiàn)象,就是過擬合。而對(duì)數(shù)據(jù)學(xué)習(xí)不足就會(huì)造成欠擬合。圖2-5展示
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2026學(xué)年小學(xué)語文統(tǒng)編版一年級(jí)上冊(cè)第八單元達(dá)標(biāo)試卷(附參考答案)
- 崇義中學(xué)高一上學(xué)期第二次月考數(shù)學(xué)試題
- 2025年辦公樓門禁系統(tǒng)服務(wù)協(xié)議
- 塑料產(chǎn)品安全性能提升
- 基于深度學(xué)習(xí)的噪聲抑制
- 多模態(tài)信息檢索
- DB52∕T 1879-2025 酒用高粱優(yōu) 質(zhì)栽培技術(shù)規(guī)程
- 人教版英語八年級(jí)上冊(cè)教學(xué)課件Unit 8 Let's Communicate Section B(Vocabulary in Use)
- 2026 年中職酒店管理(客戶關(guān)系處理)試題及答案
- 濕部崗位試題及答案
- 中醫(yī)診療技術(shù)操作規(guī)程
- CJT 340-2016 綠化種植土壤
- 二年級(jí)上冊(cè)口算練習(xí)1000道
- 2023年11月浙江省慈溪技師學(xué)院(慈溪杭州灣中等職業(yè)學(xué)校)公開招聘1名派遣制工作人員筆試歷年高頻考點(diǎn)-難、易錯(cuò)點(diǎn)薈萃附答案帶詳解
- 農(nóng)業(yè)水價(jià)綜合改革
- 23秋國家開放大學(xué)《液壓氣動(dòng)技術(shù)》形考任務(wù)1-3參考答案
- 廣東省通用安裝工程綜合定額(2018)Excel版
- 21ZJ111 變形縫建筑構(gòu)造
- 2023-2024學(xué)年四川省涼山州小學(xué)語文五年級(jí)期末高分試卷詳細(xì)參考答案解析
- 一大橋塊三角托架計(jì)算書
- GB/T 1443-2016機(jī)床和工具柄用自夾圓錐
評(píng)論
0/150
提交評(píng)論