基于深度學習的圖像識別進展:百度的若干實踐_第1頁
基于深度學習的圖像識別進展:百度的若干實踐_第2頁
基于深度學習的圖像識別進展:百度的若干實踐_第3頁
基于深度學習的圖像識別進展:百度的若干實踐_第4頁
基于深度學習的圖像識別進展:百度的若干實踐_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

國內(nèi)方面,2013年1月,百度成立深度學習研究院,公司CEO李彥宏擔任院長。短短兩年時間,深度學習技術被應用到百度的鳳巢廣告系統(tǒng)、網(wǎng)頁搜索、語音搜索、圖像識別等領域,涵蓋幾十項產(chǎn)品。今天,用戶在百度平臺上的幾乎每個服務請求,都被深度學習系統(tǒng)所處理。人工智能的特征之一是學習的能力,即系統(tǒng)的性能是否會隨著經(jīng)驗數(shù)據(jù)的積累而不斷提升。所以,大數(shù)據(jù)時代的到來給人工智能的發(fā)展提供前所未有的機遇。在這個時代背景下,深度學習在包括圖像識別等方面所取得的突破性進展并非偶然。在百度的實踐中,我們認識到深度學習主要在以下三個方面具有巨大優(yōu)勢:1.從統(tǒng)計和計算的角度看,深度學習特別適合處理大數(shù)據(jù)。在很多問題上,深度學習是目前我們能找到的最好方法。它集中體現(xiàn)了當前機器學習算法的三個大趨勢:用較為復雜的模型降低模型偏差(modelbias),用大數(shù)據(jù)提升統(tǒng)計估計的準確度,用可擴展(scalable)的梯度下降算法求解大規(guī)模優(yōu)化問題。2.深度學習不是一個黑箱系統(tǒng)。它像概率模型一樣,提供一套豐富的、基于聯(lián)接主義的建模語言(建模框架)。利用這套語言系統(tǒng),我們可以表達數(shù)據(jù)內(nèi)在的豐富關系和結(jié)構(gòu),比如用卷積處理圖像中的二維空間結(jié)構(gòu),用遞歸神經(jīng)網(wǎng)絡(RecurrentNeuralNetwork,RNN)處理自然語言等數(shù)據(jù)中的時序結(jié)構(gòu)。3.深度學習幾乎是唯一的端到端機器學習系統(tǒng)。它直接作用于原始數(shù)據(jù),自動逐層進行特征學習,整個過程直接優(yōu)化某個目標函數(shù)。而傳統(tǒng)機器學習往往被分解為幾個不連貫的數(shù)據(jù)預處理步驟,比如人工抽取特征,這些步驟并非一致地優(yōu)化某個整體的目標函數(shù)。讓計算機識別和理解圖像,是人工智能最重要的目標之一。尤其是在移動互聯(lián)網(wǎng)時代,智能手機上的攝像頭將人們?nèi)粘?吹降氖澜绮蹲较聛?,圖像和視頻數(shù)據(jù)暴增,造就了圖像大數(shù)據(jù)時代。計算機視覺的主要內(nèi)容就是圖像識別:一方面,這個技術使得計算機像人類視覺系統(tǒng)一樣,具有“看懂”世界的能力,從而能自主適應環(huán)境、改造環(huán)境;另一方面,依靠識別圖像內(nèi)容,可以幫助我們更好地了解人,比如,通過用戶產(chǎn)生的拍照內(nèi)容了解用戶的行為和喜好,或者通過識別用戶手勢理解用戶的意圖。借助圖像識別讓互聯(lián)網(wǎng)服務更好地理解世界、洞察用戶,也是百度深度學習研究院重點投入的技術研發(fā)方向之一。有意思的是,深度學習研究的初衷主要就是應用于圖像識別。迄今為止,盡管深度學習已經(jīng)被應用到語音、圖像、文字等方面,但深度學習領域發(fā)表的論文中大約70%是關于圖像識別的。從2012年的ImageNet[2]競賽開始,深度學習在圖像識別領域發(fā)揮出巨大威力,在通用圖像分類、圖像檢測、光學字符識別(OpticalCharacterRecognition,OCR)、人臉識別等領域,最好的系統(tǒng)都是基于深度學習的。前面所述深度學習的三大優(yōu)勢,在最近圖像識別的進展中體現(xiàn)得淋漓精致:模型結(jié)構(gòu)越來越復雜,訓練數(shù)據(jù)規(guī)模也不斷增加;各種關于數(shù)據(jù)結(jié)構(gòu)的先驗知識被體現(xiàn)到新的模型結(jié)構(gòu)中;端到端學習讓我們越來越摒棄基于人工規(guī)則的中間步驟。百度深度學習研究院在基于深度學習的圖像識別課題上開展了大量工作,并取得豐碩成果。在將基于深度學習的圖像識別應用于圖像搜索、網(wǎng)頁搜索、百度魔圖、涂書筆記、作業(yè)幫、百度街景等互聯(lián)網(wǎng)產(chǎn)品以及百度眼鏡(BaiduEye)、自動駕駛等創(chuàng)新性研究項目方面,也積累了豐富經(jīng)驗。下面與大家分享若干個技術實踐。圖像分類(imageclassification)和物體檢測(objectdetection)是圖像識別的兩個核心問題。前者主要對圖像整體的語義內(nèi)容進行類別判定,后者則定位圖像中特定物體出現(xiàn)的區(qū)域并判定其類別。與圖像分類相比,物體檢測更加關注圖像的局部區(qū)域和特定的物體類別集合,被視為更加復雜的圖像識別問題。兩項技術在信息檢索、廣告投放、用戶分析、商品推薦等互聯(lián)網(wǎng)應用中大有用武之地。在物體檢測方面,如圖2所示,目前主流的算法大都采用掃描窗或是候選窗方法[8],選取圖像中許多大小位置不同的子區(qū)域進行分類(某種物體或是背景),最終得到感興趣的物體出現(xiàn)的位置區(qū)域。掃描窗方法能夠在相鄰窗口之間共享特征,可以快速地掃描較大面積的圖像;候選窗方法能夠高效地在圖像候選區(qū)域內(nèi)進行識別,更為靈活地處理物體長寬比的變化,從而獲得較高的交并比覆蓋率。掃描窗和候選窗都是將物體檢測問題歸結(jié)為圖像分類問題予以解決,因此,卷積神經(jīng)網(wǎng)絡同樣可以在物體檢測中大放異彩。在ImageNet2014[2]的物體檢測競賽中,百度研發(fā)的物體檢測算法在采用優(yōu)化的候選框產(chǎn)生算法基礎上,加上一個10層卷積神經(jīng)網(wǎng)絡模型,結(jié)合圖像的上下文信息,平均精度達到40.3%。1.模型層次不斷加深。2012年,艾利克斯(Alex)獲得當年ImageNet競賽冠軍時用的網(wǎng)絡使用了5個卷積層(另外包括3個pool層和2個norm層)。而到2014年,獲得冠軍的GoogleNet[5]使用了59個卷積層(另外包括16個pool層和2個norm層)。第二名的VGG[9]也使用19個卷積層,并獲得較好的性能。模型深度的重要性不言而喻。2.模型結(jié)構(gòu)日趨復雜。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡模型多使用簡單的conv-pool-norm結(jié)構(gòu)進行堆砌,GoogleNet[5]的結(jié)果表明,并行多分辨率的inception結(jié)構(gòu)能夠融合圖像在不同尺度上的有效信息,而NIN(network-in-network)[10]結(jié)構(gòu)則通過低秩分解對較大參數(shù)規(guī)模的卷積層進行參數(shù)壓縮,大大減小模型參數(shù)規(guī)模。這樣做,一方面能夠降低過擬合程度,提高模型的推廣能力,另一方面則為大規(guī)模并行訓練提供非常有利的條件。3.海量的標注數(shù)據(jù)和適當?shù)臄?shù)據(jù)擾動。ImageNet2012分類競賽的訓練數(shù)據(jù)包含120萬左右的標注樣本,而ImageNet全庫目前已經(jīng)收集將近2.2萬個類別共約1420萬圖像。但僅有這些數(shù)據(jù)仍不足以避免參數(shù)規(guī)模龐大的深度學習模型的過訓練現(xiàn)象。結(jié)合圖像數(shù)據(jù)的特點,包括平移、水平翻轉(zhuǎn)、旋轉(zhuǎn)、縮放等數(shù)據(jù)擾動方式被用于產(chǎn)生更多有效的訓練數(shù)據(jù),能夠普遍提高識別模型的推廣能力。值得一提的是,百度利用并行分布式深度學習平臺(PArallelDistributedDeepLEarning,PADDLE),收集建立起規(guī)模更大、更符合個人電腦和移動互聯(lián)網(wǎng)特點的圖像數(shù)據(jù)倉庫,這些數(shù)據(jù)結(jié)合深度學習算法產(chǎn)出的各種圖像分類和物體檢測模型,已經(jīng)廣泛服務于許多與圖像有關的百度產(chǎn)品線。以互聯(lián)網(wǎng)色情圖片過濾為例,我們的訓練數(shù)據(jù)囊括了1.2億幅色情圖像,分類精度達99.4%。光學字符識別的概念早在20世紀20年代便被提出,一直是模式識別領域研究中極具代表性的重要課題。近些年,隨著移動互聯(lián)網(wǎng)的發(fā)展,光學字符識別技術的應用場景也從傳統(tǒng)的辦公領域(例如郵政編碼、書籍掃描和文檔傳真)逐漸滲入日常生活,產(chǎn)生出許多以手機拍照光學字符識別作為入口的文字信息錄入及查詢類應用。經(jīng)典的光學字符識別系統(tǒng)的流程和技術框架如圖3所示,從輸入圖像到輸出最終的文字識別結(jié)果,歷經(jīng)版面分析、行分割、字分割、單字識別、語言模型解碼和后處理。涉及的技術分為基于經(jīng)驗制定的規(guī)則和基于統(tǒng)計學習的模型[11]兩大類。前者包括系統(tǒng)預處理階段(版面分析、行分割、字分割)的二值化、連通域分析、投影分析等,以及后處理階段的規(guī)則噪聲過濾器;后者包括基于類方向梯度直方圖(HistogramofOrientedGradient,HOG)特征的單字識別引擎[12]和基于N-gram的語言模型,用于單字識別和語言模型解碼階段。在以印刷體文檔掃描識別為代表的光學字符識別傳統(tǒng)應用場景中,版面結(jié)構(gòu)的規(guī)則性較強,字形、字體的一致性較高,而文字同背景的區(qū)分性又較好。在數(shù)據(jù)簡單、條件可控的情況下,經(jīng)典的光學字符識別技術架構(gòu)通過細致的人工規(guī)則制定和適量的模型參數(shù)學習,便可以達到比較理想的識別精度。但在廣泛的自然場景中,文字呈現(xiàn)出的圖像信息復雜度顯著增大(版面缺失、藝術字手寫體常見、文字周邊背景復雜),而拍攝圖像的條件又得不到很好的控制(拍攝角度、距離導致的形變,攝像頭品質(zhì)性能存在巨大差異,光照和陰影變化復雜),經(jīng)典的光學字符識別技術架構(gòu)難以滿足實際應用的需求。究其原因,是這一技術架構(gòu)的處理流程繁瑣冗長導致錯誤不斷傳遞,以及過分倚重人工規(guī)則卻輕視大規(guī)模數(shù)據(jù)訓練所致。針對復雜場景的特點和經(jīng)典技術框架的不足,我們對光學字符識別的系統(tǒng)流程和技術框架進行了大幅改造(見圖4)。在系統(tǒng)流程方面,引入文字檢測概念,和行分割合并成新的預處理模塊,任務是檢測圖像中包含文字的區(qū)域并生成相應文字行;將字分割和單字識別合并成新的整行識別模塊;基于N-gram的語言模型解碼模塊予以保留,但將主要依賴人工規(guī)則的版面分析和后處理模塊從系統(tǒng)中刪除。6個步驟減少到3個步驟,降低了傳遞誤差造成的不良影響。作為預處理步驟,新引入的文字行檢測模塊需要在復雜的自然圖像中準確地提取長短不一的文字行區(qū)域。我們摒棄傳統(tǒng)的二值化和連通域等基于規(guī)則的方法,采用基于學習的Boosting、卷積神經(jīng)網(wǎng)絡結(jié)合圖模型(graphicmodel)的思路解決這一問題,并在權(quán)威的公開評測中大幅超越之前最好的文字檢測方法。此外,由于整行文字識別是一個序列學習(sequencelearning)問題,我們有針對性地研發(fā)出基于雙向長短期記憶神經(jīng)網(wǎng)絡(BidirectionalLongShort-termMemory,BLSTM)[13]5所示,這一序列學習模型極其擅長識別字分割比較困難的文字序列,甚至包括潦草的手寫電話號碼。此外,這一序列學習模型還使得訓練數(shù)據(jù)的標注難度大為降低,便于收集更大規(guī)模的訓練數(shù)據(jù)。不同語言(即便字詞、句子的長短結(jié)構(gòu)迥異)光學字符識別問題也可以納入同一個技術框架內(nèi)統(tǒng)一解決,大幅降低系統(tǒng)維護成本。深度學習近年在語音識別、圖像識別、機器翻譯等領域取得的突破性進展,引發(fā)工業(yè)界尤其是互聯(lián)網(wǎng)行業(yè)的廣泛興趣,谷歌、百度、臉譜紛紛成立專門的深度學習技術研究部門。深度學習技術應用于互聯(lián)網(wǎng)產(chǎn)品,可大大增強用戶體驗,進一步吸引更多用戶,以及由此產(chǎn)生更多的反饋,讓我們能夠大量收集數(shù)據(jù),高效地使用這些數(shù)據(jù)使得我們有機會訓練高度復雜的模型來處理更具挑戰(zhàn)的人工智能任務。為了實現(xiàn)這種產(chǎn)品、用戶、數(shù)據(jù)的正反饋,應用深度學習需要解決三個不同維度的挑戰(zhàn)。首先,底層計算維度。相對于每時每刻都在飛速增長的數(shù)據(jù),計算機單機的計算能力遠遠無法滿足需要,超大規(guī)模的并行計算勢在必行。其次,算法模型開發(fā)維度。隨著越來越廣泛的關注、大量研究機構(gòu)的投入,深度學習成為人工智能最活躍的領域。新的算法模型不斷涌現(xiàn),新的、好的結(jié)果不斷刷新,需要迅速開發(fā)、迭代新的方法模型。第三,一線業(yè)務部門應用維度。互聯(lián)網(wǎng)每天都在產(chǎn)生新的產(chǎn)品、新的應用,將深度學習高效、便捷地整合到不同的產(chǎn)品和應用中面臨新的挑戰(zhàn)。百度深度學習研究院開發(fā)并行分布式深度學習平臺(見圖6)的初衷就是為了應對這些挑戰(zhàn)。它支持超大規(guī)模并行深度學習優(yōu)化(數(shù)據(jù)的分布、模型的分布),支持CPU/GPU混合計算、對不同類型數(shù)據(jù)(如文本、圖像、聲音等)的優(yōu)化、豐富靈活的網(wǎng)絡類型(如卷積神經(jīng)網(wǎng)絡、遞歸神經(jīng)網(wǎng)絡等)、各類主流多機優(yōu)化算法(如SGD,ASGD,LBFGS等)。在并行分布式深度學習平臺上,為了應對計算上的挑戰(zhàn),我們在多個層次上(多線程、單機多GPU、CPU/GPU混合、CPU/GPU集群)實現(xiàn)的并行計算,針對不同類型的數(shù)據(jù)(文本、語音、圖像、視頻)采用不同策略優(yōu)化模型,使我們能夠最大限度地為各種計算任務優(yōu)化計算資源。同時,為了應對不斷涌現(xiàn)的新模型、新算法,我們實現(xiàn)了靈活的系統(tǒng)框架,開發(fā)者可以方便地復用以前的代碼靈活地增加新算法、新模型,并且以近乎透明的方式使用各種計算資源以及并行分布式深度學習平臺的優(yōu)化策略?;ヂ?lián)網(wǎng)每天都在產(chǎn)生海量數(shù)據(jù),既有語音、圖像、視頻這種稠密的自然數(shù)據(jù),也有文本、社交關系這種稀疏的人為數(shù)據(jù)。尤其是后者,通常是高維稀疏且不斷增加、變化的(譬如新的概念、詞語、人物),給深度學習的應用帶來巨大挑戰(zhàn)。一方面,為了更好地處理海量稠密數(shù)據(jù),并行分布式深度學習平臺支持使用多機多GPU卡對大規(guī)模神經(jīng)網(wǎng)絡進行快速優(yōu)化,通過計算和通訊的并行以及流化大塊數(shù)據(jù)的多級通訊(GPU到主機,主機直接網(wǎng)絡傳輸,主機到GPU),充分降低了通訊開銷,有效提升了訓練速度。另一方面,根據(jù)高維稀疏數(shù)據(jù)的特點,并行分布式深度學習平臺還提出并實現(xiàn)了許多非常具有針對性的體系結(jié)構(gòu)和算法:1.由于海量的高維數(shù)據(jù)需要規(guī)模極大的模型與之匹配,因此模型和數(shù)據(jù)只能分布式地存儲在大量的節(jié)點上。稀疏的數(shù)據(jù)與隨之而來的稀疏梯度一起,使調(diào)度節(jié)點間的通信變得十分復雜。并行分布式深度學習平臺針對這種復雜的場景進行了精巧的優(yōu)化,可以不斷地擴大模型和數(shù)據(jù)的規(guī)模。2.盡管有海量的數(shù)據(jù),但是由于數(shù)據(jù)的稀疏性,過擬合仍然是需要時刻警惕的問題。并行分布式深度學習平臺在實踐中摸索出一套在多機并行稀疏數(shù)據(jù)情況下,控制模型規(guī)模和復雜度的算法。在提高模型泛化能力的同時,減小模型規(guī)模,減輕給線上系統(tǒng)性能帶來的壓力。3.并行分布式深度學習平臺對同時需要稠密矩陣運算和稀疏矩陣運算的場景進行了優(yōu)化。在一個復雜網(wǎng)絡里,針對不同層的特點,靈活地配置、使用CPU或GPU進行計算,為在多模態(tài)(文本、圖像、視頻)下大規(guī)模應用深度學習奠定基礎。并行分布式深度學習平臺取得的成果以及未來并行分布式深度學習平臺高效的性能,尤其是對于稀疏數(shù)據(jù)的特別優(yōu)化,使得深度學習應用到工業(yè)級別的廣告點擊預估、網(wǎng)頁搜索排序,大大提高數(shù)據(jù)的規(guī)模、速度、泛化結(jié)果。同時,并行分布式深度學習平臺靈活的系統(tǒng)框架大大降低了開發(fā)使用的門檻,讓深度學習技術在百度知道、百度殺毒等產(chǎn)品上得到迅速推廣。隨著深度學習在物體識別、自然語言處理領域的應用不斷取得突破,未來的深度學習不僅會像人一樣去聽、去讀、去看、去感知,更將會不斷地在更大的規(guī)模上處理海量的數(shù)據(jù);新的計算總結(jié)和展望過去幾年,得益于深度學習算法,圖像識別技術的研究和應用飛速發(fā)展。圖像標注、目標檢測、物體分割、姿態(tài)估計、人臉識別、光學字符識別,幾乎所有經(jīng)典的圖像識別技術都在深度學習算法的幫助下取得突破性進展。谷歌、臉譜、微軟、亞馬遜、百度都投入巨資收購和建設以圖像識別為主要課題的人工智能技術團隊,各種以圖像識別技術為賣點的初創(chuàng)公司更是如雨后春筍般涌現(xiàn);拍照搜索、視頻監(jiān)控、智能家居、機器人、增強現(xiàn)實,圖像識別技術以前所未有的速度與廣度向日常生活滲透,不斷孕育令人印象深刻的新科技產(chǎn)品。在這股大潮中,百度結(jié)合自身特點進行了大量實踐,獲得許多頗具價值的經(jīng)驗和知識:豐富的圖像擾動是我們將關于圖像的先驗知識用于深度學習輸入端的有效手段不同于許多其他數(shù)據(jù),圖像和視頻在時間、空間維度上具有良好的連續(xù)性和結(jié)構(gòu)性,且包含大量冗余信息。無論使用平移和翻轉(zhuǎn),還是旋轉(zhuǎn)、縮放、高斯和椒鹽噪音、錯切等圖像處理變換,都能夠產(chǎn)生大量有效的訓練數(shù)據(jù),增強深度學習模型的魯棒性。結(jié)構(gòu)化損失函數(shù)是我們將模型化知識用于深度學習輸出端的有效方式無論是序列解碼還是圖模型預測,采用人工模型對深度學習模型輸出進行后處理時,具有針對性的結(jié)構(gòu)化損失函數(shù)往往能夠幫助深度學習過程更快地收斂到更加理想的狀態(tài)。參數(shù)的稀疏化、圖像的多分辨率通道、多任務的聯(lián)合學習是我們將關于問題的認知和理解注入到深度學習模型結(jié)構(gòu)中的有效方式全卷積模型中的低秩約束和全聯(lián)通層中的L1正則約束已經(jīng)在許多大模型訓練中獲得很好的效果,而多分辨率的卷積模型也在圖像分類、目標檢測和物體分割等問題中展現(xiàn)出傳統(tǒng)單分辨率模型不具備的優(yōu)勢,多任務的聯(lián)合學習更是使各種任務在深度學習模型中不同層面上相互幫助和約束。從沒有感知域(receptivefield)的深度神經(jīng)網(wǎng)絡,到固定感知域的卷積神經(jīng)網(wǎng)絡,再到可變感知域的遞歸神經(jīng)網(wǎng)絡,深度學習模型在各種圖像識別問題中不斷演進。曾經(jīng)爆炸式增長的參數(shù)規(guī)模逐步得到有效控制,人們將關于圖像的先驗知識逐漸用于深度學習,大規(guī)模并行化計算平臺愈加成熟,這些使我們能夠從容應對大數(shù)據(jù)條件下的圖像識別問題。展望未來,基于深度學習的圖像識別問題可圍繞如下幾個重點展開:增強學習大規(guī)模弱標注和部分標注數(shù)據(jù)的應用隨著模型規(guī)模的不斷增大,獲取大規(guī)模帶標注的訓練數(shù)據(jù)成為一道難題。和傳統(tǒng)的強標注數(shù)據(jù)不同,在互聯(lián)網(wǎng)場景中,以用戶點擊數(shù)據(jù)為代表,我們很容易獲取大量包含噪音的弱標注數(shù)據(jù),以及只有部分相關信息被標注的訓練數(shù)據(jù)。采用適當?shù)木W(wǎng)絡模型和結(jié)構(gòu)化損失函數(shù),是充分利用這些帶有瑕疵但規(guī)模驚人的標注數(shù)據(jù)的關鍵。低層視覺和高層視覺的廣泛結(jié)合以深度信息、立體視覺、光流場、圖像分割等為代表的底層視覺方法將在深度學習框架下同語義級別的高層視覺廣泛結(jié)合,大大提高圖像識別系統(tǒng)的通用性和魯棒性。適合進行深度學習模型計算的硬件高速發(fā)展最近幾個月,英特爾、英偉達和高通都宣布其硬件產(chǎn)業(yè)布局將為更好地支持深度學習計算而服務,開發(fā)速度更快、體積更小、更省電的計算硬件單元,聚焦于智能汽車、無人機、智能家居、可穿戴式設備等新興電子消費品市場。毫無疑問,基于深度學習算法的圖像識別技術已經(jīng)為人工智能領域中“感知”這一核心問題開啟全新局面。隨著理論和實踐的不斷深入、硬件和產(chǎn)品的不斷推動,以圖像識別為首的各種感知技術將很快填平現(xiàn)實物理世界和虛擬網(wǎng)絡世界之間的溝壑,迎來人工智能全面爆發(fā)的時代?!龆即簖堄噍W南羅恒其他作者:張健黃暢徐偉余凱

[1]GeoffreyE.Hinton,andRuslanR.Salakhutdinov.Reducingthedimensionalityofdatawithneuralnetworks.Science313.5786(2006):504~507.[2]OlgaRussakovsky,JiaDeng,HaoSu,andetal..ImageNetLargeScaleVisualRecognitionChallenge.arXiv:1409.0575,2014.[3]J.Yang,K.Yu,Y.Gong,T.Huang,Linearspatialpyramidmatchingusingsparsecodingforimageclassification.ComputerVisionandPatternRecognition,2009.[4]AlexKrizhevsky,IlyaSutskever,andGeoffreyE.Hinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.Advancesinneuralinformationprocessingsystems.2012.[5]SzegedyChristian,etal.Goingdeeperwithconvolutions.arXivpreprintarXiv:1409.4842(2014).[6]

http://karpathy.github.io/2014/09/02/what-i-learned-from-competing-against-a-convnet-on-imagenet/.[7]

/2015/01/02/cifar-10-competition-winners-interviews-with-dr-ben-graham-phil-culliton-zygmunt-zajac/.[8]R.Girshick,J.Donahue,T.Darrell,etal.Richfeaturehierarchiesforaccurateobjectdetectionandsemanticsegmentation.arXivpreprintarXiv:1311.2524,2013.[9]SimonyanK,ZissermanA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.arXivpreprintarXiv:1409.1556,2014.[10]M.Lin,Q.Chen,S.Yan,NetworkInNetwork.arXivpreprintarXiv:1312.4400,2013.[11]GuoHong,DingXiaoqing,ZhangZhong,andetal..RealizationofAHigh-PerformanceBilingualChinese-EnglishOCRSystem,ProceedingsoftheThirdInternationalConferenceonDocumentAnalysisandRecognition,978~981.[12]H.Liu,X.Ding,Handwrittencharacterrecognitionusinggradientfeatureandquadraticclassifierwithmultiplediscriminationschemes,in:Proceedingsofthe8thICDAR,Seoul,Korea,2005:19~23.[

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論