深度學(xué)習(xí)-0417教學(xué)文案_第1頁(yè)
深度學(xué)習(xí)-0417教學(xué)文案_第2頁(yè)
深度學(xué)習(xí)-0417教學(xué)文案_第3頁(yè)
深度學(xué)習(xí)-0417教學(xué)文案_第4頁(yè)
深度學(xué)習(xí)-0417教學(xué)文案_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

深度學(xué)習(xí)-0417人工智能——為機(jī)器賦予人的智能人工智能、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)深度學(xué)習(xí)1950's1960's1970's1980's1990's2000's2010's模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的技術(shù)科學(xué);讓機(jī)器象人一樣思考應(yīng)用:國(guó)際跳棋程序人工智能的分支,研究機(jī)器模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)技能,并改善自身性能應(yīng)用:垃圾郵件過(guò)濾一種機(jī)器學(xué)習(xí)方法,模擬人腦機(jī)制解釋數(shù)據(jù),通過(guò)組合低層特征形成更加抽象的高層屬性類別或特征應(yīng)用:谷歌視頻尋貓訓(xùn)練階段:輸入大量帶標(biāo)注動(dòng)物圖片,訓(xùn)練網(wǎng)絡(luò)學(xué)會(huì)辨別推理階段:輸入未標(biāo)注圖片提取圖片內(nèi)容的低層特征,如輪廓分析提取高層的結(jié)構(gòu)特征,如四肢分析獲得頂層的抽象概念,如動(dòng)物類型基于前期訓(xùn)練結(jié)果,預(yù)測(cè)圖片內(nèi)容深度學(xué)習(xí)的流程深度學(xué)習(xí)典型算法為卷積神經(jīng)網(wǎng)絡(luò),以2層卷積為例,算法為:輸入圖像與濾波器、偏置進(jìn)行卷積,產(chǎn)生卷積層的特征映射圖卷積層特征映射圖經(jīng)求和,加權(quán)值,偏置,函數(shù)處理得到采樣層采樣層重復(fù)上述流程處理后產(chǎn)生新的采樣層全連接層提取歸類獲得足夠好的高層特征表達(dá)信息深度學(xué)習(xí)的算法一層卷積學(xué)到的特征是局部的,層數(shù)越高,特征就越全局化。卷積和采樣具體過(guò)程為:卷積過(guò)程:濾波器fx卷積輸入圖像后,加偏置項(xiàng)bx,得卷積層Cx采樣過(guò)程:每鄰域4個(gè)像素求和得一個(gè)像素,通過(guò)標(biāo)量Wx+1加權(quán),加偏置項(xiàng)bx+1,通過(guò)sigmoid激活函數(shù)產(chǎn)生縮小4倍的特征圖Sx+1深度學(xué)習(xí)的算法深度學(xué)習(xí)開(kāi)源框架層出不窮,用來(lái)實(shí)現(xiàn)深度學(xué)習(xí)算法避免重復(fù)工作,降低算法門檻Google、Microsoft、Facebook等均發(fā)布深度學(xué)習(xí)框架谷歌TensorFlow占絕對(duì)優(yōu)勢(shì)強(qiáng)大的人工智能研發(fā)水平、快速的迭代更新深度學(xué)習(xí)的開(kāi)源框架谷歌2015年底發(fā)布開(kāi)源深度學(xué)習(xí)框架TensorFlowTensor(張量):多維數(shù)組在高維空間的數(shù)學(xué)運(yùn)算Flow(流):基于數(shù)據(jù)流圖的計(jì)算TensorFlow關(guān)鍵特性代碼簡(jiǎn)潔多語(yǔ)言支持分布式算法執(zhí)行效率高移值靈活伸縮性好支持多種神經(jīng)網(wǎng)絡(luò)算法深度學(xué)習(xí)的開(kāi)源框架報(bào)告提綱深度學(xué)習(xí)概念及其算法1深度學(xué)習(xí)硬件加速方式2典型神經(jīng)網(wǎng)絡(luò)芯片介紹3深度學(xué)習(xí)硬件加速方式當(dāng)前深度學(xué)習(xí)硬件加速方式主要有CPU、GPU、FPGA、DSP、ASIC深度學(xué)習(xí)硬件加速方式——CPU通用級(jí)加速方式,高度靈活性和易用性架構(gòu)上有先天弱勢(shì)運(yùn)算能力較弱訪存帶寬受限代表:IntelXeonPhi系列芯片、高通驍龍820案例:GoogleBrain項(xiàng)目用16000個(gè)CPUCore的并行計(jì)算平臺(tái)保證訓(xùn)練算法速度,通過(guò)觀看YouTube的視頻,識(shí)別出貓SIMD方式,計(jì)算能力強(qiáng),并行度支持好通用性,并非針對(duì)深度學(xué)習(xí)運(yùn)行效率受影響能耗仍較大代表:NVIDIATeslaP100GPU案例:基于GPU深度學(xué)習(xí)加速受到谷歌、微軟、IBM以及百度等企業(yè)青睞;在汽車和先進(jìn)駕駛輔助系統(tǒng)(ADAS)方面與眾多車企進(jìn)行合作深度學(xué)習(xí)硬件加速方式——GPU能效較高且硬件配置靈活頂級(jí)GPU性能的1/5,能效相當(dāng)相比CPU,性能提升1個(gè)數(shù)量級(jí),能效提升2個(gè)數(shù)量級(jí)增長(zhǎng)的門資源和內(nèi)存帶寬帶來(lái)更大的設(shè)計(jì)空間省去ASIC方案所需流片過(guò)程代表:DeephiTech(深鑒科技)、Xilinx、Altera案例:微軟用AlteraFPGA實(shí)現(xiàn)基于卷積神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)中心加速,效能優(yōu)異。算法用于圖像分類、圖像識(shí)別及自然語(yǔ)言處理深度學(xué)習(xí)硬件加速方式——FPGA用傳統(tǒng)SIMD/DSP架構(gòu)來(lái)適配運(yùn)算邏輯作修改,以適用卷積神經(jīng)網(wǎng)絡(luò)對(duì)深度學(xué)習(xí)全面計(jì)算能力支持不足核心數(shù)量較少,并行性支持較差代表:Cadence的TensilicaVisionP5處理器、Synopsys的EV處理器、中星微視頻處理芯片星光智能一號(hào)案例:星光智能一號(hào)廣泛應(yīng)用于高清視頻監(jiān)控、智能駕駛輔助、無(wú)人機(jī)、機(jī)器人等嵌入式機(jī)器視覺(jué)領(lǐng)域深度學(xué)習(xí)硬件加速方式——DSP阻礙深度學(xué)習(xí)發(fā)展的瓶頸仍是算法速度傳統(tǒng)處理器需要多條指令才能完成一個(gè)神經(jīng)元的處理ASIC根據(jù)深度學(xué)習(xí)算法定制:處理效率、能效均最高代表:Cambricon(寒武紀(jì)科技)DianNao芯片、谷歌的TPU芯片、HorizonRobotics(地平線機(jī)器人)BPU芯片案例:基于TPU的AlphaGo與圍棋冠軍李世石人機(jī)大戰(zhàn),總比分4:1獲勝深度學(xué)習(xí)硬件加速方式——ASIC深度學(xué)習(xí)硬件加速方式比較加速方式優(yōu)點(diǎn)缺點(diǎn)CPU通用結(jié)構(gòu)、可獨(dú)立工作通用性導(dǎo)致效率和能效比低GPU強(qiáng)大的并行計(jì)算能力通用性導(dǎo)致效率受影響、能耗大FPGA靈活性好、設(shè)計(jì)空間大、省去流片過(guò)程效能與功耗上不能更緊密適配算法、成本高DSP改動(dòng)小、計(jì)算能力較高缺乏深度學(xué)習(xí)全面計(jì)算能力、核心數(shù)量較少,并行性支持較差A(yù)SIC能效比最好靈活性差、缺乏通用潛力、成本較高上述均為基于深度學(xué)習(xí)的加速芯片。作為人工神經(jīng)網(wǎng)絡(luò)芯片,還有另外一支,是從類似或模擬生物神經(jīng)系統(tǒng)來(lái)實(shí)現(xiàn)的神經(jīng)形態(tài)網(wǎng)絡(luò)芯片(類腦芯片)代表:IBMTrueNorth(真北)、Brainchip等其他人工神經(jīng)網(wǎng)絡(luò)芯片報(bào)告提綱深度學(xué)習(xí)概念及其算法1深度學(xué)習(xí)硬件加速方式2典型神經(jīng)網(wǎng)絡(luò)芯片介紹3IBM,2014年發(fā)布能模擬人類大腦的超大規(guī)模神經(jīng)突觸芯片TrueNorth基于類似人腦、非馮·諾依曼的計(jì)算架構(gòu)含有100萬(wàn)神經(jīng)元,通過(guò)2.56億個(gè)突觸彼此通信4096個(gè)神經(jīng)突觸,每秒可執(zhí)行46千兆突觸運(yùn)算三星28nm工藝,54億晶體管,功耗僅為70mW典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorthTrueNorth芯片結(jié)構(gòu)、功能、物理形態(tài)圖典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth人腦分成三個(gè)層次——神經(jīng)突觸、腦功能區(qū)和腦皮層每個(gè)突觸由諸多神經(jīng)元組成,每個(gè)腦功能區(qū)由諸多突觸組成,一個(gè)能完整執(zhí)行任務(wù)的皮層由諸多個(gè)功能區(qū)組成TrueNorth芯片架構(gòu)對(duì)應(yīng)分為三個(gè)層次突觸對(duì)應(yīng)硬件—neurosynapticcore,有256個(gè)輸出與輸入及對(duì)應(yīng)的存儲(chǔ),并集成神經(jīng)信號(hào)的路由器芯片有4096個(gè)core,組成腦功能區(qū)芯片與芯片間互聯(lián),實(shí)現(xiàn)完整的腦皮層功能TrueNorth基于脈沖神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),采用1KHz幀時(shí)鐘模擬生物上的脈沖,因而沒(méi)有全局時(shí)鐘控制的信號(hào)傳遞;數(shù)據(jù)和數(shù)據(jù)之間采用異步方式通訊,實(shí)現(xiàn)低功耗。典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorthIBM用48塊TrueNorth芯片構(gòu)建一個(gè)電子的嚙齒類動(dòng)物大腦,每一塊芯片都可以模擬大腦的一個(gè)基本功能區(qū)。系統(tǒng)可模擬4800萬(wàn)個(gè)神經(jīng)細(xì)胞,與小型嚙齒動(dòng)物大腦的神經(jīng)細(xì)胞數(shù)齊平基于該模擬大腦編寫的程序可識(shí)別照片和語(yǔ)音,并理解一些自然語(yǔ)言典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth2016年12月,IBM公布了TrueNorth芯片的最新成果美國(guó)陸軍研究實(shí)驗(yàn)室利用TrueNorth芯片的低功耗和實(shí)時(shí)模式識(shí)別特性,幫助在部署數(shù)據(jù)收集時(shí),減少延遲、降低數(shù)據(jù)復(fù)雜性、減少傳輸寬帶需求,同時(shí)解決分布式系統(tǒng)終端的數(shù)據(jù)存儲(chǔ)需求美國(guó)空軍研究實(shí)驗(yàn)室利用TrueNorth橫向擴(kuò)展系統(tǒng)來(lái)執(zhí)行并行數(shù)據(jù)的文本提取和識(shí)別任務(wù)。圖像文本被分割成單獨(dú)的字符后被TrueNorth系統(tǒng)進(jìn)行并行字符識(shí)別。歸類之后的結(jié)果將會(huì)被傳送到基于推理的自然語(yǔ)言模型中來(lái)重建單詞和句子勞倫斯·利弗莫爾國(guó)家實(shí)驗(yàn)室訓(xùn)練一個(gè)16塊TrueNorth芯片組成的網(wǎng)絡(luò)追蹤激光熔化機(jī)的焊點(diǎn)質(zhì)量,可以識(shí)別7種等級(jí)。實(shí)時(shí)焊點(diǎn)質(zhì)量監(jiān)控使得閉環(huán)工藝改進(jìn)和立即排除缺陷部件成為可能典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth對(duì)TrueNorth的評(píng)價(jià)不同于馮諾依曼架構(gòu),將處理、存儲(chǔ)、通信集成在一起嘗試在硅片中模仿人腦以大規(guī)模平行方式處理信息向社會(huì)步入認(rèn)知計(jì)算機(jī)時(shí)代邁出重要一步短期看,TrueNorth情況不樂(lè)觀生態(tài)系統(tǒng)差編程困難缺乏高效的訓(xùn)練算法不具備調(diào)整的靈活性典型神經(jīng)網(wǎng)絡(luò)芯片——IBMTrueNorth2016年中科院計(jì)算所正式發(fā)布神經(jīng)網(wǎng)絡(luò)處理器寒武紀(jì)針對(duì)深度學(xué)習(xí)領(lǐng)域的專用芯片性能、功耗和面積上,比CPU/GPU有百倍優(yōu)勢(shì)寒武紀(jì)系列已包含四種原型處理器:寒武紀(jì)1號(hào)(英文名DianNao,面向神經(jīng)網(wǎng)絡(luò)的原型處理器結(jié)構(gòu))寒武紀(jì)2號(hào)(英文名DaDianNao,面向大規(guī)模神經(jīng)網(wǎng)絡(luò))寒武紀(jì)3號(hào)(英文名PuDianNao,面向多種機(jī)器學(xué)習(xí)算法)寒武紀(jì)4號(hào)(英文名ShiDianNao,面向視頻處理特定領(lǐng)域)配套首個(gè)深度學(xué)習(xí)指令集Cambricon(DianNaoYu)直接面對(duì)大規(guī)模神經(jīng)元和突觸的處理一條指令即可完成一組神經(jīng)元的處理對(duì)神經(jīng)元和突觸數(shù)據(jù)傳輸提供一系列支持典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao片上存儲(chǔ):芯片內(nèi)含三塊片上存儲(chǔ),用于存儲(chǔ)input的NBin、output的NBout和神經(jīng)網(wǎng)絡(luò)模型權(quán)重參數(shù)的SB;片上存儲(chǔ)與片外通過(guò)DMA通信運(yùn)算邏輯:核心計(jì)算部件為由三級(jí)流水線組成NFUNFU和片上存儲(chǔ)的時(shí)分復(fù)用:運(yùn)行時(shí),網(wǎng)絡(luò)模型參數(shù)依次被加載到SB,每層神經(jīng)layer的輸入數(shù)據(jù)被依次加載到NBin,layer計(jì)算結(jié)果寫入到NBoutNFU里基礎(chǔ)計(jì)算不會(huì)與具體的神經(jīng)元或權(quán)重參數(shù)綁定靈活性和尺寸相較于全硬件方案有明顯改進(jìn)典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNaoDianNao是寒武紀(jì)系列的第一個(gè)原型處理器結(jié)構(gòu)單核,主頻0.98GHz,峰值性能每秒4520億次神經(jīng)網(wǎng)絡(luò)基本運(yùn)算65nm工藝,面積3.02mm2,功耗0.485W,性能超主流CPU核100倍,面積和功耗僅為1/10性能與主流GPU相當(dāng),面積和功耗僅為1/100典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNaoDaDianNao在DianNao的基礎(chǔ)上進(jìn)一步擴(kuò)大處理器的規(guī)模16個(gè)處理器核和更大的片上存儲(chǔ)多芯片間直接高速互連,避免內(nèi)存訪問(wèn)開(kāi)銷28nm工藝,主頻606MHz,面積67.7mm2,功耗16W性能超過(guò)主流GPU21倍,能耗僅為主流GPU的1/330典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao多用途機(jī)器學(xué)習(xí)處理器PuDianNao支持k-最近鄰、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等近十種代表性機(jī)器學(xué)習(xí)算法主頻為1GHz,峰值性能每秒10560億次基本操作65nm工藝,面積3.51mm2,功耗0.596W性能與主流GPU相當(dāng),面積和功耗僅為主流GPGPU百分之一量級(jí)典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao2016年成果ShiDianNao傳感器可直接對(duì)圖像進(jìn)行流式識(shí)別處理,消除對(duì)圖像的讀寫操作用比較小的卷積神經(jīng)網(wǎng)絡(luò)在芯片上處理,消除對(duì)模型的讀寫操作65nm工藝,面積4.86mm2,功耗0.32W性能與CPU/GPU/專用加速器比,有50/30/2倍的提升典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao應(yīng)用案例:ShiDianNao在系統(tǒng)中進(jìn)行深度學(xué)習(xí)的模式識(shí)別,經(jīng)訓(xùn)練后具有類似人腦的識(shí)別能力,可從圖像中識(shí)別出貓正在進(jìn)行商業(yè)化推廣,將寒武紀(jì)IP盒子或芯片嵌入到傳統(tǒng)手機(jī)或個(gè)人電腦主板,極大提高處理速度典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao寒武紀(jì)系列芯片的技術(shù)突破:突破了內(nèi)存帶寬的主要性能瓶頸,通過(guò)EDRAM技術(shù)及多芯片互聯(lián),保證神經(jīng)網(wǎng)絡(luò)模型完整放于片上,完全無(wú)需訪問(wèn)內(nèi)存

突破了片上通訊導(dǎo)致的延遲和功耗,分成的每塊內(nèi)部包含運(yùn)算部件、神經(jīng)元數(shù)據(jù)、突觸數(shù)據(jù),可以減少90%以上片上通訊時(shí)間

突破了機(jī)器學(xué)習(xí)算法、變種眾多的困難,采用可編程VLIM處理其結(jié)構(gòu)以及靈活的運(yùn)算部件,支持幾乎所有現(xiàn)有的主流機(jī)器學(xué)習(xí)算法

典型神經(jīng)網(wǎng)絡(luò)芯片——寒武紀(jì)DianNao2016年谷歌透露其機(jī)器學(xué)習(xí)專用芯片張量處理器TPU,并于2017年4月官方詳細(xì)介紹TPU專為深度學(xué)習(xí)框架TensorFlow進(jìn)行的ASIC設(shè)計(jì)脈動(dòng)陣列處理結(jié)構(gòu):數(shù)據(jù)向運(yùn)算陣列傳遞和處理有嚴(yán)格流程規(guī)定處理峰值92TOPS,比GPU和CPU快15到30倍功耗75W,能效比GPU和CPU提升了30到80倍典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU針對(duì)深度學(xué)習(xí)的定制化設(shè)計(jì)主要計(jì)算部件是黃色256*256的8位矩陣乘法單元、非線性神經(jīng)元計(jì)算單元(Activation),及用于歸一化和池化的計(jì)算單元輸入是藍(lán)色的權(quán)重?cái)?shù)據(jù)隊(duì)列FIFO和藍(lán)色的統(tǒng)一緩沖(UnifiedBuffer)輸出是藍(lán)色的累加器(Accumulators)歸一化和池化計(jì)算單元的運(yùn)算數(shù)據(jù)返回統(tǒng)一緩沖區(qū)典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU大規(guī)模片上內(nèi)存藍(lán)色為數(shù)據(jù)緩存:37%,24MB的局部?jī)?nèi)存,4MB的累加器內(nèi)存及用于與主控處理器進(jìn)行對(duì)接的內(nèi)存黃色為計(jì)算單元:30%綠色為I/O端口:10%紅色為控制邏輯:2%典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU脈動(dòng)(Systolic)陣列處理結(jié)構(gòu)最早由美籍華人計(jì)算機(jī)科學(xué)家孔祥重等提出矩陣乘法和卷積運(yùn)算中數(shù)據(jù)是可復(fù)用的,同一數(shù)據(jù)需和不同權(quán)重相乘并累加。不同時(shí)刻,數(shù)據(jù)輸入只有少數(shù)新數(shù)據(jù)需從外面獲取,多數(shù)數(shù)據(jù)是上一時(shí)刻數(shù)據(jù)的移位脈動(dòng)式數(shù)據(jù)流,最大化數(shù)據(jù)復(fù)用,減小內(nèi)存訪問(wèn)次數(shù)、內(nèi)存帶寬壓力和訪存能量消耗典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU脈動(dòng)陣列處理結(jié)構(gòu)進(jìn)行矩陣乘法運(yùn)算的過(guò)程a11每次向右移一格,依次與b11、b12、b13相乘b11每次向下移一格,依次與a11、a21、a31相乘以此類推典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU低精度(8bit)計(jì)算使用低精度而非32bit全精度浮點(diǎn)計(jì)算已成深度學(xué)習(xí)界共識(shí)低精度運(yùn)算準(zhǔn)確率損失小,硬件上功耗、運(yùn)算速度、運(yùn)算單元面積、內(nèi)存帶寬需求受益明顯TPU被設(shè)計(jì)為在PCIeI/O總線上的協(xié)處理器像GPU一樣直接接入數(shù)據(jù)中心主機(jī)服務(wù)器發(fā)送TPU指令來(lái)供其執(zhí)行典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUTPU指令共十余條,遵循CISC指令傳統(tǒng),其中有5條關(guān)鍵指令讀主機(jī)存儲(chǔ):從CPU主存讀數(shù)據(jù)到統(tǒng)一緩沖讀權(quán)重Read_Weights:從權(quán)值存儲(chǔ)器讀權(quán)值數(shù)據(jù)到權(quán)值隊(duì)列,作為矩陣單元的輸入矩陣乘/卷積MatrixMultiply/Convolve:驅(qū)動(dòng)矩陣單元執(zhí)行一次矩陣乘或一次卷積,將統(tǒng)一緩沖中的數(shù)據(jù)計(jì)算并輸出到累加器激活A(yù)ctivate:執(zhí)行人工神經(jīng)的非線性函數(shù),輸入是累加器結(jié)果,函數(shù)計(jì)算后輸出到統(tǒng)一緩沖。同時(shí)也執(zhí)行卷積所需池化操作寫主機(jī)存儲(chǔ)Write_Host_Memory:將數(shù)據(jù)從統(tǒng)一緩沖寫回CPU主存其他指令:備用主機(jī)內(nèi)存讀/寫,設(shè)置配置,同步,中斷主機(jī),調(diào)試,空操作和停止典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPU谷歌TPU與英特爾HaswellXeonE5處理器和英偉達(dá)K80的對(duì)比TPU使用8位整數(shù)數(shù)學(xué)運(yùn)算器,擁有256GB主機(jī)內(nèi)存及32GB內(nèi)存,內(nèi)存帶寬最大34GB/秒,處理速度達(dá)92TOPSTPU芯片工作功耗40W,服務(wù)器工作功耗384WTPU各方面表現(xiàn)要強(qiáng)于前兩者典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUCPU、GPU和TPU處理不同批量大小推理任務(wù)的吞吐量批量大小為200,響應(yīng)時(shí)間為7毫秒時(shí),提供225000個(gè)IPS運(yùn)行推理基準(zhǔn),是其峰值性能的80%批量大小為250,響應(yīng)時(shí)間為10毫秒時(shí),提供280000個(gè)IPS運(yùn)行推理基準(zhǔn),達(dá)到峰值性能典型神經(jīng)網(wǎng)絡(luò)芯片——谷歌TPUGPU服務(wù)器、TPU服務(wù)器、CPU服務(wù)器的能效比對(duì)比其中,TPU'是改進(jìn)版的TPU;總和(Total)包含主機(jī)CPU服務(wù)器功耗,增量(incremental)減去主機(jī)CPU服務(wù)器功耗;GM和WM分別是幾何學(xué)圖形與加權(quán)平均值總和能效比,TPU是Haswell的17倍到34倍,是K80的14倍到16倍增量能效比,TP

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論