未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU_第1頁(yè)
未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU_第2頁(yè)
未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU_第3頁(yè)
未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU_第4頁(yè)
未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU?英特爾加速器架構(gòu)實(shí)驗(yàn)室的ErikoNurvitadhi博士以最新的GPU為參照,對(duì)兩代IntelFPGA上新興的DNN算法進(jìn)行了評(píng)估,認(rèn)為新興的低精度和稀疏DNN算法效率較之傳統(tǒng)的密集FP32DNN有巨大改進(jìn),但是它們引入了GPU難以處理的不規(guī)則并行度和定制數(shù)據(jù)類型。相比之下,F(xiàn)PGA正是設(shè)計(jì)用于在運(yùn)行不規(guī)則并行度和自定義數(shù)據(jù)類型時(shí)實(shí)現(xiàn)極端的可定制性的。這樣的趨勢(shì)使未來(lái)FPGA成為運(yùn)行DNN、AI和ML應(yīng)用的可行平臺(tái)。來(lái)自社交媒體和互聯(lián)網(wǎng)的圖像、視頻和語(yǔ)音數(shù)字?jǐn)?shù)據(jù)的持續(xù)指數(shù)增長(zhǎng)推動(dòng)了分析的需要,以使得數(shù)據(jù)可以理解和處理。數(shù)據(jù)分析通常依賴于機(jī)器學(xué)習(xí)(ML)算法。在ML算法中,深度卷積神經(jīng)網(wǎng)絡(luò)(DNN)為重要的圖像分類任務(wù)提供了最先進(jìn)的精度,并被廣泛采用。在最近的InternationalSymposiumonFieldProgrammableGateArrays(ISFPGA)上,IntelAcceleratorArchitectureLab(AAL)的ErikoNurvitadhi博士提出了一篇名為CanFPGAsbeatGPUsinAcceleratingNext-GenerationDeepNeuralNetworks的論文。他們的研究以最新的高性能的NVIDIATitanXPascal*GraphicsProcessingUnit(GPU)為參照,對(duì)兩代IntelFPGA(IntelArria10和IntelStratix10)的新興DNN算法進(jìn)行了評(píng)估。IntelProgrammableSolutionsGroup的FPGA架構(gòu)師RandyHuang博士,論文的合著者之一,說(shuō):“深度學(xué)習(xí)是AI中最令人興奮的領(lǐng)域,因?yàn)槲覀円呀?jīng)看到了深入學(xué)習(xí)帶來(lái)的巨大進(jìn)步和大量應(yīng)用。雖然AI和DNN研究?jī)A向于使用GPU,但我們發(fā)現(xiàn)應(yīng)用領(lǐng)域和英特爾下一代FPGA架構(gòu)之間是完美契合的。我們考察了接下來(lái)FPGA的技術(shù)進(jìn)展,以及DNN創(chuàng)新算法的快速增長(zhǎng),并思考了對(duì)于下一代DNN來(lái)說(shuō),未來(lái)的高性能FPGA是否會(huì)優(yōu)于GPU。我們的研究發(fā)現(xiàn),F(xiàn)PGA在DNN研究中表現(xiàn)非常出色,可用于需要分析大量數(shù)據(jù)的AI、大數(shù)據(jù)或機(jī)器學(xué)習(xí)等研究領(lǐng)域。使用經(jīng)修剪或壓縮的數(shù)據(jù)(相對(duì)于全32位浮點(diǎn)數(shù)據(jù)(FP32)),被測(cè)試的IntelStratix10FPGA的性能優(yōu)于GPU。除了性能外,F(xiàn)PGA的強(qiáng)大還源于它們具有適應(yīng)性,通過(guò)重用現(xiàn)有的芯片可以輕松實(shí)現(xiàn)更改,從而讓團(tuán)隊(duì)在六個(gè)月內(nèi)從想法進(jìn)展到原型(和用18個(gè)月構(gòu)建一個(gè)ASIC相比)?!睖y(cè)試中使用的神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以被表現(xiàn)為通過(guò)加權(quán)邊互連的神經(jīng)元的圖形。每個(gè)神經(jīng)元和邊分別與激活值和權(quán)重相關(guān)聯(lián)。該圖形被構(gòu)造為神經(jīng)元層。如圖1所示。圖1深度神經(jīng)網(wǎng)絡(luò)概述神經(jīng)網(wǎng)絡(luò)計(jì)算會(huì)通過(guò)網(wǎng)絡(luò)中的每個(gè)層。對(duì)于給定層,每個(gè)神經(jīng)元的值通過(guò)相乘和累加上一層的神經(jīng)元值和邊權(quán)重來(lái)計(jì)算。計(jì)算非常依賴于多重累積運(yùn)算。DNN計(jì)算包括正向和反向傳遞。正向傳遞在輸入層采樣,遍歷所有隱藏層,并在輸出層產(chǎn)生預(yù)測(cè)。對(duì)于推理,只需要正向傳遞以獲得給定樣本的預(yù)測(cè)。對(duì)于訓(xùn)練,來(lái)自正向傳遞的預(yù)測(cè)錯(cuò)誤在反向傳遞中被反饋以更新網(wǎng)絡(luò)權(quán)重。這被稱為反向傳播算法。訓(xùn)練迭代地進(jìn)行向前和向后傳遞以調(diào)整網(wǎng)絡(luò)權(quán)重,直到達(dá)到期望的精度。FPGA成為可行的替代方案硬件:與高端GPU相比,F(xiàn)PGA具有卓越的能效(性能/瓦特),但它們不具有高峰值浮點(diǎn)性能。FPGA技術(shù)正在迅速發(fā)展,即將推出的IntelStratix10FPGA提供超過(guò)5,000個(gè)硬件浮點(diǎn)單元(DSP),超過(guò)28MB的芯片上RAM(M20Ks),與高帶寬內(nèi)存(upto4x250GB/s/stackor1TB/s)的集成,并來(lái)自新HyperFlex技術(shù)的改進(jìn)頻率。英特爾FPGA提供了一個(gè)全面的軟件生態(tài)系統(tǒng),從低級(jí)HardwareDescription語(yǔ)言到具有OpenCL、C和C++的更高級(jí)別的軟件開發(fā)環(huán)境。英特爾將進(jìn)一步利用MKL-DNN庫(kù),針對(duì)Intel的機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)和傳統(tǒng)框架(如今天提供的Caffe)以及其他不久后會(huì)出現(xiàn)的框架對(duì)FPGA進(jìn)行調(diào)整?;?4nm工藝的英特爾Stratix10在FP32吞吐量方面達(dá)到峰值9.2TFLOP/s。相比之下,最新的TitanXPascalGPU的FP32吞吐量為11TFLOP/s。新興的DNN算法:更深入的網(wǎng)絡(luò)提高了精度,但是大大增加了參數(shù)和模型大小。這增加了對(duì)計(jì)算、帶寬和存儲(chǔ)的要求。因此,使用更為有效的DNN已成趨勢(shì)。新興趨勢(shì)是采用遠(yuǎn)低于32位的緊湊型低精度數(shù)據(jù)類型,16位和8位數(shù)據(jù)類型正在成為新的標(biāo)準(zhǔn),因?yàn)樗鼈兊玫搅薉NN軟件框架(例如TensorFlow)支持。此外,研究人員已經(jīng)對(duì)極低精度的2位三進(jìn)制和1位二進(jìn)制DNN進(jìn)行了持續(xù)的精度改進(jìn),其中值分別約束為(0,+1,-1)或(+1,-1)。Nurvitadhi博士最近合著的另一篇論文首次證明了,ternaryDNN可以在最著名的ImageNet數(shù)據(jù)集上實(shí)現(xiàn)目前最高的準(zhǔn)確性。另一個(gè)新興趨勢(shì)是通過(guò)諸如修剪、ReLU和ternarization等技術(shù)在DNN神經(jīng)元和權(quán)重中引入稀疏性(零存在),這可以導(dǎo)致DNN帶有?50%至?90%的零存在。由于不需要在這樣的零值上進(jìn)行計(jì)算,因此如果執(zhí)行這種稀疏DNN的硬件可以有效地跳過(guò)零計(jì)算,性能提升就可以實(shí)現(xiàn)。新興的低精度和稀疏DNN算法效率較之傳統(tǒng)的密集FP32DNN有巨大改進(jìn),但是它們引入了GPU難以處理的不規(guī)則并行度和定制數(shù)據(jù)類型。相比之下,F(xiàn)PGA正是設(shè)計(jì)用于在運(yùn)行不規(guī)則并行度和自定義數(shù)據(jù)類型時(shí)實(shí)現(xiàn)極端的可定制性的。這樣的趨勢(shì)使未來(lái)FPGA成為運(yùn)行DNN、AI和ML應(yīng)用的可行平臺(tái)。黃先生說(shuō):“FPGA專用機(jī)器學(xué)習(xí)算法有更多的余量。圖2說(shuō)明了FPGA的極端可定制性(2A),可以有效實(shí)施新興的DNN(2B)。圖2研究所用的硬件和方法GPU:使用已知的庫(kù)(cuBLAS)或框架(TorchwithcuDNN)FPGA:使用QuartusEarlyBeta版本和PowerPlay圖3GEMM測(cè)試結(jié)果、GEMM是DNN中的關(guān)鍵操作在低精度和稀疏DNN中,Stratix10FPGA比TitanXGPU的性能更好,甚至性能功耗比要更好。未來(lái)這類DNN可能會(huì)成為趨勢(shì)。研究1:GEMM測(cè)試DNN嚴(yán)重依賴GEMM。常規(guī)DNN依靠FP32密集GEMM。然而,較低的精度和稀疏的新興DNN依賴于低精度和/或稀疏的GEMM。Intel團(tuán)隊(duì)對(duì)這些GEMM進(jìn)行了評(píng)估。FP32密集GEMM:由于FP32密集GEMM得到了很好的研究,該團(tuán)隊(duì)比較了FPGA和GPU數(shù)據(jù)表上的峰值。TitanXPascal的最高理論性能是Stratix10的11TFLOP和9.2TFLOP。圖3A顯示,帶有多得多的DSP數(shù)量的IntleStratix10將提供比IntelArria10更強(qiáng)大的FP32性能,和TitanX的性能表現(xiàn)接近。低精度INT6GEMM:為了顯示FPGA的可定制性優(yōu)勢(shì),該團(tuán)隊(duì)通過(guò)將四個(gè)int6打包到一個(gè)DSP模塊中,研究了FPGA的Int6GEMM。對(duì)于本來(lái)不支持Int6的GPU,他們使用了Int8GPU的峰值性能進(jìn)行了比較。圖3B顯示,IntelStratix10的性能優(yōu)于GPU。FPGA比GPU提供了更引人注目的性能/功耗比。非常低精度的1位二進(jìn)制GEMM:最近的二進(jìn)制DNN提出了非常緊湊的1bit數(shù)據(jù)類型,允許用xnor和位計(jì)數(shù)操作替換乘法,非常適合FPGA。圖3C顯示了團(tuán)隊(duì)的二進(jìn)制GEMM測(cè)試結(jié)果,其中FPGA基本上執(zhí)行得比GPU好(即,根據(jù)頻率目標(biāo)的不同,為~2x到~10x)。稀疏GEMM:新出現(xiàn)的稀疏DNN包含許多零值。該團(tuán)隊(duì)在帶有85%零值的矩陣上測(cè)試了一個(gè)稀疏的GEMM(基于已修剪的AlexNet)。該團(tuán)隊(duì)測(cè)試了使用FPGA的靈活性以細(xì)粒度的方式來(lái)跳過(guò)零計(jì)算的GEMM設(shè)計(jì)。該團(tuán)隊(duì)還在GPU上測(cè)試了稀疏的GEMM,但發(fā)現(xiàn)性能比在GPU上執(zhí)行密集的GEMM更差(相同的矩陣大小)。該團(tuán)隊(duì)的稀疏GEMM測(cè)試(圖3D)顯示,F(xiàn)PGA可以比GPU表現(xiàn)更好,具體取決于目標(biāo)FPGA的頻率。圖4DNN精度的趨勢(shì),以及FPGA和GPU在TernaryResNetDNN上的測(cè)試結(jié)果研究2:使用三進(jìn)制ResNetDNN測(cè)試三進(jìn)制DNN最近提出神經(jīng)網(wǎng)絡(luò)權(quán)重約束值為+1,0或-1。這允許稀疏的2位權(quán)重,并用符號(hào)位操作代替乘法。在本次測(cè)試中,該團(tuán)隊(duì)使用了為零跳躍、2位權(quán)重定制的FPGA設(shè)計(jì),同時(shí)沒有乘法器來(lái)優(yōu)化運(yùn)行Ternary-ResNetDNN。與許多其他低精度和稀疏的DNN不同,三進(jìn)制DNN可以為最先進(jìn)的DNN(即ResNet)提供可供比較的精度,如圖4A所示?!霸S多現(xiàn)有的GPU和FPGA研究?jī)H針對(duì)基于AlexNet(2012年提出)的ImageNet的”足夠好“的準(zhǔn)確性。最先進(jìn)的Resnet(在2015年提出)提供比AlexNet高出10%以上的準(zhǔn)確性。在2016年底,在另一篇論文中,我們首先指出,Resnet上的低精度和稀疏三進(jìn)制DNN算法可以在全精度ResNet的±1%的精度范圍內(nèi)實(shí)現(xiàn)。這個(gè)三進(jìn)制ResNet是我們?cè)贔PGA研究中的目標(biāo)。因此,我們首先論證,F(xiàn)PGA可以提供一流的(ResNet)ImageNet精度,并且可以比GPU更好地實(shí)現(xiàn)。““Nurvitadhi說(shuō)。圖4B顯示了IntelStratix10FPGA和TitanXGPU在ResNet-50上的性能和性能/功耗比。即使保守估計(jì),IntelStratix10FPGA也比TitanXGPU性能提高了約60%。中度和激進(jìn)的估計(jì)會(huì)更好(2.1x和3.5x的加速)。有趣的是,IntelStratix10750MHz的激進(jìn)預(yù)估可以比TitanX的理論峰值性能還高35%。在性能/功耗比方面,從保守估計(jì)到激進(jìn)估計(jì),IntelStratix10比TitanX要好2.3倍到4.3倍,F(xiàn)PGA如何在研究測(cè)試中堆疊結(jié)果表明,IntelStratix10FPGA的性能(TOP/秒)比稀疏的、Int6和二進(jìn)制DNN的GEMM上的TitanXPascalGPU分別提高了10%、50%和5.4倍。在三進(jìn)制ResNet上,Stratix10FPGA的性能比TitanXPascalGPU提高了60%,而性能/功耗比好2.3倍。結(jié)果表明,F(xiàn)PGA可能成為下一代DNN加速的首選平臺(tái)。深層神經(jīng)網(wǎng)絡(luò)中FPGA的未來(lái)FPGA能否在下一代DNN的性能上擊敗GPU?Intel對(duì)兩代FPGA(IntelArria10和IntelStratix10)以及最新的TitanXGPU的各種新興DNN的評(píng)估顯示,目前DNN算法的趨勢(shì)可能有利于FPGA,而且FPGA甚至可以提供卓越的性能。雖然這些結(jié)論源于2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論