版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
GPGPU所引領(lǐng)的高性能計(jì)算技術(shù)支持中心2010-01-28提綱GPGPU簡介為什么GPGPU會被引入高性能計(jì)算GPGPU的應(yīng)用領(lǐng)域主流GPGPU介紹曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹2GPGPU的定義圖形處理器(GPU):
graphicsprocessingunits用于通用計(jì)算目的的圖形處理器(GPGPU):
General-PurposecomputationonGPUs3提升系統(tǒng)整體性能的方法處理器硬件:提高制程:130nm->90nm->65nm->45nm->32nm?多核心:2003年單核->雙核->4核->2008年6核->?(12核?)多線程:多線程->單線程->多線程(SunT1,XeonNahelam)超長指令字(VLIW):安騰、Xeon(Woodcrest)、Opteron(Shanghai)系統(tǒng)硬件:加速部件:FPGA(CRAYX4/X5),CELL(IBMRoadrunner)高速網(wǎng)絡(luò):千兆->Myrinet/萬兆->InfiniBand軟件:采用消息傳遞的MPI并行化采用共享內(nèi)存的線程并行編譯器優(yōu)化4摩爾定律的困境CPU發(fā)展規(guī)律:“摩爾定律”:每18個月,同一面積芯片上可以集成的晶體管數(shù)量將翻一番,而價格下降一半由于物理定律的限制,采用提高CPU制程和主頻的辦法遇到了工藝上的壁壘,暫時無法突破GPU發(fā)展規(guī)律:1993年開始,GPU的性能以每年2.8倍的速度增長峰值發(fā)展趨勢帶寬發(fā)展趨勢5圖形處理器的發(fā)展GPU性能的飛躍1993年開始,GPU的性能以每年2.8倍的速度增長。1985年渲染1幀圖片需要CRAY1超級計(jì)算機(jī)2~3小時如今可以很容易的在1/30秒以內(nèi)完成1幀的相對低廉的GPU設(shè)計(jì)和生產(chǎn)價格GPGPU浮點(diǎn)性能的快速發(fā)展無法利用的浮點(diǎn)計(jì)算能力比CPU高一個數(shù)量級的浮點(diǎn)性能年份CPUGPU2004Intel3GHzPentium4NvidiaGeForce6800Ultra6GFLOPS40GFLOPS2006Intel3.0GHzCore2DuoNVIDIAGeForce8800GTX24GFLOPS330GFLOPS2008Intel3.0GHzXeonE5472NvidiaTeslaC106048GFLOPS933GFlops6二者的區(qū)別與聯(lián)系CPU和GPU的聯(lián)系都是計(jì)算機(jī)體系結(jié)構(gòu)中的重要部分超大規(guī)模集成電路元件能夠完成浮點(diǎn)運(yùn)算功能GPU的設(shè)計(jì)目標(biāo)與CPU是不同的:CPU的微架構(gòu)是按照兼顧“指令并行執(zhí)行”和“數(shù)據(jù)并行運(yùn)算”的思路而設(shè)計(jì)。CPU的大部分晶體管主要用于構(gòu)建控制電路和CacheCPU的5%是ALU,控制電路設(shè)計(jì)更加復(fù)雜CPU的內(nèi)存延遲是GPU的1/10GPU其實(shí)是由硬件實(shí)現(xiàn)的一組圖形函數(shù)的集合。GPU控制電路相對簡單,而且對Cache的需求小,所以可以把大部分的晶體管用于計(jì)算單元GPGPU的40%是ALUGPGPU的內(nèi)存帶寬是CPU的10倍7GPU所具有的優(yōu)勢眾多的處理單元(ALU)nVIDIATeslaC1060具有240個ALU(1.296GHz)AMD/ATIHD4870x2具有1600個ALU(0.75MHz)Intel/AMD處理器具有2個ALU高數(shù)據(jù)帶寬的運(yùn)算nVIDIATeslaC1060內(nèi)存帶寬:102GB/sAMD/ATIHD4870x2內(nèi)存帶寬:230GB/s最新的I620r-G最大內(nèi)存帶寬:64GB/s高效的并行性在目前主流的GPU中,配置16個片段處理流水線,6個頂點(diǎn)處理流水線多條流水線可以在單一控制部件的集中控制下運(yùn)行,也可以獨(dú)立運(yùn)行超長圖形流水線超長圖形流水線的設(shè)計(jì)以吞吐量的最大化為目標(biāo)(如nVIDIAGeForce3流水線有800個流水步)在對大規(guī)模的數(shù)據(jù)流并行處理方面具有明顯的優(yōu)勢。8GPGPU的可編程性在現(xiàn)代GPU概念出現(xiàn)以前,特殊的圖形硬件只出現(xiàn)在諸如SiliconGraphics(SGI)等圖形工作站上,具有基于硬件的頂點(diǎn)變換和紋理映射功能.第一代現(xiàn)代圖形處理器出現(xiàn)在1998年后期,主要代表為NvidiaTNT2,ATIRage和3DFXVoodoo3.這些處理器主要處理光柵化部分,有些芯片支持多紋理,可以在光柵化過程中完成多幅紋理的融合操作.從1999年后期開始,第二代GPU(NvidiaGeForce256,GeForce2和ATIRadeon7500)可以處理頂點(diǎn)的矩陣變換和進(jìn)行光照計(jì)算,但此時還未出現(xiàn)真正的可編程性.第三代GPU(NvidiaGeForce3,GeForce4,ATIRadeon8500,2001年和2002年早期)代表著第一次重要變革,這時可以將圖形硬件的流水線作為流處理器來解釋.頂點(diǎn)級出現(xiàn)可編程性,而在像素級出現(xiàn)有限的可編程性.在像素級程序中,訪問紋理的方式和格式受到一定限制,只有定點(diǎn)數(shù)可用.正是這個時候,采用GPU作通用計(jì)算開始出現(xiàn).第四代GPU(NvidiaGeForceFXseries,ATIRadeon9700/9800)的像素和頂點(diǎn)可編程性更通用化,可以包含上千條指令.依賴紋理更為靈活,可以用作索引進(jìn)行查找.GPU具備了浮點(diǎn)功能,紋理不再限制在[0,1]范圍,從而可以用作任意數(shù)組,這一點(diǎn)是對通用計(jì)算的一個重要貢獻(xiàn).第五代GPU以NvidiaGeForce6800為代表,功能相對以前更為豐富、靈活.頂點(diǎn)程序可以訪問紋理,支持動態(tài)分支操作;像素程序開始支持分支操作,包括循環(huán)、if/else、重復(fù)等,支持子函數(shù)調(diào)用,64位浮點(diǎn)紋理濾波和融合,多個繪制目標(biāo).第六代GPU(NvidiaTeslaC870,AMDFireStream9250)的浮點(diǎn)運(yùn)算能力已達(dá)到或接近1TFLOPS,在此前提下,硬件廠商紛紛加大力度推廣適用于自己GPU的編程模式.9提綱GPGPU簡介為什么GPGPU會被引入高性能計(jì)算GPGPU的應(yīng)用領(lǐng)域主流GPGPU介紹曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹10GPGPU應(yīng)用領(lǐng)域地震模擬計(jì)算生物學(xué)商業(yè)風(fēng)險計(jì)算醫(yī)學(xué)成像模式識別信號處理物理仿真11石油天然氣物探SeismicCity公司軟件在nVIDIATeslaS870可以達(dá)到CPU配置20倍的性能提升Headwave解決方案讓地球物理學(xué)家能夠?qū)λ麄兊臄?shù)據(jù)進(jìn)行高級過濾處理,也能實(shí)現(xiàn)查看數(shù)TB的數(shù)據(jù)12氣象海洋建模與空間科學(xué)CUDA加速的WRF代碼
13醫(yī)學(xué)成像使用GPGPU加快高級MRI重建速度
Stone等人計(jì)算體層重建
Batenburg,Sijbers,等人14基因及蛋白質(zhì)排序利用GPGPU加速HMMER
ScalableInformaticsMUMmerGPU:使用GPGPU進(jìn)行高吞吐量DNA序列比對
Schatz等人15復(fù)雜多相流動分子動力學(xué)分子動力學(xué)(moleculardynamics,MD)模擬是認(rèn)為分子之間作用力遵守牛頓力學(xué)的一種科學(xué)計(jì)算方法,現(xiàn)已廣泛應(yīng)用到生物、醫(yī)藥、材料、能源、機(jī)電的等領(lǐng)域中。中國科學(xué)院過程工程研究所多相復(fù)雜系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室進(jìn)行了GPGPU上的分子動力學(xué)(MD)模擬。16UIUC分子動力學(xué)程序UIUC大學(xué)NAMD和VMD程序在18個CPU的機(jī)群上有100倍的加速。3個C870的工作站實(shí)際達(dá)到705Gflops計(jì)算能力計(jì)算量子化學(xué)直接自洽場(SCF)計(jì)算
Ufimtsev以及Martinez雙電子積分評估
安田幸司18腦神經(jīng)網(wǎng)絡(luò)仿真案例仿真一條單獨(dú)的神經(jīng)需要每秒解200,000,000個微分方程一條神經(jīng)需40億次浮點(diǎn)運(yùn)算這就意味著要處理一個感覺神經(jīng)數(shù)組,需要進(jìn)行超過10萬億次的浮點(diǎn)運(yùn)算用GPU實(shí)現(xiàn)模擬與X86CPU相比要快130倍19金融市場預(yù)測案例Black-Scholesoptionprizing4.7GOptions/s加速比:upto197X20提綱GPGPU簡介主流GPGPU介紹nVIDIA解決方案AMD/ATI解決方案未來的GPGPU曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹21nVIDIAGTX200核心TeslaGPGPU可以看作之前的NvidiaQuadro專業(yè)卡的通用計(jì)算版本GTX200的240個流處理器被分為10組并行的材質(zhì)處理簇TPC(TextureProcessingCluster)每個TPC由3個流處理器單元SM(StreamingMultiprocessors)組成每個SM由8個流處理器SP(StreamProcessor);每個TPC內(nèi)的24個流處理器共享L1緩存(TPC的核內(nèi)內(nèi)存)每個SM可以支持1024個并行線程整個GTX200核心可以支持30720個線程nVIDIATesla產(chǎn)品C1060GPGPU個人高性能計(jì)算機(jī)S1070Server應(yīng)用領(lǐng)域加速卡桌面高性能計(jì)算企業(yè)級機(jī)群GPU數(shù)目144處理器內(nèi)核頻率1.296GHz1.296GHz1.296~1.44GHz處理器核心數(shù)目240960960單精度浮點(diǎn)峰值933Gflops3.73Tflops3.73to4.14TFlops雙精度浮點(diǎn)峰值78Gflops311Gflops311to345GFlops專用內(nèi)存4GB16GB16GB內(nèi)存位寬512位GDDR3512位GDDR3512位GDDR3內(nèi)存帶寬102GB/s408GB/s408GB/s安裝環(huán)境dualslots全長卡(X16PCI-e)40db桌面系統(tǒng)標(biāo)準(zhǔn)1U機(jī)架式功耗187.8W800W800WNvidiaTesla的開發(fā)環(huán)境CUDA(統(tǒng)一計(jì)算設(shè)備架構(gòu))ComputeUnifiedDeviceArchitecture在nVIDIAGT200系列顯卡和Tesla系列通用計(jì)算系統(tǒng)上C語言的函式庫來編寫應(yīng)用程序的軟件開發(fā)環(huán)境,
CUDA主要分為Library,runtime和Driver三個部分nVIDIACUDA為一款完整的軟件開發(fā)方案,內(nèi)含支持GPU的C語言編譯器、調(diào)試工具(Debugger)、性能分析軟件(Profiler)、驅(qū)動程序及標(biāo)準(zhǔn)函數(shù)庫CUDA開發(fā)者社區(qū):/CUDA24CUDA邏輯結(jié)構(gòu)程序執(zhí)行區(qū)域Host ——CPUDevice(Kernel)——GPU分工CPU ——調(diào)度GPU ——運(yùn)算并行機(jī)制海量線程線程索引Index25COPY提綱GPGPU簡介主流GPGPU介紹Nvidia解決方案AMD/ATI解決方案未來的GPGPU曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹26AMD/ATIGPU的發(fā)展2006年7月24日,AMD購并ATI2006年11月,發(fā)布首款流處理器-FireStream580.2007年11月,F(xiàn)ireStream9170,處理能力達(dá)到500Gflops2008年11月,F(xiàn)ireStream9270,處理能力達(dá)到1.2Tflops2008年底推出StreamSDK,將ATI4870x2引入高性能計(jì)算領(lǐng)域,浮點(diǎn)處理能力達(dá)到2.4Tflops。27ATIGPGPU技術(shù)CPU發(fā)送指令GPU接受命令,并執(zhí)行命令龐大的計(jì)算單元組高帶寬的GPU內(nèi)存AMDFireStreamGPGPUAMDFireStream9250200GFLOPS雙精度浮點(diǎn)峰值1TFLOPS單精度浮點(diǎn)峰值800個處理器核心處理器核心主頻625MHz1GBGDDR3顯卡內(nèi)存顯存帶寬:108.8GB/s單PCIe2.0插槽功耗90WAMDFireStream9270240GFLOPS雙精度浮點(diǎn)峰值1.2TFLOPS單精度浮點(diǎn)峰值800個處理器核心處理器核心主頻750MHz2GBGDDR5顯卡內(nèi)存顯存帶寬:108.8GB/s雙PCIe2.0插槽功耗160W29AMDRadeonHD4870x2Radeon?HD4870X2$2992.4TFLOPS750MHz1600GDDR52GB260W雙精度浮點(diǎn)處理能力核心頻率處理器核心數(shù)量內(nèi)存類型顯存容量最大功耗顯存帶寬230GB/sec30單精度浮點(diǎn)處理能力480GFLOPSApriusCA8000模塊化機(jī)架式4U機(jī)箱可裝入8個AMDFireStream9270流計(jì)算器通過多個PCI-E光纖連接接到一個服務(wù)器族。最長50米的PCIe2.0光纖連接管道,帶寬80Gbps最多4條光纖通道,聚合帶寬達(dá)到320Gbps允許同時加速4臺服務(wù)器對所有操作系統(tǒng)透明支持關(guān)鍵部件支持熱插拔AMD流計(jì)算開發(fā)包FireStreamSoftwareDevelopmentKit(SDK)Brook+基于C語言的面向GPGPU的高級編程語言基于Standford大學(xué)的Brook語言開源軟件(SourceF)LibrariesAMD核心數(shù)學(xué)庫(ACML)COBRA圖形圖像庫第三方工具RapidMind,etcCompilersLibrariesAvailable3rdPartyToolsBrook+RapidmindACML/Cobra32ATIGPGPU編程模型為用戶提供高性能的API為用戶提供易用的編譯器為用戶提供便捷的應(yīng)用函數(shù)庫33提綱GPGPU簡介主流GPGPU介紹nVIDIA解決方案AMD/ATI解決方案未來的GPGPU曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹34IntelLarrabeeLarrabee是英特爾公司
CPU-GPU的芯片代號,它隸屬于Intel萬億次計(jì)算計(jì)劃,基于可編程架構(gòu),主要面向高端通用目的計(jì)算平臺,至少有16個核心,主頻1.7-2.5GHz,功耗則在150W以上,支持JPEG紋理、物理加速、反鋸齒、增強(qiáng)AI、光線追蹤等特性。35AMDFusionAMD首款Fusion處理器將會采用MCM模塊式設(shè)計(jì),即CPU一個模塊、GPU一個模塊,然后將二者組合在一起,與芯片級集成GPU和CPU相比,這是生產(chǎn)混合處理器最簡單有效的方便方法。首批上市的Fusion處理器采用的就是這種方法,它擁有兩個獨(dú)立的核心模塊,一個為GPU,另一個為CPU。這樣的話,AMD就可以根據(jù)具體的應(yīng)用情況推出多GPU和多CPU不同組合的Fusion處理器了。只有未來的第二代Fusion處理器才開始會采用原生整合GPU+CPU技術(shù),AMD首款Fusion處理器的工程代號為Swift。提綱GPGPU簡介主流GPGPU介紹曙光與GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹37曙光GHPC1000計(jì)算能力:201.6Tflops系統(tǒng)組成42臺TWINS服務(wù)器節(jié)點(diǎn)84塊ATIRadeonHD4870X2GPGPU互聯(lián)網(wǎng)絡(luò):20GInfiniBand曙光水冷機(jī)柜:4應(yīng)用軟件過程所多相實(shí)驗(yàn)室:粒子模擬計(jì)算所&曙光公司參與程序移植(加速17倍)曙光GPGPU機(jī)群解決方案節(jié)點(diǎn):計(jì)算節(jié)點(diǎn)(A620r-T)IO節(jié)點(diǎn)(A620-FX)網(wǎng)絡(luò):20GInfiniband計(jì)算網(wǎng)絡(luò)1000Mb以太管理網(wǎng)絡(luò)
控制系統(tǒng)系統(tǒng):SKVMoverIP
機(jī)群控制臺
軟件系統(tǒng):操作系統(tǒng)GridView管理系統(tǒng)GNU/PGI編譯器并行環(huán)境開發(fā)環(huán)境39提綱GPGPU簡介主流GPGPU介紹曙光和GPGPUGPGPU并行編程模式概述CUDA并行編程模式詳細(xì)介紹40GPGPU并行編程模式(1/3)圖形APIOpenGL提供針對圖形渲染的API最早由SGI開發(fā)、跨平臺Direct3D一種基于OLECOM的API依賴于Windows平臺的DirectXOpenCL針對異構(gòu)系統(tǒng)并行編程計(jì)算的API由Apple提出,收到多家硬件廠商支持(IBM,HP,NVIDIA)由Khronos組織維護(hù)2023/6/441GPGPU并行編程模式(2/3)通用計(jì)算編程接口STREAM包含:CAL指令集Brook++類C語言及編譯器特點(diǎn):板載內(nèi)存——帶寬受限支持匯編方式編程2023/6/442GPGPU并行編程模式(3/3)通用計(jì)算編程接口CUDA包含:ISA指令集NVCC編譯器特點(diǎn):利用顯卡sharememory——帶寬高硬件升級代碼可重用性好數(shù)學(xué)庫支持:CUFFT(離散快速傅立葉變換)CUBLAS(離散基本線性計(jì)算)2023/6/443CUDA架構(gòu)詳解以NVIDIATeslaC870圖形卡為例介紹CUDA架構(gòu)CUDA——ComputeUnifiedDeviceArchitecture峰值:518Gflops/card編程模式:CUDAv1.1編譯器:NVCC2023/6/444CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(1/6)在CUDA的程序架構(gòu)中,程序執(zhí)行區(qū)域分為兩個部分:Host與Device。Host指在CPU上執(zhí)行的部分Device指在GPU上執(zhí)行的部分,這部分又稱為“kernel”通常,Host程序會將需要并行計(jì)算的數(shù)據(jù)復(fù)制到GPU的顯存,再由GPU執(zhí)行Device程序,完成后再由Host程序?qū)⒔Y(jié)果從GPU顯存中取回2023/6/445CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(2/6)在這個過程中,CPU擔(dān)任的工作為控制GPU執(zhí)行,調(diào)度分配任務(wù),并能做一些簡單的計(jì)算,而大量需要并行計(jì)算的工作都交給GPU實(shí)現(xiàn)。另外需要注意的是,由于CPU存取顯存時只能通過PCI-Express接口,速度較慢,因此不能經(jīng)常進(jìn)行,以免降低效率。通??梢栽诔绦蜷_始時將數(shù)據(jù)復(fù)制進(jìn)GPU顯存,然后在GPU內(nèi)進(jìn)行計(jì)算,直到獲得需要的數(shù)據(jù),再將其復(fù)制到系統(tǒng)內(nèi)存中。2023/6/446CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(3/6)在程序?qū)嶋H運(yùn)行時,CUDA會產(chǎn)生很多在Device上執(zhí)行的線程(thread),每個線程都會執(zhí)行kernel程序段,根據(jù)索引號(index)的不同,獲取不同的數(shù)據(jù)進(jìn)行計(jì)算。2023/6/447CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(4/6)在CUDA架構(gòu)下,GPU執(zhí)行時的最小單位是線程。32至512個線程組成一個塊(block),每個塊中的線程能存取同一塊共用的顯存(sharedmemory),快速進(jìn)行同步2023/6/448CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(5/6)執(zhí)行相同程序的塊,可以組成格子(grid)。不同塊中的線程無法從對方的共用顯存(sharedmemory)中讀取數(shù)據(jù),因此不同塊中的線程合作效率較低。利用這種模式,可以使程序不用擔(dān)心GPU上實(shí)際能同時執(zhí)行的線程數(shù)目限制。2023/6/449CUDA邏輯結(jié)構(gòu)及內(nèi)存結(jié)構(gòu)(6/6)例如,一個具有少量執(zhí)行單元的GPU,可能會把各個塊中的線程循環(huán)執(zhí)行,而非同時執(zhí)行。不同的格子可以執(zhí)行不同的程序(即kernel)。2023/6/450CUDA存儲類型(1/3)在CUDA架構(gòu)中,要讓線程可以使用各種變量,必須先將數(shù)據(jù)復(fù)制到Device的顯存中,由于Device的顯存分別位于存儲器(Dram)和芯片(Chip)上,因此在讀取速度上有較大區(qū)別,有表中所示的6種。registersread-writeper-threadlocalmemoryread-writeper-threadsharedmemoryread-writeper-blockglobalmemoryread-writeper-gridconstantmemoryread-onlyper-gridtexturememoryread-onlyper-grid2023/6/451CUDA存儲類型(2/3)registers和本地顯存(localmemory)是以線程為單位,同一個塊中的每個線程都有自己的一份registers和本地顯存共享顯存(sharedmemory)則是存在于塊中,讓同一個塊中的每一個線程共用。上面這三種,都是在芯片上的顯存,速度會比位于存儲器上的顯存快,但是容量相比也較小。2023/6/452CUDA存儲類型(3/3)格子中的全局顯存(globalmemory)、常量顯存(constantmemory)、結(jié)構(gòu)顯存(texturememory)這三種顯存可以讓不同塊中的線程一起使用,不同格子又具有各自的全局顯存(globalmemory)、常量顯存(constantmemory)、結(jié)構(gòu)顯存(texturememory)。這三種顯存位于存儲器,相比芯片中的顯存,容量要大得多。并且可以在同一個程序中的不同kernel中持續(xù)的存在和使用,常量顯存(constantmemory)和結(jié)構(gòu)顯存(texturememory)具有只讀屬性,利用快取的機(jī)制可以加速讀取。合理利用各種顯存存放不同的數(shù)據(jù),可以有效提高程序執(zhí)行效率。2023/6/453CUDA并行處理問題(1/2)存取的延遲問題CPU通常使用cache來減少存取內(nèi)存的次數(shù),以避免內(nèi)存延遲影響到執(zhí)行效率。GPU大多沒有cache,采用并行化的方式來隱藏顯存的讀取延遲,即當(dāng)?shù)谝粋€thread需要等待顯存讀取結(jié)果時,開始執(zhí)行第二個thread,依次類推。分支指令的問題CPU通常利用分支預(yù)測(BranchPrediction)、推測運(yùn)算(SpeculativeOperation)等方式來減少分支指令造成的pipelinebubble。GPU則使用類似處理顯存延遲的辦法,通過多線程大量并行的方式能夠彌補(bǔ)效率低的影響。2023/6/454CUDA并行處理問題(2/2)
因此,最適合利用CUDA處理的問題,是可以大量并行化的問題,一方面有效隱藏了顯存的延遲,另一方面利用的GPU上大量的執(zhí)行單元。而粒子模擬程序其大塊的粒子空間區(qū)域正可以劃分為許多并行的子區(qū)域,正好適合這種CUDA編程模式,只是在實(shí)現(xiàn)時需要注意多線程讀寫及邊界處理情況。2023/6/455提綱GPGPU簡介
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026山東事業(yè)單位統(tǒng)考濰坊臨朐縣招聘19人備考題庫及參考答案詳解
- 2026天津力生制藥股份有限公司面向社會選聘營銷中心總經(jīng)理1人備考題庫有答案詳解
- 2026四川九洲教育投資管理有限公司招聘駐場2人備考題庫及一套完整答案詳解
- 2025河南漯河市人力資源和社會保障局所屬事業(yè)單位人才引進(jìn)1人備考題庫及一套答案詳解
- 2026安徽安慶岳西鄉(xiāng)鎮(zhèn)公開選聘5人備考題庫及參考答案詳解
- 2026上半年云南事業(yè)單位聯(lián)考德宏州招聘教師214人備考題庫及完整答案詳解一套
- 2026年1月浙江嘉興市海寧市教育系統(tǒng)事業(yè)單位招聘教師90人備考題庫含答案詳解
- 2026上半年貴州事業(yè)單位聯(lián)考貴州省農(nóng)業(yè)農(nóng)村廳招聘4人備考題庫及一套完整答案詳解
- 2026云南玉溪市峨山縣教育體育系統(tǒng)招聘畢業(yè)生6人備考題庫及答案詳解(考點(diǎn)梳理)
- 2026上半年貴州事業(yè)單位聯(lián)考道真自治縣招聘128人備考題庫(含答案詳解)
- 湖南省婁底市新化縣2024-2025學(xué)年高一上學(xué)期期末考試生物試題(解析版)
- GB/T 45629.1-2025信息技術(shù)數(shù)據(jù)中心設(shè)備和基礎(chǔ)設(shè)施第1部分:通用概念
- 2025年中考?xì)v史開卷考查范圍重大考點(diǎn)全突破(完整版)
- 學(xué)術(shù)誠信與學(xué)術(shù)規(guī)范研究-深度研究
- 《ETF相關(guān)知識培訓(xùn)》課件
- (一模)烏魯木齊地區(qū)2025年高三年級第一次質(zhì)量英語試卷(含答案)
- 2025年云南省普洱市事業(yè)單位招聘考試(833人)高頻重點(diǎn)提升(共500題)附帶答案詳解
- DB15-T 3677-2024 大興安嶺林區(qū)白樺樹汁采集技術(shù)規(guī)程
- 2024年《13464電腦動畫》自考復(fù)習(xí)題庫(含答案)
- 義務(wù)教育階段學(xué)生語文核心素養(yǎng)培養(yǎng)的思考與實(shí)踐
- 綜合利用1噸APT渣項(xiàng)目研究報告樣本
評論
0/150
提交評論