并行處理機(jī)和多處理機(jī)

上傳人：姚*** IP屬地：廣東上傳時間：2023-08-14 格式：PPT 頁數(shù)：52 大?。?.24MB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩47頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

并行處理機(jī)和多處理機(jī)第1頁，課件共52頁，創(chuàng)作于2023年2月并行處理計算機(jī)模型并行處理機(jī)定義：

多個PU按照一定方式互連，在同一個CU控制下，對各自的數(shù)據(jù)完成同一條指令規(guī)定的操作。

從CU看，指令是串行執(zhí)行的，從PU看，數(shù)據(jù)是并行處理的。

并行處理機(jī)也稱為陣列處理機(jī)。按照佛林分類法，它屬于SIMD計算機(jī)。并行處理機(jī)的應(yīng)用領(lǐng)域：

主要用于高速向量或矩陣運算中。8.1并行處理機(jī)結(jié)構(gòu)和實例第2頁，課件共52頁，創(chuàng)作于2023年2月P0M0PE0P1M1PE1P2M2PE2Pn-1Mn-1Pen-1互連網(wǎng)絡(luò)控制器……H·J·Siegel提出的并行處理機(jī)模型下圖是H.J.Siegel提出的SIMD計算機(jī)的操作模型第3頁，課件共52頁，創(chuàng)作于2023年2月并行處理機(jī)的操作模型可用五元組來表示：

M＝(N，C，I，M，R),

其中：

N為PE個數(shù)。如IlliacIV有64個PE。

C為由控制部件CU直接執(zhí)行的指令集，包括標(biāo)量指令和程序控制指令。

I為所有PE并行執(zhí)行的指令集，包括算術(shù)運算、邏輯運算、數(shù)據(jù)尋徑、屏蔽以及其它由每個活動的PE對它的數(shù)據(jù)所執(zhí)行的局部操作。

M為屏蔽操作集，每種屏蔽將PE劃分為允許操作和禁止操作兩個子集。

R是數(shù)據(jù)尋徑集，說明互連網(wǎng)絡(luò)中PE間通信所需要的各種設(shè)置模式。第4頁，課件共52頁，創(chuàng)作于2023年2月系統(tǒng)型號SIMD計算系統(tǒng)

結(jié)構(gòu)和性能語言、編譯器和軟件支持MasPar

MP-1系列1024~16384個PE,26GIPS或1.3Gflops;每個PE帶16KB本地存儲器,X-Net網(wǎng)格加一個多級交叉開關(guān)互連網(wǎng)Fortran77,MasParFortran(MPF)和MasPar并行應(yīng)用語言;X窗口UNIX/OS,符號調(diào)試程序,可視化和動畫制作程序典型并行處理機(jī)第5頁，課件共52頁，創(chuàng)作于2023年2月ActiveMemoryTechnologyDAP600

系列1K位/PE方形網(wǎng)格互連成4096PE的細(xì)粒、位片SIMD陣列，正交4-鄰位鏈接，20GIPS和560Mflops峰值性能由主機(jī)VAX/VMS或UNIXFortran-plus或DAP上APAL提供，主機(jī)的Fortran77或C;與Fortran90標(biāo)準(zhǔn)有關(guān)的Fortran-plusThinkingMachines公司CM-265536個PE排成10維超立方體,每個PE可有1M位存儲器,32個PE共享FPU選件,峰值速度28Gflops和持續(xù)速度5.6Gflops由VAX,Sun或Symbolics360主機(jī)驅(qū)動,PARIS支持的Lisp編譯器、Fortran90、C*和*Lisp第6頁，課件共52頁，創(chuàng)作于2023年2月并行處理機(jī)的基本結(jié)構(gòu)兩種SIMD計算機(jī)的基本結(jié)構(gòu)：分布存儲器并行處理機(jī)共享存儲器并行處理機(jī)一臺并行處理機(jī)由五個部分組成：

多個處理單元PE

多個存儲器模塊M

一個控制器CU

一個互連網(wǎng)絡(luò)ICN

一臺輸入輸出處理機(jī)IOP第7頁，課件共52頁，創(chuàng)作于2023年2月目前的大部分并行處理機(jī)是基于分布式存儲器模型的系統(tǒng)。比較容易構(gòu)成MPP（MassivelyParallelProcessor）,幾十萬個PE。必須依靠并行算法來提高PE的利用率。因此，應(yīng)用領(lǐng)域很有限。CU是控制部件，執(zhí)行標(biāo)量指令，并把向量指令廣播到各個PE中。在CU中通常有一個較大容量的存儲器。IOP是輸入輸出處理機(jī)，或稱為主機(jī)。在IOP上安裝操作系統(tǒng)，它除了負(fù)擔(dān)輸入輸出工作外，還負(fù)責(zé)程序的編輯、編譯和調(diào)試等工作。數(shù)據(jù)在局部存儲器中的分布是一個很關(guān)鍵的問題。標(biāo)量指令與向量指令可以并發(fā)執(zhí)行。1、分布存儲器結(jié)構(gòu)第8頁，課件共52頁，創(chuàng)作于2023年2月LM0互連網(wǎng)絡(luò)……PE0CULM1PE1LMn-1PEn-1IOP……第9頁，課件共52頁，創(chuàng)作于2023年2月共享的多體并行存儲器SM通過互連網(wǎng)絡(luò)與各處理單元PE相連。存儲模塊的數(shù)目等于或略大于處理單元的數(shù)目。同時在存儲模塊之間合理分配數(shù)據(jù)，通過靈活、高速的互連網(wǎng)絡(luò)，使存儲器與處理單元之間的數(shù)據(jù)傳送在大多數(shù)向量運算中都能以存儲器的最高頻率進(jìn)行，而最少受存儲沖突的影響。共享存儲器模型的處理單元數(shù)目一般不多，幾個至幾十個。BurroughsScientificProcessor(BSP)采用了這種結(jié)構(gòu)。16個PE通過一個16×17的對準(zhǔn)互連網(wǎng)絡(luò)訪問17個共享存儲器模塊。存儲器模塊數(shù)與PE數(shù)互質(zhì)可以實現(xiàn)無沖突并行訪問存儲器。2.共享存儲器并行處理機(jī)第10頁，課件共52頁，創(chuàng)作于2023年2月PE0互連網(wǎng)絡(luò)……CUPE1PEn-1IOPSM0……SM1SMk-1第11頁，課件共52頁，創(chuàng)作于2023年2月并行處理機(jī)的主要特點如下：速度快，特別適于高速數(shù)值計算。SIMD依靠的是資源重復(fù)，而不是時間重疊。它依靠增加PE個數(shù)，與流水線處理機(jī)主要依靠縮短時鐘周期相比，其提高速度的潛力要大得多。依賴于互連網(wǎng)絡(luò)和并行算法?；ミB網(wǎng)絡(luò)決定了PE之間的連接模式，也決定了并行處理機(jī)能夠適應(yīng)的算法。需要有一臺高性能的標(biāo)量處理機(jī)。如果一臺機(jī)器的向量處理速度極高，但標(biāo)量處理速度只是每秒一百萬次，那么對于標(biāo)量運算占10％的題目來說，總的有效速度就不過是每秒一千萬次。SIMD基本上是一臺向量處理專用計算機(jī)。盡管它有一個功能很強(qiáng)的控制部件實際上起作標(biāo)量處理機(jī)的作用，但仍然必須和一臺高性能單處理機(jī)配合工作，使后者擔(dān)負(fù)系統(tǒng)的全部管理功能。并行處理機(jī)的特點第12頁，課件共52頁，創(chuàng)作于2023年2月IlliacIV是最先采用SIMD結(jié)構(gòu)的并行機(jī)隨后一個方向是用位片PE制造的并行機(jī)，如GoodyearMPP、AMT/DAP610和TMC/CM-2。CM-5是以SIMD模式運行的同步MIMD計算機(jī)。另一方向是用字寬運算PE的中粒度SIMD計算機(jī)。并行處理機(jī)的兩個發(fā)展方向：保留陣列結(jié)構(gòu)，但每個處理單元的規(guī)模減小，如一個bit。去掉陣列結(jié)構(gòu)和分布存儲器。Burroughs公司的BSP是典型代表。

GF-11是由IBMWatson實驗室研制、作科學(xué)模擬研究用的。MasParMP1是中粒度并行處理機(jī)的典型代表。下面介紹并行處理機(jī)的兩種典型代表：采用陣列結(jié)構(gòu)分布存儲器的IlliacIV并行處理機(jī)

去掉陣列結(jié)構(gòu)和分布存儲器BSP并行處理機(jī)。并行處理機(jī)實例第13頁，課件共52頁，創(chuàng)作于2023年2月IlliacIV(Barnes等，1968）GoodyearMPP(Batcher,1980）BSP(kuck和Stokes，1982）DAP610(AMT，Inc.1987)CM-2(TMC,1990)CM-5(TMC,1991)MasParMPI(Nickolls,1990)IBMGF-11(Beetem等，1985）SIMD計算機(jī)發(fā)展過程第14頁，課件共52頁，創(chuàng)作于2023年2月1963年，美國西屋電器公司提出“Slotnick，TheSOLOMONComputer，SimultaneousOperationlinkedOrdinalModularNetwork”。1966年美國國防遠(yuǎn)景研究規(guī)劃局ARPR與伊利諾依大學(xué)簽定合同。原計劃：256個PE，每個PE每240ns處理一個64位的浮點數(shù)，每個局部存儲器PEM為2K?64位，總的運算速度為1GFLOPS。美國Burroughs公司和伊利諾依大學(xué)于1972年共同設(shè)計和生產(chǎn)，1975年實際投入運行。用了4倍的經(jīng)費，只達(dá)到1/20的速度。只實現(xiàn)了8?8＝64個PE，只達(dá)到50MFLOPS。IlliacIV系統(tǒng)的影響非常大。它是并行處理機(jī)的典型代表，也是分布存儲器并行處理機(jī)的典型代表。IlliacIV系統(tǒng)由三大部分組成。IlliacIV處理機(jī)陣列，陣列控制器，一臺標(biāo)準(zhǔn)的BurroughsB6700計算機(jī)。1IlliacIV

陣列處理機(jī)第15頁，課件共52頁，創(chuàng)作于2023年2月第16頁，課件共52頁，創(chuàng)作于2023年2月1、IlliacIV處理陣列IlliacIV處理陣列由8′8＝64個PU組成。每個PU由處理部件PE和它的局部存儲器PEM組成。每一個PUi只和它的東、西、南、北四個近鄰直接連接。{PUi+1mod64、PUi-1mod64、PUi+8mod64、PUi-8mod64}南北方向上同一列的PU連成一個環(huán)，東西方向上構(gòu)成一個閉合螺線。采用閉合螺線最短距離不超過7步。而普通網(wǎng)格最短距離不超過8步。例如：從PU0到PU36的距離：采用普通網(wǎng)格必須8步：

PU0?PU1

?PU2

?PU3

?PU4

?PU12

?PU20

?PU28

?PU36

或PU0

?PU8

?PU16

?PU24

?PU32

?PU33

?PU34

?PU35

?PU36

或……（等于8步的很多，大于8步的更多）

如果采用閉合螺旋線，只需要7步：

PU0?PU63?PU62?PU61?PU60?PU52?PU44?PU36第17頁，課件共52頁，創(chuàng)作于2023年2月普通網(wǎng)格必須8步：

PU0?PU1?PU2?PU3?PU4?PU12?PU20?PU28?PU36

或PU0?PU8?PU16?PU24?PU32?PU33?PU34?PU35?PU36

或……閉合螺旋線只要7步：

PU0?PU63?PU62?PU61?PU60?PU52?PU44?PU36

或

PU0?PU63?PU55?PU47?PU39?PU38?PU37?PU36

或……第18頁，課件共52頁，創(chuàng)作于2023年2月第19頁，課件共52頁，創(chuàng)作于2023年2月2、陣列控制器陣列控制器CU實際上是一臺小型控制計算機(jī)。對陣列處理單元實行控制和完成標(biāo)量操作。標(biāo)量操作與各PE的數(shù)組操作可以重疊執(zhí)行?？刂破鞯墓δ苡幸韵挛鍌€方面：

(1)對指令進(jìn)行譯碼，并執(zhí)行標(biāo)量指令；

(2)向各處理單元發(fā)出執(zhí)行數(shù)組操作指令所需的控制信號；

(3)產(chǎn)生和向所有處理單元廣播公共的地址；第20頁，課件共52頁，創(chuàng)作于2023年2月(4)產(chǎn)生和向所有處理單元廣播公共的數(shù)據(jù)；

(5)接收和處理PE、I/O操作以及B6700產(chǎn)生的陷阱中斷信號。2、輸入輸出系統(tǒng)IlliacIV的輸入輸出系統(tǒng)由磁盤文件系統(tǒng)DFS、I/O分系統(tǒng)和一臺B6700處理機(jī)組成。I/O分系統(tǒng)又由輸入輸出開關(guān)IOS、控制描述字控制器CDC和輸入輸出緩沖存儲器BIOM三個部分組成。第21頁，課件共52頁，創(chuàng)作于2023年2月試在含一個PE的SISD機(jī)和在含m個PE的且連接成一線性環(huán)的SIMD機(jī)上計算下列求內(nèi)積的表達(dá)式。假定完成每次ADD操作需2個單元時間，完成每次MULTIPLY操作需4個單位時間，沿雙向環(huán)在相鄰PE間移數(shù)需1個單位時間。（1）SISD計算機(jī)上計算s需多少時間？（2）SIMD計算機(jī)上計算s需多少時間？（3）用SIMD機(jī)計算s相對于用SISD機(jī)計算的加速比是多少？[習(xí)題8.6]第22頁，課件共52頁，創(chuàng)作于2023年2月（1）在SISD計算機(jī)中計算s需要串行計算n次乘法和n-1次加法。共需要時間：算法如下：

S=A1*B1Fori=2tonDo S=S+Ai*BiEnddo（2）在SIMD計算機(jī)上計算采用如下的算法：（假設(shè)m≤n）首先，把向量中的n對元素盡量平均地分配到m個處理器中，每個處理器最多分配[n/m]+1對，最少分配[n/m]對，最多經(jīng)過4（[n/m]+1）+2[n/m]時間，所有n個處理器上都得到了一個局部和，對這m個處理器

[解答]

第23頁，課件共52頁，創(chuàng)作于2023年2月構(gòu)成的線性環(huán)做累加運算。若采用兩路7線性累加的方法共用做加法[m/2]次,數(shù)據(jù)傳遞[m/2]次，共用時間4（[n/m]+1）+2[n/m]+3[m/2]=6[n/m]+3[m/2]+4。若用遞歸累加的方法，假設(shè)m是2的p次冪。做p次并行的加法，移位1+2+4+…+m/2=m-1次。用時2p+（m-1）?？偣灿脮r為

4（[n/m]+1）+2[n/m]+2logm+（m-1）=6[n/m]+m+2logm+3進(jìn)一步分析：當(dāng)2logm<m/2時即m>16時并行累加比兩路線性累加更優(yōu)。反之，當(dāng)m<16時，兩路線性累加更快。其根本原因就是并行累加算法節(jié)省了加法時間，但是花費更多的數(shù)據(jù)傳送時間。第24頁，課件共52頁，創(chuàng)作于2023年2月算法描述如下:Par：Forj=1tomDoS(j)=A1j*B1jFor2to[n/m]DoS(j)=S(j)+Aij*BijEnddoS(j)=S(j)+S(j+1)S(j)=S(j)+S(j+2)S(j)=S(j)+S(j+4)……S(j)=S(j)+S(j+[n/m])Enddo第25頁，課件共52頁，創(chuàng)作于2023年2月

（3）加速比當(dāng)采用兩路線性累加的方法時加速比為：若m=n，做乘法的時間變?yōu)?，則加速比簡化為當(dāng)采用遞歸并行累加時加速比為：當(dāng)m=n時，做乘法的時間變?yōu)?，則加速比簡化為第26頁，課件共52頁，創(chuàng)作于2023年2月分析其原因，可以看出，線性互連網(wǎng)絡(luò)的傳輸開銷在這里是制約加速比增長的最大障礙，無論采用何種并行算法，一個數(shù)據(jù)從線性環(huán)形網(wǎng)絡(luò)中的一個節(jié)點傳遞到最遠(yuǎn)的節(jié)點的最短時間為m/2，這個時間是無法改進(jìn)的，并且隨著處理節(jié)點的增多成為最主要的時間開銷。相對而言，加法和乘法隨著處理單元的增多，所占的時間比例越來越小。

第27頁，課件共52頁，創(chuàng)作于2023年2月8.2多處理機(jī)結(jié)構(gòu)和實例兩個或兩個以上處理機(jī)(包括PU和CU)，通過高速互連網(wǎng)絡(luò)連接起來，在統(tǒng)一的操作系統(tǒng)管理下，實現(xiàn)指令以上級（任務(wù)級、作業(yè)級）并行。按照Flynn分類法，多處理機(jī)系統(tǒng)屬于MIMD計算機(jī)。多處理機(jī)系統(tǒng)由多個獨立的處理機(jī)組成，每個處理機(jī)都能夠獨立執(zhí)行自己的程序。第28頁，課件共52頁，創(chuàng)作于2023年2月多處理機(jī)結(jié)構(gòu)由若干臺獨立的計算機(jī)組成，每臺計算機(jī)能夠獨立執(zhí)行自己的程序。Flynn稱這種結(jié)構(gòu)為多指令流多數(shù)據(jù)流（MIMD）結(jié)構(gòu)。多處理機(jī)系統(tǒng)中的處理機(jī)之間按某種形式互連，從而實現(xiàn)程序之間的數(shù)據(jù)交換和同步。多處理機(jī)系統(tǒng)中每臺處理機(jī)都有寄存器、運算器、邏輯部件、訪問存儲器和I/O的通道。還有一種多處理機(jī)系統(tǒng)中每臺處理機(jī)有自己的存儲器和I/O設(shè)備。多處理機(jī)結(jié)構(gòu)第29頁，課件共52頁，創(chuàng)作于2023年2月互連網(wǎng)絡(luò)處理機(jī)1處理機(jī)2處理機(jī)N存儲器存儲器存儲器I/OI/O具有通過互連網(wǎng)絡(luò)共享存儲器和I/O的多處理機(jī)系統(tǒng)第30頁，課件共52頁，創(chuàng)作于2023年2月處理機(jī)1存儲器I/O處理機(jī)2存儲器I/O處理機(jī)N存儲器I/O互連網(wǎng)每個處理機(jī)都擁有自己的存儲器和I/O的多處理機(jī)系統(tǒng)第31頁，課件共52頁，創(chuàng)作于2023年2月

1、結(jié)構(gòu)靈活性并行處理機(jī)：專用，PE數(shù)很多（幾千個），固定有限的通信

多處理機(jī)：通用，幾十個，高速靈活的通信2、程序并行性并行處理機(jī)的并行性存在于指令內(nèi)部，識別比較容易。

多處理機(jī)的并行性存在于指令外部，在多個任務(wù)之間，識別難度較大。一個簡單的例子：

Y=A+B*C*D/E+F

用兩個處理機(jī)：

CPU1：CPU2：B*C，D/E，

A+F，B*C*D/E

A+B*C*D/E+F多處理機(jī)系統(tǒng)的特點第32頁，課件共52頁，創(chuàng)作于2023年2月3、并行任務(wù)派生

并行處理機(jī)把同種操作集中在一起，由指令直接啟動各PE同時工作。多處理機(jī)用專門的指令來表示并發(fā)關(guān)系，一個任務(wù)開始執(zhí)行時能夠派生出與它并行執(zhí)行的另一些任務(wù)，如果任務(wù)數(shù)多于處理機(jī)數(shù)，多余的任務(wù)進(jìn)入排隊器等待。4、進(jìn)程同步

并行處理機(jī)僅一個CU，自然是同步的

多處理機(jī)執(zhí)行不同的指令，工作進(jìn)度不會也不必保持相同,先做完的要停下來等待。有數(shù)據(jù)相關(guān)和控制相關(guān)也要停下來等待,要采取特殊的同步措施來保持程序所要求的正確順序。5、資源分配和進(jìn)程調(diào)度

并行處理機(jī)的PE是固定的，采用屏蔽手段改變實際參加操作的PE數(shù)目

多處理機(jī)執(zhí)行并發(fā)任務(wù)，需用處理機(jī)的數(shù)目不固定，各個處理機(jī)進(jìn)入或退出任務(wù)的時刻不相同，所需共享資源的品種、數(shù)量又隨時變化提出資源分配和進(jìn)程調(diào)度問題，它對整個系統(tǒng)的效率有很大的影響。第33頁，課件共52頁，創(chuàng)作于2023年2月引起峰值性能下降的原因是：

(1)因處理機(jī)間通信而產(chǎn)生的延遲

(2)一臺處理機(jī)與其它處理機(jī)同步所需的開銷

(3)當(dāng)沒有足夠多任務(wù)時，一臺或多臺處理機(jī)處于空閑狀態(tài)

(4)由于一臺或多臺處理機(jī)執(zhí)行無用的工作

(5)系統(tǒng)控制和操作調(diào)度所需開銷研究多處理機(jī)的目的：

提前5年得到速度高10倍的機(jī)器。或用1/10的價格獲得一臺高性能的機(jī)器。

如果設(shè)計得好，在某些適合進(jìn)行并行處理得應(yīng)用領(lǐng)域，可以達(dá)到：提前10年得到速度高100倍的機(jī)器或用1/100的價格獲得一臺高性能的機(jī)器。多處理機(jī)性能模型第34頁，課件共52頁，創(chuàng)作于2023年2月并行性在很大程度上依賴于R/C比值，其中：R代表程序執(zhí)行時間，C代表通信開銷。通常：R/C比值小，并行性低。R/C比值大，并行性高如果把作業(yè)分解成較大的塊，就能得到較大的R/C值，但是所得到的并行性比最大可能的并行性要小得多。R/C比值是衡量任務(wù)粒度(Granularity)大小的尺度

在粗粒度（Coarsegrain）并行情況下，R/C比值比較大，通信開銷小

在細(xì)粒度（Finegrain）并行情況下，R/C比值比較小，通信開銷大細(xì)粒度并行性需要的處理機(jī)多，粗粒度并行性需要的處理機(jī)少。細(xì)粒度并行性的基本原理是把一個程序盡可能地分解成能并行執(zhí)行的小任務(wù)。在極端情況下，一個小任務(wù)只完成一個操作。第35頁，課件共52頁，創(chuàng)作于2023年2月1.基本模型在兩臺處理機(jī)情況每個任務(wù)的執(zhí)行時間為R個單位時間兩個任務(wù)不在同一臺處理機(jī)上時，通信開銷為C個單位時間K個任務(wù)給一臺處理機(jī)M-K個任務(wù)給另一臺處理機(jī)總處理時間=Rmax(M-K，K)+C(M-K)K結(jié)論：當(dāng)R/C<M/2時，把所有任務(wù)分配給一臺處理機(jī)能使總處理時間最??；當(dāng)R/C>M/2時，把任務(wù)平均分給兩臺處理機(jī)能使總處理時間最小。第36頁，課件共52頁，創(chuàng)作于2023年2月2.N臺處理機(jī)系統(tǒng)的基本模型將Ki個任務(wù)分配給第i臺處理機(jī)。推廣前面的式子：第37頁，課件共52頁，創(chuàng)作于2023年2月分析任務(wù)均分給N臺處理機(jī)和任務(wù)集中在一臺處理機(jī)的總處理時間差，有：如果R/C比臨界值M/2大，將任務(wù)平均分配給盡可能多的處理機(jī)進(jìn)行處理，能獲得最短處理時間。如果R/C比臨界值M/2小，即使有很多臺處理機(jī)可供使用，也不可能比用一臺處理機(jī)處理全部任務(wù)快。第38頁，課件共52頁，創(chuàng)作于2023年2月并行系統(tǒng)的加速比是一個計算問題在一臺處理機(jī)上的運行時間與在并行系統(tǒng)上的運行時間的比值，可近似如下：多處理機(jī)的Cache一致性（自己看）第39頁，課件共52頁，創(chuàng)作于2023年2月多處理機(jī)系統(tǒng)主要有四大類：(1)多向量處理機(jī)系統(tǒng)：如CRAYYMP-90,NECSX-3和FUJITSUVP-2000(2)SMP(SymmetryMultiProcessors)對稱多處理機(jī);SMP(SharedMemoryMulptiProcessors)共享存儲多處理機(jī)如SGIChallenge，SunSparcCenter2000(3)MPP(massivelyparallelprocessing)大規(guī)模并行處理機(jī)

如IntelParagon,CM-5,CrayT3D(4)Cluster機(jī)群系統(tǒng)（NOW或COM）

多處理機(jī)實例第40頁，課件共52頁，創(chuàng)作于2023年2月科學(xué)計算中的重大課題要求提供3T性能：

(1)1Teraflops計算能力

(2)1Terabyte主存儲器

(3)1Terabyte/s輸入輸出頻帶寬度

目前，速度還慢1000倍左右，存儲容量和I/O帶寬差距更大?？茖W(xué)計算中的重大課題：

全球氣候預(yù)報,基因工程,飛行動力學(xué),海洋環(huán)流,流體動力學(xué),超導(dǎo)建模,半導(dǎo)體建模,量子染色動力學(xué),視覺采用的關(guān)鍵技術(shù)：

VLSI,可擴(kuò)展技術(shù),共享虛擬存儲技術(shù)大規(guī)模并行處理機(jī)(MPP)第41頁，課件共52頁，創(chuàng)作于2023年2月虛擬共享存儲器(SharedVirtualMemory)

也稱為共享分布存儲器(DistributedSharedMemory)；物理上分布存儲器，邏輯上共享存儲器。虛擬共享存儲器的優(yōu)點：

編程容易,系統(tǒng)結(jié)構(gòu)靈活

可擴(kuò)充性好,有較好的軟件移植性與消息傳遞方式相比，程序運行效率高，主要原因：(1)數(shù)據(jù)塊緩存在本地(內(nèi)存或Cache中),可以多次使用

(2)通信時間分散，提高了并行性

(3)擴(kuò)大存儲空間，減少換頁操作虛擬共享存儲器實現(xiàn)途徑：

(1)硬件實現(xiàn),利用Cache技術(shù)。需要增加專用硬件

(2)操作系統(tǒng)和庫實現(xiàn)，通過虛擬存儲機(jī)制取得共享和一致性。在松耦合的分布存儲多處理機(jī)上，不需要增加任何硬件

(3)編譯實現(xiàn)，自動將共享訪問轉(zhuǎn)換成同步和一致原語。大多數(shù)系統(tǒng)采用途徑(1)和(2)，或這兩種途徑結(jié)合實現(xiàn)第42頁，課件共52頁，創(chuàng)作于2023年2月SMP稱為共享存儲多處理機(jī)(SharedMemorymulptiProcessors),也稱為對稱多處理機(jī)

(SymmetryMultiProcessors)有三種模型：(1)UMA多處理機(jī)

均勻存儲器存取模型(UniformMemoryAccess)

存儲器被所有處理機(jī)均勻共享

所有處理機(jī)對所有存儲單元具有相同的存取時間每臺處理機(jī)有局部Cache外圍設(shè)備可以共享(2)NUMA多處理機(jī)

非均勻存儲器存取(NonuniformMemoryAccess)模型

存儲器訪問時間隨存儲單元的位置不同而變化。

共享存儲器在物理上是分布在所有處理機(jī)中的本地存儲器。所有局部存儲器地址空間的集合就組成了全局地址空間。

對稱多處理機(jī)(SMP)第43頁，課件共52頁，創(chuàng)作于2023年2月系統(tǒng)互連網(wǎng)絡(luò)NUMA多處理機(jī)模型P1LM1……P2LM2PnLMn系統(tǒng)互連網(wǎng)絡(luò)（總線、交叉開關(guān)、多級網(wǎng)絡(luò)）UMA多處理機(jī)模型P1……P2PnSM1SM2SM2I/O……第44頁，課件共52頁，創(chuàng)作于2023年2月處理機(jī)訪問本地存儲器比較快，訪問屬于另一臺處理機(jī)的遠(yuǎn)程存儲器則比較慢，因為通過互連網(wǎng)絡(luò)會產(chǎn)生附加的時間延遲。(3)COMA多處理機(jī)只有Cache的存儲器結(jié)構(gòu)(Cache-OnlyMemoryArchitecture)模型；COMA是一種只用Cache的多處理機(jī)系統(tǒng)實際上，COMA模型是NUMA模型的一種特例，后者分布存儲器換成了Cache在每個處理機(jī)結(jié)點上沒有主存儲器，全部Cache組成了全局虛擬地址空間遠(yuǎn)程Cache訪問通過分布Cache目錄進(jìn)行共享存儲系統(tǒng)擁有統(tǒng)一的尋址空間，程序員不必參與數(shù)據(jù)分配和傳輸。第45頁，課件共52頁，創(chuàng)作于2023年2月互連網(wǎng)絡(luò)COMA多處理機(jī)模型D1Cache1……P1D2Cache2P2DnCachenPn第46頁，課件共52頁，創(chuàng)作于2023年2月1、機(jī)群系統(tǒng)的組成機(jī)群系統(tǒng)是利用高速網(wǎng)絡(luò)將一組高性能工作站或高檔PC機(jī)連接起來，在并行程序設(shè)計以及可視化人機(jī)交互集成開發(fā)環(huán)境支持下，統(tǒng)一調(diào)度，協(xié)調(diào)處理，實現(xiàn)高效并行處理的系統(tǒng)。Cluster、NOW、COW從結(jié)構(gòu)和結(jié)點間的通信方式來看，屬于分布存儲系統(tǒng)。機(jī)群系統(tǒng)中的主機(jī)和網(wǎng)絡(luò)可以是同構(gòu)的，也可以是異構(gòu)的。微處理機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和并行編程環(huán)境的發(fā)展使得機(jī)群系統(tǒng)這一新的并行處理系統(tǒng)形式正成為當(dāng)前研究的熱點。

(1)微處理器的性能不斷提高。

(2)網(wǎng)絡(luò)技術(shù)的進(jìn)步使得松散耦合系統(tǒng)的通信瓶頸逐步得到緩解。

機(jī)群系統(tǒng)(Cluster)第47頁，課件共52頁，創(chuàng)作于2023年2月(3)并行編程環(huán)境的開發(fā)使得新編并行程序或改寫串行程序更為容易。2、機(jī)群系統(tǒng)的特點(1)系統(tǒng)開發(fā)周期短。(2)用戶投資風(fēng)險小。(3)系統(tǒng)價格低。(4)節(jié)約系統(tǒng)資源。UCBerkeley計算機(jī)系100多臺工作站的使用情況調(diào)查表明，一般單機(jī)系統(tǒng)的使用率不到10%，而機(jī)群系統(tǒng)中的資源利用率可達(dá)到80%左右。(5)系統(tǒng)擴(kuò)展性好。(6)用戶編程方便。第48頁，課件共52頁，創(chuàng)作于2023年2月3、機(jī)群系統(tǒng)的關(guān)鍵技術(shù)(1)高效的通信系統(tǒng)

在用戶空間實現(xiàn)通信協(xié)議

精簡通信協(xié)議

ActiveMessage通信機(jī)制(2)并行程序設(shè)計環(huán)境

PVM(ParallelVirtualMachine)

開始于1989年夏天,美國橡樹嶺國家實驗室(ORNL)；是一套并行計算工具軟件，支持多用戶及多任務(wù)運行；支持多種結(jié)構(gòu)的計算機(jī)，工作站、并行機(jī)以及向量機(jī)等；支持C、C++和

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

并行處理機(jī)和多處理機(jī)

文檔簡介

溫馨提示

最新文檔

評論

并行處理機(jī)和多處理機(jī)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔