高級體系結(jié)構(gòu)1課件_第1頁
高級體系結(jié)構(gòu)1課件_第2頁
高級體系結(jié)構(gòu)1課件_第3頁
高級體系結(jié)構(gòu)1課件_第4頁
高級體系結(jié)構(gòu)1課件_第5頁
已閱讀5頁,還剩162頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高性能計算機(jī)體系結(jié)構(gòu)喬百友(83681250)高性能計算機(jī)體系結(jié)構(gòu)參考教材

ComputerArchitecture:AQuantitativeApproach,HennessyandPatterson,機(jī)械工業(yè)高等計算機(jī)系統(tǒng)結(jié)構(gòu)并行性可擴(kuò)展性可編程性清華大學(xué)出版社ParallelComputerArchitecture--AHardware/softwareApproach機(jī)械工業(yè)計算機(jī)系統(tǒng)結(jié)構(gòu)張晨曦等,高等教育出版社,2008并行計算機(jī)系統(tǒng)結(jié)構(gòu)與可擴(kuò)展計算,古志民、孫賢和

清華大學(xué)出版社2009并行計算機(jī)體系結(jié)構(gòu),陳國良等著,高等教育出版社,2002主要內(nèi)容1.高性能計算與高性能計算機(jī)2.指令流水技術(shù)基礎(chǔ)(復(fù)習(xí))3.指令級并行性4.指令的動態(tài)調(diào)度與分支預(yù)測5.互連網(wǎng)絡(luò):拓?fù)浣Y(jié)構(gòu),尋徑技術(shù),6.并行處理基礎(chǔ):模型,性能,自動并行化7.共享存儲器多處理機(jī):cache一致性,同步8.大規(guī)模并行處理:主動消息,多線程國家高性能計算中心(合肥)52023/4/101.高性能計算的意義1.1高性能計算的內(nèi)在含義1.2高性能計算的應(yīng)用需求1.3高性能計算的戰(zhàn)略地位61.高性能計算的意義(1)1.1高性能計算的內(nèi)在含義計算和計算科學(xué)所有的學(xué)科都轉(zhuǎn)向定量化和精確化三大科學(xué):理論科學(xué)、實驗科學(xué)和計算科學(xué)計算科學(xué)是一個交叉學(xué)科,用計算的方法來解決應(yīng)用問題。適用于理論模型復(fù)雜或尚未建立、實驗費用昂貴或無法進(jìn)行。計算物理、計算化學(xué)、計算生物學(xué)、計算地質(zhì)學(xué)、計算氣象學(xué)。并行計算是跟上摩爾定律的重要手段。1.高性能計算的意義(2)高性能計算HPC(HighPerformanceCompute)泛指量大、快速、高效的運算高性能計算---并行計算并行計算(ParallelComputing)高端計算(High-endParallelComputing)高性能計算(HighPerformanceComputing)超級計算(SuperComputing)NortheasternUniversitySep.6,2012MossoGoogleAppEngineRailsOneSalesforceGmailGliffyJoyentAmazoneWebSvcsNirvanixXcalibreAkamaiPaaSSaaSIaaSCloudComputing云計算是并行計算(ParallelComputing)、分布式計算(DistributedComputing)和網(wǎng)格計算(GridComputing)的發(fā)展,或者說是這些計算機(jī)科學(xué)概念的商業(yè)實現(xiàn)云計算是虛擬化(Virtualization)、效用計算(UtilityComputing)、IaaS(基礎(chǔ)設(shè)施即服務(wù))、PaaS(平臺即服務(wù))、SaaS(軟件即服務(wù))等概念混合演進(jìn)并躍升的結(jié)果101.高性能計算的意義(4)高性能計算的量綱111.高性能計算的意義(5)1.2高性能計算的應(yīng)用需求應(yīng)用需求計算密集型應(yīng)用(Computing-intensive):大型科學(xué)工程計算,數(shù)值模擬等。應(yīng)用領(lǐng)域:石油、氣象、CAD、核能、制藥、環(huán)境監(jiān)測分析、系統(tǒng)仿真等。數(shù)據(jù)密集型應(yīng)用(Data-intensive):數(shù)字圖書館,數(shù)據(jù)倉庫,數(shù)據(jù)挖掘,計算可視化等。應(yīng)用領(lǐng)域:圖書館、銀行、證券、稅務(wù)、決策支持系統(tǒng)等。通信密集型應(yīng)用(Network-intensive):協(xié)同工作,網(wǎng)格計算,遙控和遠(yuǎn)程診斷等。應(yīng)用領(lǐng)域:網(wǎng)站、信息中心、搜索引擎、電信、流媒體等。天氣預(yù)報

1990年10次臺風(fēng)登陸,福建、浙江兩省損失79億元,死亡950余人。 天氣預(yù)報模式為非線性偏微分方程,預(yù)報臺風(fēng)暴雨過程,計算量為1014—1016次浮點運算,需要10GFlops—100GFlops的巨型機(jī)。

用途:局部災(zāi)害性天氣預(yù)報。石油工業(yè)

地震勘探資料處理 油藏數(shù)值模擬 測井資料處理地震勘探由數(shù)據(jù)采集、數(shù)據(jù)處理和資料解釋三階段組成。目前采用的三維地震勘探比較精確的反映地下情況,但數(shù)據(jù)量大,處理周期長。100平方公里的三維勘探面積,道距25米,60次覆蓋,6秒長記錄,2毫秒采樣,一共采集2.881010個數(shù)據(jù),約為116GB。疊加后數(shù)據(jù)為4.8108個數(shù)據(jù)。用二維疊加深度偏移方法精確的產(chǎn)生地下深度圖像,需要進(jìn)行251012FLOP,采用100MFLOPs機(jī)器計算250天,1GFLOPs機(jī)計算25天,10GFLOPs機(jī)器35分??紤]到機(jī)器持續(xù)速度常常是峰值速度的10-30%,所以需要100GFlops的機(jī)器。CrayT932/32約為60GFLOPs。核武器 核爆炸數(shù)值模擬,推斷出不同結(jié)構(gòu)與不同條件下核裝置的能量釋放效應(yīng)。 壓力:幾百萬大氣壓 溫度:幾千萬攝氏度 能量在秒級內(nèi)釋放出來。 設(shè)計一個核武器型號,從模型規(guī)律、調(diào)整各種參數(shù)到優(yōu)選,需計算成百上千次核試驗。

LosAlamos實驗室要求計算一個模型的上限為8-10小時。

千萬次機(jī)上算橢球程序的計算模型需要40-60CPU小時。二維計算,每方向上網(wǎng)格點數(shù)取100,二維計算是一維的200倍,三維是一維的33000倍。若每維設(shè)1000網(wǎng)格點,則三維計算是一維的幾十萬倍之多。此時對主存儲器容量要數(shù)十、數(shù)百億字單元(64位)。另外還有I/O能力的要求,可視化圖形輸出

計算空氣動力學(xué):千億次/秒(1011)圖像處理: 百億次/秒(1010)

AI: 萬億次/秒(1012)231.高性能計算的意義(7)1.3高性能計算的戰(zhàn)略地位從戰(zhàn)略高度上講高性能計算技術(shù)是一個國家綜合國力和科技創(chuàng)新力的重要標(biāo)志,各個國家競相爭奪的戰(zhàn)略制高點。高性能高計算是支撐國家實力持續(xù)發(fā)展的關(guān)鍵技術(shù)之一。高性能計算國防安全、高科技發(fā)展和國民經(jīng)濟(jì)建設(shè)中占有重要的戰(zhàn)略地位。

重大挑戰(zhàn)問題:飛機(jī)設(shè)計、藥物設(shè)計、全球氣候預(yù)測、人類基因、海洋環(huán)流新材料、油藏數(shù)值模擬、生物分子結(jié)構(gòu)、半導(dǎo)體建模、超導(dǎo)建模等。251.高性能計算的意義(9)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(2)清單(按年代排序)1982年,美國國家科學(xué)院:《關(guān)于科學(xué)研究及工程中的大規(guī)模計算》1993年,美國國家科學(xué)院:《從臺式計算機(jī)到萬億次計算機(jī):充分發(fā)揮美國在高性能計算領(lǐng)域領(lǐng)導(dǎo)權(quán)》1995年,美國國家科學(xué)院:《特別工作組關(guān)于未來國家科學(xué)基金委超級計算中心計劃報告》1996年,美國總統(tǒng)信息技術(shù)顧問委員會:《信息技術(shù)研究:為了未來》2000年,美國國家科學(xué)院:《促使信息技術(shù)更好》2001年,美國國家科學(xué)院:《無處不在》2002年,美國國防部:《適用于國家安全部門的高性能計算》2003年,美國能源部:《基于科學(xué)的大規(guī)模模擬》

2003年,美國國家科學(xué)基金委:《通過計算機(jī)基礎(chǔ)結(jié)構(gòu)變革科學(xué)與工程》

2003年,美國國家科學(xué)基金委:《信息時代的知識丟失》2004年,美國國家競爭力委員會:《促使美國變革并提高競爭力》

2004年,美國跨機(jī)構(gòu):《聯(lián)邦高端計算計劃-高端計算復(fù)興特別工作組》2005年,美國國家科學(xué)院:《超級計算機(jī)未來》

2005年,美國總統(tǒng)信息技術(shù)顧問委員會:《計算科學(xué):確保美國競爭力》···261.高性能計算的意義(10)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(3)美國發(fā)展有關(guān)高性能計算的行動計劃1993年,美國科學(xué)工程技術(shù)聯(lián)邦協(xié)調(diào)理事會:《HPCC(HighperformanceComputing&Communication)GrandChallenge》計劃,提出發(fā)展萬億次(Tera=1012)計算機(jī)計劃。1996年,美國能源部和LawrenceLivermore、LosAlamos、Sandia三大核武器國家實驗室:《ASIC(AcceleratedStrategicComputingInitiative)》計劃,提出發(fā)展千萬億次(Pera=1015)計算機(jī)的目標(biāo)。1997年,HPCC包括了HECC(HighEndComputing&Communication),被擴(kuò)展為CIC(Computing,Information,Communication)計劃。1998年度的CIC藍(lán)皮書,將千萬億次計算機(jī)硬件和軟件研制列入了計劃中。2002年啟動HPCS計劃,希望確定未來10到20年超級計算機(jī)的體系結(jié)構(gòu)?!ぁぁ?91.高性能計算的意義(13)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(6)—ASCI高性能計算機(jī)BlueMountainOptionRed301.高性能計算的意義(14)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(7)美國2002年啟動的千萬億次超級計算機(jī)研究HPCS計劃從2002年起的兩年多時間里,ES占據(jù)TOP1位置Cluster并不是HPC的最終體系結(jié)構(gòu)美國DARPA于2002年啟動高生產(chǎn)率計算系統(tǒng)(HighProductivityComputingSystems)HPCS計劃希望確定未來10年甚至20年的高性能計算機(jī)體系結(jié)構(gòu)高生產(chǎn)率而非峰值計算能力作為評價指標(biāo)高性能計算的一個新的創(chuàng)新時代的開始311.高性能計算的意義(15)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(8)HPCS計劃的三個階段321.高性能計算的意義(16)高性能計算在發(fā)達(dá)國家的戰(zhàn)略地位(9)HPCS的設(shè)計策略331.高性能計算的意義(17)高性能計算在我國的戰(zhàn)略地位(1)2006年2月,國務(wù)院發(fā)布《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006~2020年)》指出加速發(fā)展高性能計算對提高我國國防建設(shè)與國家安全、國家經(jīng)濟(jì)建設(shè)、國家重大工程和基礎(chǔ)科學(xué)研究等尖端科技領(lǐng)域的核心支撐能力,具有十分重要的戰(zhàn)略意義。提出要全面提升我國的自主創(chuàng)新能力,以期將我國在2020年前建設(shè)成為一個創(chuàng)新型國家。高性能計算的戰(zhàn)略地位(中國)國家大力發(fā)展高性能計算軍事:銀河、神威等民用:曙光、聯(lián)想等高性能計算已應(yīng)用到國民經(jīng)濟(jì)的多個行業(yè)石油、氣象、軍事、科研等國產(chǎn)高性能計算機(jī)曾進(jìn)入TOP500前10位,總數(shù)也大幅增加安裝的計算機(jī)總數(shù)在增長(28臺)我國超級計算機(jī)發(fā)展年譜

361.高性能計算的意義(18)高性能計算在我國的戰(zhàn)略地位(2)中國高性能計算發(fā)展大事記1983年,由國防科技大學(xué)研制的銀河I型億次巨型機(jī)系統(tǒng)的成功問世,標(biāo)志著我國具備了研制高端計算機(jī)系統(tǒng)的能力。1992年,曙光投入200萬元研制曙光一號。隨后,曙光一號、曙光1000、曙光2000、曙光3000、曙光4000相繼問世。1994年,銀河I的換代產(chǎn)品銀河II在國家氣象局正式投入運行,其系統(tǒng)性能達(dá)每秒10億次,大大縮短了我國與先進(jìn)國家的差距。1997年,銀河III并行巨型計算機(jī)在北京通過國家鑒定,峰值性能為每秒130億浮點運算。1999年,首臺“神威I”計算機(jī)通過了國家級驗收,并在國家氣象中心投入運行。2000年,由1024個CPU組成的銀河Ⅳ超級計算機(jī)系統(tǒng)問世,峰值性能達(dá)到每秒1.0647萬億次浮點運算。2002年,世界上第一個萬億次機(jī)群系統(tǒng)聯(lián)想深騰1800出世,獲得2004年國家科技進(jìn)步二等獎。2003年,聯(lián)想深騰6800問世把世界機(jī)群計算推向新的高峰。2004年,曙光4000A成功研制,使中國成為繼美國、日本之后第三個能研制10萬億次商品化高性能計算機(jī)的國家(進(jìn)入TOP500前10位)。2005年,中國高性能計算機(jī)性能TOP100排行榜揭曉,曙光位居第一。天梭榮獲國家科學(xué)技術(shù)進(jìn)步二等獎。2006年,曙光高性能計算機(jī)被胡錦濤總書記點評為“中國七大標(biāo)志性自主創(chuàng)新成果之一”,曙光4000系列高性能計算機(jī)榮獲國家科學(xué)技術(shù)進(jìn)步二等獎。2007年12月,中國首臺采用國產(chǎn)高性能通用處理器芯片“龍芯2F”的萬億次高性能計算機(jī)“KD-50-I”研制成功。2008年6月24日,中國科學(xué)院計算技術(shù)研究所、曙光公司和上海超級計算中心在中科院計算所聯(lián)合舉行了曙光5000落戶上海超級計算中心的簽約儀式?!ぁぁ?71.高性能計算的意義(19)高性能計算在我國的戰(zhàn)略地位(3)—國產(chǎn)高性能計算平臺神威-I聯(lián)想-6800天河1號(TH-I)曙光-星云(Nebulae)230萬億次的浮點運算

6600枚AMD巴塞羅那型四核處理器(主頻1.9GHz)。

30720顆計算核心,122.88TB內(nèi)存,磁盤700TB采用低延遲的20Gb的網(wǎng)絡(luò)互聯(lián)

IBM“Roadrunner走鵑”TOP500中第一曙光-5000峰值速度和實測速度分別為每秒1206.19萬億次和563.1萬億次

CPU/GPU混合異構(gòu)系統(tǒng)

6144個通用處理器;5120個加速處理器內(nèi)存總?cè)萘?8TB

通信帶寬40Gbps共享磁盤總?cè)萘繛?PB

。共享磁盤總?cè)萘繛?PB

Top500中第五位美國克雷公司“美洲虎”(Jaguar)第一,1.76千萬億次,中國“星云”第二天河一號高性能計算與高性能計算機(jī)高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應(yīng)用需求高性能計算的戰(zhàn)略地位高性能計算發(fā)展與現(xiàn)狀高性能計算機(jī)的發(fā)展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機(jī)展望若干新技術(shù)中國高性能計算的機(jī)遇和挑戰(zhàn)高性能計算機(jī)高性能計算機(jī)由多個計算單元組成,運算速度快、存儲容量大、可靠性高的計算機(jī)系統(tǒng)。也稱為:巨型計算機(jī)、超級計算機(jī)并行計算機(jī)由多個處理單元組成的計算機(jī)系統(tǒng),這些處理單元相互通訊和協(xié)助,能夠高速、高效地求解大型復(fù)雜問題。其發(fā)展歷程可以簡單的分為兩個時代專用時代

包括向量機(jī),MPP系統(tǒng),SGINUMA系統(tǒng),SUN大型SMP系統(tǒng),也包括我國的神威,銀河,曙光1000等。

之所以稱為“專用”,并不是說它們只能運行某種應(yīng)用,是指它們的組成部件是專門設(shè)計的,它們的CPU板,內(nèi)存板,I/O板,操作系統(tǒng),甚至I/O系統(tǒng),都是不能在其它系統(tǒng)中使用的。由于技術(shù)上桌面系統(tǒng)與高端系統(tǒng)的巨大差異,和用戶群窄小。普及時代

高性能計算機(jī)價格下降,應(yīng)用門檻降低,應(yīng)用開始普及。兩個技術(shù)趨勢起到重要作用。

商品化趨勢使得大量生產(chǎn)的商品部件接近了高性能計算機(jī)專有部件

標(biāo)準(zhǔn)化趨勢使得這些部件之間能夠集成一個系統(tǒng)中,其中X86處理器、以太網(wǎng)、內(nèi)存部件、Linux都起到?jīng)Q定性作用。

集群系統(tǒng)是高性能計算機(jī)的一種,它的技術(shù)基礎(chǔ)和工業(yè)基礎(chǔ)都是商品化和標(biāo)準(zhǔn)化。高性能計算機(jī)系統(tǒng)結(jié)構(gòu)并行向量機(jī)SMPDSM(NUMA)MPP,節(jié)點可以是單處理器的節(jié)點,也可以是SMP,DSMClusterConstellation并行計算機(jī)系統(tǒng)類型Flynn分類:SISD,SIMD,MIMD,MISD結(jié)構(gòu)模型:PVP,SMP,MPP,DSM,COW訪存模型:UMA,NUMA,COMA,CC-NUMA,NORMA并行計算機(jī)分類Flynn分類Flynn(1972)提出指令流、數(shù)據(jù)流和多倍性概念,把不同的計算機(jī)分為四大類:SISD(Single-InstructionSingle-Data)SIMD(Single-InstructionMulti-Data)MISD(Multi-InstructionSingle-Data)MIMD(Multi-InstructionMulti-Data)現(xiàn)代高性能計算機(jī)都屬于MIMD。MIMD從結(jié)構(gòu)上和訪存方式上,又可以分為:結(jié)構(gòu)模型:PVP,SMP,MPP,DSM,COW訪存模型:UMA,NUMA,COMA,CC-NUMA,NORMA結(jié)構(gòu)模型對稱多處理機(jī)系統(tǒng)(SMP)SMP對稱式共享存儲:任意處理器可直接訪問任意內(nèi)存地址,且訪問延遲、帶寬、機(jī)率都是等價的;系統(tǒng)是對稱的;微處理器:一般少于64個;處理器不能太多,總線和交叉開關(guān)的一旦作成難于擴(kuò)展;例子:IBMR50,SGIPowerChallenge,SUNEnterprise,曙光一號;分布式共享存儲系統(tǒng)(DSM)DSM分布共享存儲:內(nèi)存模塊物理上局部于各個處理器內(nèi)部,但邏輯上(用戶)是共享存儲的;這種結(jié)構(gòu)也稱為基于Cache目錄的非一致內(nèi)存訪問(CC-NUMA)結(jié)構(gòu);局部與遠(yuǎn)程內(nèi)存訪問的延遲和帶寬不一致,3-10倍高性能并行程序設(shè)計注意;與SMP的主要區(qū)別:DSM在物理上有分布在各個節(jié)點的局部內(nèi)存從而形成一個共享的存儲器;微處理器:16-128個,幾百到千億次;代表:SGIOrigin2000,CrayT3D;大規(guī)模并行計算機(jī)系統(tǒng)(MPP)MPP物理和邏輯上均是分布內(nèi)存能擴(kuò)展至成百上千個處理器(微處理器或向量處理器)采用高通信帶寬和低延遲的互聯(lián)網(wǎng)絡(luò)(專門設(shè)計和定制的)一種異步的MIMD機(jī)器;程序系由多個進(jìn)程組成,每個都有其私有地址空間,進(jìn)程間采用傳遞消息相互作用;代表:CRAYT3E(2048),ASCIRed(3072),IBMSP2,曙光1000集群系統(tǒng)(Cluster)Cluster每個節(jié)點都是一個完整的計算機(jī)各個節(jié)點通過高性能網(wǎng)絡(luò)相互連接網(wǎng)絡(luò)接口和I/O總線松耦合連接每個節(jié)點有完整的操作系統(tǒng)曙光2000、3000、4000,ASCIBlueMountain訪存模型UMA:NORMA:NUMA:多處理機(jī)(單地址空間共享存儲器)

UMA:UniformMemoryAccessNUMA:NonuniformMemoryAccess多計算機(jī)(多地址空間非共享存儲器)

NORMA:No-RemoteMemoryAccess結(jié)構(gòu)模型--訪存模型UMA:NUMA:NORMA:多處理機(jī)&&多計算機(jī)UMA:NUMA:NORMA:多處理機(jī)(共享存儲)

多計算機(jī)(分布式存儲)高性能計算機(jī)的發(fā)展607080900010巨型機(jī)萌芽CDC6600向量機(jī)鼎盛CRAY-1,SX-3MPP發(fā)展CrayT3E,OptionRed機(jī)群發(fā)展NOW,IBMSP2,ASCIQ定制機(jī)器ESBlueGene高性能計算機(jī)的發(fā)展巨型機(jī)萌芽階段(1964-1975)1964年誕生的CDC6600被公認(rèn)為世界上第一臺巨型計算機(jī),運算速度為1Mflops。70年代初研制成功STAR-100向量機(jī),這是世界上最早的向量機(jī)。隨后于1974年,誕生了世界上最早的SIMD陣列計算機(jī)--ILLIAC-IV并行機(jī)。向量機(jī)鼎盛階段(1976-1990)

向量機(jī)處理對提高計算機(jī)運算速度十分有利,有利于流水線的充分利用,有利于多功能部件的充分利用,但由于時鐘周期已接近物理極限,向量計算機(jī)的進(jìn)一步發(fā)展已經(jīng)不太可能。

1976年,CRAY-1向量機(jī),峰值速度為0.1Gflops

1985年,CRAY-2,1Gflops

1990年,SX-3,22Gflops1991年,Cray-YMP-C90,16Gflops

高性能計算機(jī)的發(fā)展MPP蓬勃發(fā)展階段(1990-1995)

傳統(tǒng)向量機(jī)逐漸萎縮,大規(guī)模并行處理MPP機(jī)蓬勃發(fā)展的時代。各種新技術(shù)層出不窮,大公司也紛紛介入。

1989年,BBN公司的TC2000

1992年,Intel公司的Paragon,TMC公司的CM-5

1993年,Cray公司的T3D

1994年,IBM公司的SP2

1996年,Cray公司的T3E,Hitachi公司的SR2201

SGI公司的Origin2000,1996Intel公司的ASCERED

運算速度超過了萬億次/秒。

截至2000年6月,世界上已有14萬億次機(jī),超過3000億次機(jī)62臺。排名世界前10名的均為MPP,MPP已成為高性能計算機(jī)的主流產(chǎn)品。各種體系結(jié)構(gòu)并存階段(1995年)

機(jī)群發(fā)展NOW,IBMSP2,ASCIQ定制機(jī)器ESBlueGene 1.向量機(jī)與多向量機(jī) 硬、軟件技術(shù)相對成熟、應(yīng)用廣泛、市場占有率高。很難達(dá)到3Tperformance來解決GrandChallenge

問題。 下面圖表說明了這一類機(jī)器的發(fā)展過程。GFlops100100.11976197919821985198819911994YearCray1/10.16GFCrayX-MP/20.24GFCray2/41.9GFCrayY-MP/82.6GFCrayJ916/163.2GFCrayC916/1616GFCrayT932/3260GFScalarFunctionalpipelinesScalarControlunitscalarprocessorscalarinstructionMainMemory(Programanddata)MassStorageHostComputerI/O(user)VectorControlunitvectorregistersvectorprocessorcontrolVectorFunctionalpipelinesVectorFunctionalpipelines……vectorinstruction向量機(jī)的結(jié)構(gòu)程序和數(shù)據(jù)從Host進(jìn)入主機(jī)指令先在Scalarcontrolunit譯碼,如是標(biāo)量或控制操作指令,則在標(biāo)量功能流水部件種執(zhí)行。如果是向量指令,則進(jìn)入向量控制部件。register-to-register:

Crayseries FujitsuVP2000seriesmemory-to-memory:

Cyber205向量化。

多向量機(jī)發(fā)展過程:CDC7600(CDC,1970)CDCCyber205(Levine,1982)Memory-MemoryCray1(Russell,1978)register-registerETA10(ETA,Inc,1989)CrayY-MPCrayResearch1989FujitsuNECHitachiModelsCrayMPPCrayResearch1993其中:

CrayY-MP,C90:

Y-MP有2,4,8個處理器,而C90有16個處理單元(PE),處理速度16GFlops。

ConvexC3800family:

8個處理器,4GB主存儲器,

performance為2GFlops。2.SIMD的基本結(jié)構(gòu)SIMD的基本結(jié)構(gòu)特點(1)專用,應(yīng)用算法相關(guān)(2)適合于規(guī)則數(shù)據(jù)運算,不適合于條件分支程序發(fā)展緩慢的原因(1)指令廣播瓶頸(2)數(shù)據(jù)歸約相關(guān)性(3)存儲器速度難以提高M(jìn)asParMP-1: 可有1024,4096,…,16384個處理器。在16KPEs,32位整數(shù)運算,16KB局部存儲器模塊的配置下,可達(dá)26GIPS,單精度浮點運算1.5GFlops,雙精度浮點運算650MFlops。CM-2:

65536個處理單元,1Mbit/PE。 峰值速率為28GFlops,持續(xù)速率5.6GFlops。SIMD計算機(jī)發(fā)展過程圖如下:IlliacIV(1968)GoodYearMPP(1980)BSP(1982)MasParMP1(1990)IBMGF/11(1985)DAP610(AMT,Inc.1987)CM2(1990)CM5(1991)3.對稱式多處理機(jī)SMP

SMP:SymmetricMultiProcessors SharedMemorymultiProcessors SmallsizeMultiProcessors

處理機(jī)之間無主從之分,對外有相同的訪問權(quán),都有執(zhí)行操作系統(tǒng)核心和I/O服務(wù)程序的能力。 共享存儲器、統(tǒng)一地址空間,系統(tǒng)編程比較容易。

CPU可多至16臺左右,做服務(wù)器用,市場前景好。典型的SMP有:

SunSPARCserver1000 SunSPARCcenter2000 SGIPowerChallengeSGIPowerChallengeL:2-6CPU,1.8GFlopsSGIPowerChallengeXL:

2-18CPU,5.4GFlops

*64位MIPSchip,每周期指令發(fā)射數(shù)為4 *8路交錯主存、帶寬為1.2GB/s *I/O帶寬320MB/s(每個控制器),配置4個可達(dá)1.2GB/sSMP結(jié)構(gòu)UMA(Uniform-memory-access)model: 物理存儲器被所有處理機(jī)均勻共享,所有處理機(jī)對所有存儲字具有相同的存取時間。P0I/OP1SM1……PnSMnInterConnectionNetwork(Bus、Crossbar、MultistageNetwork)……處理器共享存儲器4.NUMA(NonUniform-memory-access)model:訪問時間隨存儲字的位置不同而變化。P1……PnLMnInter-ConnectionNetwork……LM1P2LM2……5.COMA(Cache-onlymemoryarchitecture): 只用高速緩存的多處理機(jī) 遠(yuǎn)程高速緩存訪問則借助于分布高速緩存目錄進(jìn)行。PDInterConnectionNetwork……distributedcachedirectoriesCPDCPDCKendallSquareResearch’sKSR-1Shared-MemoryMultiprocessors發(fā)展過程如下:Cmmp(cmu,1972)IllinoisCedar(1987)UltraComputerNYU(1983)FujitsuVPP500(1992)IBMRP3(1985)BBNButterfly(1989)stanford/Dash(1992)KSR-1(1990) 6.MPP系統(tǒng)(分布存儲)

多于100個PE,消息傳遞,分布存儲; 可擴(kuò)展,峰值可達(dá)3Tperformance; 貴,市場有限; 持續(xù)速度是峰值速度的3-10%; 可解決某些GrandChallenge問題,是國家綜合實力的象征。 Distributed-MemoryMultiprocessorsP……Message-passinginterconnectionnetwork(Mesh,ring,torus,hypercube,cube,cycle)MPMPMP……PPMMMMP……MPMP……MP例子:

IntelParagonXP/s: 采用50MHz的i860處理器,每個節(jié)點16-128MB主存儲器,采用2D-Mesh互連,浮點運算5-300GFlops,或2.8-160Gips。

nCube2SModel80: 有4096-8192個PE,主存儲器16384-262144MB,浮點運算163800-34000MFlops,整數(shù)運算61000-123000MIPS。 CosmicCube(1981)nCube-2/6400(1990)Mosaic(1992)Intelparagon(1992)MIT/Jmachine(1992)inteliPSC’s(1983)Distributed-Memorymultiprocessors發(fā)展進(jìn)程: 7.機(jī)群系統(tǒng)

NOW:NetworkOfWorkstations

COW:ClusterOfWorkstations特點:

投資風(fēng)險小,軟件財富繼承性好;可構(gòu)成異構(gòu)系統(tǒng),資源利用率高; 通信開銷大。一種典型的機(jī)群系統(tǒng)結(jié)構(gòu)如下:CPUMemoryI/OCPUMemoryI/O……CPUMemoryI/OI/OI/OI/OMemoryMemory……MemoryCPUCPUCPUNetworkMPP和COW的界限及特征COW的每個節(jié)點都是一個完整的工作站(無源工作站)、一臺PC或SMP;采用低成本的商品網(wǎng)絡(luò)(如以太網(wǎng)、FDDI和ATM開關(guān)等)互連(有的商用機(jī)群也使用定做的網(wǎng)絡(luò));各節(jié)點內(nèi)總是有本地磁盤,而MPP節(jié)點內(nèi)卻沒有;節(jié)點內(nèi)的網(wǎng)絡(luò)接口是松耦合到I/O總線上,而MPP內(nèi)的網(wǎng)絡(luò)接口是連到處理節(jié)點的存儲總線上,因而可謂是緊耦合式的;一個完整的操作系統(tǒng)駐留在每個節(jié)點中,而MPP中通常只是個微核,COW的操作系統(tǒng)是工作站UNIX,加上一個附加的軟件層以支持單一系統(tǒng)映像、并行度、通信和負(fù)載平衡等。MPP和COW之間的界線越來越模糊。其它并行處理計算技術(shù)1.數(shù)據(jù)流技術(shù)dataflow以數(shù)據(jù)驅(qū)動機(jī)制代替控制流機(jī)制當(dāng)功能部件輸入端的操作數(shù)可用時就啟動執(zhí)行;可開發(fā)程序中所有的并行性,但費用昂貴,實際性能與功能部件數(shù)量、存儲器帶寬以及掛起和可用部件相匹配的程度有關(guān)。 如:MIT的MonSoos,*T

ETL的Sigma1,EM5 2.多線程 每臺處理機(jī)有多個控制線程,同時運行多個現(xiàn)場,是實現(xiàn)時延隱藏的一種有效機(jī)制。 比如:

Tera,Alewife

成本高。 3.邏輯推理與規(guī)約結(jié)構(gòu)

邏輯推理: 日本第五代機(jī),面向邏輯語言、執(zhí)行速度慢,軟件與程序設(shè)計環(huán)境欠豐富。

規(guī)約結(jié)構(gòu):

Alice,PGR,面向函數(shù)語言,執(zhí)行速度慢,軟件與環(huán)境欠豐富。 4.關(guān)鍵技術(shù) 并行算法(數(shù)值算法與非數(shù)值算法) 并行計算模型 互連與通信 并行存儲技術(shù) 同步與時延隱藏技術(shù) 并行I/O

劃分、調(diào)度與負(fù)載平衡 優(yōu)化編譯 并行調(diào)試 工具與環(huán)境兩類構(gòu)造HPC的方式采用定制部件價格較高(小于1B$市場)對大規(guī)?;蛲ㄐ琶芗娜蝿?wù)進(jìn)行了優(yōu)化設(shè)計并行向量機(jī)采用商用部件利用每年80B$的市場優(yōu)勢對一些計算密集任務(wù)有很好的性能MPP\機(jī)群PVP構(gòu)造方式PVP采用全定制部件定制的高性能向量處理器(Gflops)節(jié)點內(nèi)多體交叉共享存儲(GB)定制的高帶寬低延遲互連(交叉開關(guān))機(jī)群構(gòu)造方式機(jī)群是一組獨立的計算機(jī)(節(jié)點)的集合體:機(jī)群的各節(jié)點都是一個完整的系統(tǒng):工作站,PC機(jī)或SMP互連通常使用高速互連網(wǎng)絡(luò),如Myrinet、Infiniband等各節(jié)點可以協(xié)同工作并表現(xiàn)為一個單一的、集中的計算資源CPUMemoryI/OChannel...CPUMemoryI/OChannelCPUMemoryI/OChannelCPUMemoryI/OChannelCPUMemoryI/OChannelSystemAreaNetwork&StorageAreaNetwork從Top500看高性能計算的現(xiàn)狀從Top500看高性能計算機(jī)現(xiàn)狀(2010.11)最快的高性能計算機(jī):2.566Pflops最普遍的高性能計算機(jī):機(jī)群(415臺)安裝高性能計算機(jī)最多的國家:美國(274臺),亞洲(83臺,日本26臺,中國41臺,印度4臺),歐洲(126臺)生產(chǎn)高性能計算機(jī)的企業(yè):HP(159臺),IBM(200臺)高性能計算機(jī)中使用最多的微處理器:Intel系列(398臺),IBM(42臺),AMD(57臺)高性能計算機(jī)使用最廣泛的領(lǐng)域:企業(yè)與研究結(jié)構(gòu)進(jìn)入500強(qiáng)的最低性能:31.11Tflops,半年前為24.67Tflops500強(qiáng)的總性能為:43.65Pflops,半年前為32.434Pflops2010/11Top500前5位一覽表近幾年來Top1機(jī)器2001年,為IBMASCIWHITE,LINPACK峰值為12TFLOPS,處理器數(shù)目為8192。2002年—2004年上半年,為NECEarth-Simulator,LINPACK峰值為40TFLOPS,處理器數(shù)目為5120。2004年下半年—2007年11月,為IBMBlueGene,LINPACK峰值為478TFLOPS,處理器數(shù)目為212992。2008年6月,Top1為IBMRoadrunner(走鵑),LINPACK峰值為1.026PFLOPS,處理器核數(shù)目為122400。2009年6月,Top1為IBMRoadrunner(走鵑),LINPACK峰值為1.105PFLOPS,處理器核數(shù)目為129600。2009年11月-2010年6月,Top1為Jaguar,峰值為1.759PFLOPS,處理器核數(shù)目為224162。2010年11月,Top1為TH-1A,峰值為2.566PFLOPS,處理器核數(shù)目為186368。ASCIBlueGene/L采用專門的System-on-a-chip技術(shù)減少功耗、體積、復(fù)雜度和設(shè)計難度實現(xiàn)低延遲、高帶寬存儲系統(tǒng)MPP結(jié)構(gòu)可擴(kuò)展到~100k處理器采用三種互連網(wǎng)絡(luò):Gbit以太網(wǎng)用于節(jié)點內(nèi)部3DTorus用于節(jié)點間樹用于多播通信ASCIBlueGene/L構(gòu)造圖ASCIBlueGene/L性能比較95IBMRoadrunner走鵑(1)國家高性能計算中心(合肥)962023/4/10IBMRoadrunner(2)基本參數(shù)(2008年6月)6,480AMDOpteron處理器,51.8TB內(nèi)存(in3,240LS21刀片)12,960IBMCell處理器,51.8TB內(nèi)存(in6,480QS22刀片)216Systemx3755I/O節(jié)點26288-portISR2012Infiniband4xDDRswitches296機(jī)架2.35MWpower1.026PFLOPS972023/4/10IBMRoadrunner(3)混合(Hybrid)設(shè)計(2008年6月)通用處理器+專用處理器采用兩種不同架構(gòu)的處理器:1.8GAMDOpteron雙核處理器(X86架構(gòu))6912個處理器(6480個用于計算節(jié)點,432個用于系統(tǒng)操作和通信節(jié)點)共13824個cores(12960+864)3.2GIBMPowerXCell8i異構(gòu)多核處理器數(shù)學(xué)運算比Opteron快30倍1個通用核(PowerProcessingElement:PPE),8個專用核(SynergisticProcessingElement:SPE)(共有9個處理器核)12960個PPEcores和103680個SPEcores共116640個cores(12960+103680)系統(tǒng)共有130464個cores(13824+116640)98IBMRoadrunner(4)刀片式機(jī)群架構(gòu)(2008年6月)每個Triblade包含4個刀片,一個LS21Opteron刀片,一個擴(kuò)展連接刀片,兩個QS22Cell刀片。LS21包含2個1.8GHz雙核Opterons,16GB內(nèi)存。QS22包含2個3.2GHzPowerXCell8i處理器,8GB內(nèi)存。國家高性能計算中心(合肥)992023/4/10IBMRoadrunner(5)一個Triblade包含4個刀片一個BladeCenterH框包含3個Triblade一個機(jī)架(rack)包含4個BladeCenterH一個連接單元CU(ConnectedUnit)包含15個機(jī)架Roadbunner包含18個CU,通過兩級Infiniband互連最快的并行向量計算機(jī)--ES體系結(jié)構(gòu):并行向量機(jī)峰值速度/存儲器:40Tflops/10TB節(jié)點數(shù)/處理器數(shù)/處理器峰值:640/5120/8Gflops占地:六個籃球場大3層建筑安裝時間:2002/2月主要用途:全球氣候變化預(yù)測、地震預(yù)報、原子能等TOP500中的機(jī)群機(jī)群系統(tǒng)在高性能計算機(jī)中所占比例迅速增加TOP500中目前有365個機(jī)群系統(tǒng)TOP500中最普通的并行機(jī)體系結(jié)構(gòu)導(dǎo)致了高性能計算機(jī)的“平民化”中國的高端高性能機(jī)群2008年11月,第32屆HPCTop500榜曙光5000A排名第10,LINPACK峰值180.6TFLOPS聯(lián)想DeepComp7000排名第19,LINPACK峰值102.8TFLOPS2009年11月,第34屆HPCTop500榜天河1號排名第5,LINPACK峰值563.1TFLOPS曙光5000A排名第19,LINPACK峰值180.6TFLOPS聯(lián)想DeepComp7000排名第43,LINPACK峰值102.8TFLOPS2010年06月,第35屆HPCTop500榜曙光星云(Nebulae)排名第2,LINPACK峰值1271TFLOPS天河1號排名第7,LINPACK峰值563.1TFLOPS2010年11月,第36屆HPCTop500榜天河1A排名第1,LINPACK峰值2566TFLOPS曙光星云(Nebulae)排名第3,LINPACK峰值1271TFLOPS中國的高端高性能機(jī)群曙光-星云高性能:實測峰值達(dá)每秒1271萬億次,亞洲和中國第一臺、世界第三臺實測性能超千萬億次的超級計算機(jī)高效能:采用自主設(shè)計的HPP體系結(jié)構(gòu)、高效異構(gòu)協(xié)同計算技術(shù),高效易用的編程環(huán)境,極大方便用戶操作應(yīng)用高可靠:采用全冗余設(shè)計,無單一故障點高密度:單柜峰值高達(dá)25.7TFlops,國內(nèi)同類系統(tǒng)單位面積計算峰值最高低功耗:每瓦能耗實測性能超過4.98億次,是目前國內(nèi)最綠色的超級計算機(jī)低成本:關(guān)鍵部件標(biāo)準(zhǔn)化和產(chǎn)業(yè)化,大大節(jié)省擴(kuò)容成本天河1A高自主:使用國產(chǎn)CPU飛騰FT-1000八核處理器,使用國產(chǎn)高速互聯(lián)交換芯片“NRC”高性能:峰值運算速度4701萬億次,實測Linpack值2566萬億次;內(nèi)存229TB,存儲容量2P高效能:每瓦實測性能6.35億次,Green500公布的2010年11月數(shù)據(jù)排名第11位高安全:系統(tǒng)管理員無法進(jìn)入用戶信息系統(tǒng)查看任何信息,保障用戶數(shù)據(jù)的安全可靠易使用:刀片結(jié)構(gòu),利用高偏上的特定電路,自檢系統(tǒng)可以迅速定位刀片位置,便于維修從Top500看高性能計算的趨勢(1)關(guān)于計算機(jī)結(jié)構(gòu):機(jī)群系統(tǒng)仍將是高性能計算機(jī)最常用的結(jié)構(gòu)MPP仍然是一個重要結(jié)構(gòu),尤其是作為Pflops超級計算機(jī)的主要結(jié)構(gòu)PVP是另一種獲得超高性能的重要結(jié)構(gòu),但不是主流從Top500看高性能計算的趨勢(2)關(guān)于微處理器:主要是采用CMOS工藝的商用微處理器Intel處理器家族仍將是高性能計算機(jī)中占統(tǒng)治地位的處理器,其基于EM64T的處理器已被證明非常適合于高性能計算(118臺)基于RISC的IBMPower體系也會有一席之地AMD地位穩(wěn)定上升專用的處理器仍然存在,但逐漸減少向量處理器片上系統(tǒng)適用于最高端系統(tǒng)高性能計算與高性能計算機(jī)高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應(yīng)用需求高性能計算的戰(zhàn)略地位高性能計算發(fā)展與現(xiàn)狀高性能計算機(jī)的發(fā)展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機(jī)展望若干新技術(shù)中國高性能計算的機(jī)遇和挑戰(zhàn)高性能計算面臨的主要問題-功耗功耗大、空間大、散熱大占地均在數(shù)百~數(shù)千平方米,功耗在數(shù)兆瓦綜合成本急劇增加,高達(dá)數(shù)億美元如ASCI系統(tǒng)和ES地球仿真器的專用建筑群高性能計算面臨的主要問題-存儲Memorywall:存儲器訪問能力與處理部件計算能力的不平衡處理器速度每年提高59%,高性能計算速度提高更快存儲器速度每年提高7%處理器性能與數(shù)據(jù)訪問帶寬和延遲之間的差距越來越大必須從系統(tǒng)存儲體系結(jié)構(gòu)上創(chuàng)新,改進(jìn)時延機(jī)制,以提供更高的帶寬和更低的延遲。目前對三類超級計算機(jī)(定制、混合與商業(yè))的主要區(qū)別在于針對不同的存儲訪問模式所能提供的有效本地和全局存儲訪問帶寬。μProc60%/yr.(2X/1.5yr)DRAM9%/yr.(2X/10yrs)110100100019851986198819891990199119921993199419951996199719981999200020012002200320042005DRAMCPU1987Processor-MemoryPerformanceGap:

(grows50%/year)PerformanceTime“Moore’sLaw”Processor-MemoryGap高性能計算面臨的主要問題-編程Programmingwall:系統(tǒng)規(guī)模增大到10萬個以上處理器,系統(tǒng)結(jié)構(gòu)復(fù)雜(數(shù)據(jù)共享與消息通信模式交織),為超級計算機(jī)編寫高效健壯程序越來越復(fù)雜,越來越困難。高性能機(jī)器上的程序設(shè)計語言、庫和應(yīng)用開發(fā)環(huán)境的進(jìn)展比廣泛應(yīng)用的工業(yè)軟件差很多沒有廣泛應(yīng)用的并行程序設(shè)計模型軟件的研制周期大于硬件的研制周期高端計算的真正危機(jī)在于軟件高性能計算與高性能計算機(jī)高性能計算的意義高性能計算的內(nèi)在含義高性能計算的應(yīng)用需求高性能計算的戰(zhàn)略地位高性能計算發(fā)展與現(xiàn)狀高性能計算機(jī)的發(fā)展高性能計算的現(xiàn)狀高性能計算面臨的主要問題功耗存儲(memorywall)編程(programmingwall)高性能計算的未來Petaflops超級計算機(jī)展望若干新技術(shù)中國高性能計算的機(jī)遇和挑戰(zhàn)千萬億次超級計算機(jī)的應(yīng)用需求千萬億次超級計算機(jī)研究-HPCS計劃從2002年起的兩年多時間里,ES占據(jù)TOP1位置Cluster并不是HPC的最終體系結(jié)構(gòu)美國DARPA于2002年啟動高生產(chǎn)率計算系統(tǒng)(HighProductivityComputingSystems)HPCS計劃希望確定未來10年甚至20年的高性能計算機(jī)體系結(jié)構(gòu)高生產(chǎn)率而非峰值計算能力作為評價指標(biāo)高性能計算的一個新的創(chuàng)新時代的開始摘自DARPA-Grayhill.pdfHPCS計劃三個階段摘自DARPA-Grayhill.pdfHPCS的設(shè)計策略摘自DARPA-Grayhill.pdfHPCS當(dāng)前的狀態(tài)目前正在進(jìn)行第2階段為期36個月的研發(fā)階段參加的企業(yè)有Cray\IBM\Sun三家每個企業(yè)的關(guān)鍵技術(shù)路線:Cray:Cascade計劃(定制處理器、PIM(ProcessorInMemory)IBM:PERCS計劃(Productive、Easy-to-use、ReliableComputingSystem)Sun:HERO項目(獨特的芯片間互連、異步信號處理、光互連技術(shù))在處理器、存儲器、互聯(lián)網(wǎng)絡(luò)上采取很多顛覆性的創(chuàng)新如普遍采用CMP(片上多處理器)PIM(ProcessorInMemory)sea-of-memory光互連千億次超級計算機(jī)研究-其他項目IBMBlueGeneBG/P系統(tǒng),百萬個低功耗集成芯片達(dá)到PetaFlops,預(yù)計到2006年BG/Q系統(tǒng),3Pflops峰值/1Pflops持續(xù)性能,預(yù)計到2007年底StanfordMerrimac計劃采用專門的流式(streaming)處理器每個節(jié)點集成128個1Ghz的浮點處理單元8192個節(jié)點達(dá)到2PetaFlops日本文部省MEXT計劃投入1000億日元NEC、日立、東京大學(xué)、九州大學(xué)、物化所10Pflops,2011年日本的ProteinExplorer針對應(yīng)用算法專門定制目前已有專門用于分子動力學(xué)模擬的MDM,峰值超過ES后續(xù)的分析蛋白質(zhì)分子作用的ProteinExplorer可能成為第一個Pflops機(jī)器未來結(jié)構(gòu)展望千萬億次系統(tǒng)的主流結(jié)構(gòu)仍然是MPP技術(shù)可重構(gòu)計算結(jié)構(gòu):系統(tǒng)的主要邏輯通過重構(gòu)機(jī)制控制,在一定范圍內(nèi)調(diào)整變化,以提高不同應(yīng)用程序核心算法的運行效率可在芯片內(nèi)、芯片間、部件間甚至在子系統(tǒng)之間體現(xiàn)在互聯(lián)結(jié)構(gòu)、存儲結(jié)構(gòu)、IO結(jié)構(gòu)典型系統(tǒng):SRC-6E、IBMPERCS流式結(jié)構(gòu):StanfordMerrimac計劃專用器件結(jié)構(gòu):特殊應(yīng)用核心算法優(yōu)化的硬連線計算結(jié)構(gòu),利用超高速硬件技術(shù)提供更高的邏輯密度典型系統(tǒng):日本的MDGRAPE混合異構(gòu)結(jié)構(gòu)利用現(xiàn)有的高性能計算機(jī)資源作為節(jié)點互連構(gòu)成的集成計算機(jī)系統(tǒng)節(jié)點可以是快速標(biāo)量部件、向量部件、FPGA、可視化引擎典型系統(tǒng):克雷的Rainier、SGI的多范例計算若干新技術(shù)光技術(shù)光互連:光纖互連、光波導(dǎo)、自由空間光互連全息存儲:信息以光柵的形式存儲于晶體中,高帶寬,高密度量子計算機(jī)由利用量子效應(yīng)作為工作基礎(chǔ)的量子器件組成利用量子相干疊加原理,使得基于量子位的量子計算具有強(qiáng)大的并行性問題:量子邏輯的一致性,環(huán)境隔離等分子計算機(jī)用大量(分子數(shù)1020)分子參與計算,以空間換時間來提高計算能力高度并行,功耗小問題:操作慢,操作不可靠,DNA分子容易水解等中國高性能計算的機(jī)遇與挑戰(zhàn)現(xiàn)狀:中國已具備自行研制高性能計算機(jī)系統(tǒng)的能力系統(tǒng)國產(chǎn)化程度不高處理器、高速網(wǎng)絡(luò)等關(guān)鍵部件還主要靠進(jìn)口高性能計算軟件是最大瓶頸應(yīng)用軟件的開發(fā)的投入力度不夠,制約了高性能計算的普及機(jī)遇:高性能計算機(jī)系統(tǒng)開始了新一輪探索,需要創(chuàng)新思想廉價的機(jī)群系統(tǒng)帶來了高性能計算機(jī)普及和“平民化”對提高生產(chǎn)率,更有效解決實際應(yīng)用提出了更高要求集成電路生產(chǎn)基地向中國轉(zhuǎn)移和國產(chǎn)通用CPU技術(shù)的突破挑戰(zhàn):集中力量研制包括國產(chǎn)CPU、系統(tǒng)互連網(wǎng)絡(luò)在內(nèi)的全自主產(chǎn)權(quán)的高性能計算機(jī)系統(tǒng),加大對軟件的投入ComputerArchitecture(rewiew)Understandingimportantemergingdesigntechniques,machinestructures,technologyfactors,evaluationmethodsthatwilldeterminetheformofhigh-performanceprogrammableprocessorsandcomputingsystemsinnewCentury.TechnologyProgrammingLanguagesOperatingSystemsHistoryApplicationsInterfaceDesign(ISA)Measurement&EvaluationParallelismComputerArchitecture:InstructionSetDesignOrganizationHardwareAdvancedComputerArchitectureImportantFactors:DrivingForce:Applicationswithdiverseandincreasedcomputationaldemandseveninmainstreamcomputing(multimediaetc.)Techniquesmustbedevelopedtoovercomethemajorlimitationsofcurrentcomputingsystemstomeetsuchdemands:ILPlimitations,Memorylatency,IOperformance.Increasedbranchpenalty/otherstallsindeeplypipelinedCPUs.General-purposeprocessorsasonlyhomogeneoussystemcomputingresource.EnablingTechnologyformanypossiblesolutions:IncreaseddensityofVLSIlogic(onebilliontransistorsin)Enablesahigh-levelofsystem-levelintegration.計算機(jī)體系結(jié)構(gòu)的定義(Review)

Theattributesofa[computing]systemasseenbytheprogrammer,i.e.,Theconceptualstructureandfunctionalbehavior,asdistinctfromtheorganizationofthedataflowsandcontrolsthelogicdesign,andthephysicalimplementation.

Amdahl,Blaaw,andBrooks,1964

對計算機(jī)系統(tǒng)而言是指那些由程序員可見的系統(tǒng)屬性所指的程序員匯編語言、機(jī)器語言、編譯程序、操作系統(tǒng)程序員所看到的數(shù)據(jù)表示、尋址方式、寄存器組織、指令系統(tǒng)、中斷系統(tǒng)、存儲系統(tǒng)、CPU狀態(tài)、I/O

系統(tǒng)、信息保護(hù)等計算機(jī)系統(tǒng)結(jié)構(gòu)正確定義ComputerArchitectureTopicsMInterconnectionNetworkSPMPMPMP…...Topologies,Routing,Bandwidth,Latency,ReliabilityNetworkInterfacesSharedMemory,MessagePassing,DataParallelismProcessor-Memory-SwitchMultiprocessorsNetworksandInterconnectionsMicroprocessor

ComputerSystemComponentsSDRAMPC100/PC133100-133MHZ64-128bitswide2-wayinteleaved~900MBYTES/SECDoubleDateRate(DDR)SDRAMPC3200400MHZ(effective200x2)64-128bitswide4-wayinterleaved~3.2GBYTES/SEC(secondhalf2002)RAMbusDRAM(RDRAM)PC800,PC1060400-533MHZ(DDR)16-32bitswidechannel~1.6-3.2GBYTES/SEC(perchannel)CPUCachesSystemBusI/ODevices:MemoryControllersadaptersDisksDisplaysKeyboardsNetworksNICsI/OBusesMemoryControllerExamples:Alpha,AMDK7:EV6,400MHZIntelPII,PIII:GTL+133MHZIntelP4800MHZExample:PCI-X133MHZPCI,33-66MHZ32-64bitswide133-1024MBYTES/SEC1000MHZ-3GHZ(amultipleofsystembusspeed)Pipelined(7-21stages)Superscalar(max~4instructions/cycle)single-threadedDynamically-ScheduledorVLIWDynamicandstaticbranchpredictionL1L2

L3MemoryBusSupportforoneormoreCPUsFastEthernetGigabitEthernetATM,TokenRing..NorthBridgeSouthBridgeChipsetMicroprocessorComputer

SystemComponentsCPUCachesSystemBusI/ODevices:MemoryControllersadaptersDisks(RAID)DisplaysKeyboardsNetworksNICsI/OBusesMemoryControllerL1L2

L3MemoryBusConventional&Block-basedTraceCache.IntegrateMemoryController&aportionofmainmemorywithCPU:IntelligentRAMIntegratedmemoryController:AMDOpetronIBMPower5

MemoryLatencyReduction:EnhancedCPUPerformance&Capabilities:SupportforSimultaneousMultithreading(SMT):AlphaEV8.VLIW&intelligentcompilertechniques:Intel/HPEPICIA-64.MoreAdvancedBranchPredictionTechniques.ChipMultiprocessors(CMPs):TheHydraProject.IBMPower4,5Vectorprocessingcapability:VectorIntelligentRAM(VIRAM).OrMultimediaISAextension.DigitalSignalProcessing(DSP)capabilityinsystem.Re-ConfigurableComputinghardwarecapabilityinsystem.SMTCMPNorthBridgeSouthBridgeChipset處理器并行度的開發(fā)芯片級并行性特點獨立的控制流分離的內(nèi)部狀態(tài)沒有共享的功能部件分類同構(gòu)多核Core2Duo異構(gòu)多核Cell處理器網(wǎng)絡(luò)處理器EXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystemBus(667MHz,5333MB/s)芯片級并行性性能比較CPU芯片降低15%工作電壓的結(jié)果主頻降低15%功耗降低45%性能下降10%單核芯片面積=1電壓=1主頻=1功耗=1性能=1雙核芯片面積=2電壓=0.85主頻=0.85功耗=1.1性能=1.8芯片級并行性芯片面積與性能多核性能單核性能晶體管數(shù)(面積)性能~性能芯片級并行性一個大核與多個小核的比較cache大核小核小核小核小核cache功耗:性能:功耗:性能:136MulticoreProductsNowadaysLotsofdual-coreproductsnow:Intel:PentiumDandPentiumExtremeEdition,CoreDuo(2),Woodcrest,MontecitoIBMPowerPCAMDOpteron/Athlon64SunUltraSPARCIV.Systemswithmorethantwocoresareherewithmorecoming:IBMCell(asymmetric).Dual-corePowerPCpluseight“synergisticprocessingelements”.SunNiagaraEightcores,fourhyper-threadedthreadspercore.GeneralPurposeComputationonGraphicsProcessors(GPGPU)Intelexpectstoproduce16-oreven32-corechipswithinadecade.137ArchitectureofDual-CoreChipsAMDOpteronSeparate1MbyteL2cachesImprovementforMemoryaffinityandThreadaffinityEXECoreFPUnitEXECoreFPUnitL2CacheL1CacheL1CacheSystemBus(667MHz,5333MB/s)INTELCOREDUOTwophysicalcoresinapackageEachwithitsownexecutionresourcesEachwithitsownL1cache32Kinstructionand32KdataBothcoressharetheL2cache2MB8-waysetassociative;64-bytelinesize10clockcycleslatency;WriteBackupdatepolicy139IntelMulti-corePlan140IntelMulti-corePlanIntel’stera-scalechip142CellfromIBMandSony143CellfromIBMandSonyIntel80核芯片(2007)80個處理核心1Teraflop100億次運算/瓦特主頻3.1GHz面積300mm2,各CPU內(nèi)核與內(nèi)存1對1地連接,分別擁有256MBps的內(nèi)存帶寬32MB的片上靜態(tài)RAM。單芯片整體的內(nèi)存帶寬達(dá)到了1TB/s13.75mm*22mmIBMPOWER7(2010)146NiagarafromSUN147GPUTransformCPUApplicationRasterizeShadeVideo

Memory

(Textures)Xformed,LitVertices(2D)GraphicsStateRender-to-textureAssemble

PrimitivesVertices(3D)Screenspacetriangles(2D)Fragments(pre-pixels)FinalPixels(Color,Depth)Programmablevertexprocessor!Programmablepixelprocessor!Fragment

ProcessorGPUFundamentals:TheModernGraphicsPipelineVertex

ProcessorGeometry

Processor148GPUFundamentals:TheModernGraphicsPipelineForaspecificprogramcompiledtorunonaspecificmachine“A”,thefollowingparametersareprovided:Thetotalinstructioncountoftheprogram.Theaveragenumberofcyclesperinstruction(averageCPI).Clockcycleofmachine“A”Howcanonemeasuretheperformanceofthis

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論