從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

上傳人：4*** IP屬地：貴州上傳時(shí)間：2022-09-29 格式：DOCX 頁數(shù)：20 大?。?24.61KB 積分：20 舉報(bào) 版權(quán)申訴

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第2頁

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第3頁

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第4頁

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)_第5頁

已閱讀5頁，還剩15頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、微處理器體系結(jié)構(gòu)隨著高性能計(jì)算的需求，計(jì)算機(jī)體系結(jié)構(gòu)發(fā)生了很大變化。作為計(jì)算機(jī)核心部件的微處理器，其性能和復(fù)雜性（晶體管數(shù)、時(shí)鐘頻率和峰值）也按照摩爾定律增長(zhǎng)。微處理器性能的改善在很大程度上歸功于體系結(jié)構(gòu)的發(fā)展和VLSI工藝的改進(jìn)。體系結(jié)構(gòu)的發(fā)展主要體現(xiàn)在三個(gè)方面，即超流水、多指令發(fā)射和多指令操作。超流水技術(shù)主要開發(fā)時(shí)間并行性。流水線技術(shù)是RISC處理器區(qū)別于CISC處理器的重要特征。采用超流水技術(shù)，盡管可以減少關(guān)鍵路徑中每級(jí)流水的時(shí)間，但同時(shí)也引入了更多的寄存器，進(jìn)而增加了面積開銷以及時(shí)鐘歪斜問題。另一方面，深度流水在指令相關(guān)和指令跳轉(zhuǎn)時(shí)會(huì)大大降低流水線的性能。多指令發(fā)射和多指令操作均是開發(fā)

2、空間并行性。多指令發(fā)射面臨的首要問題是如何保持應(yīng)用程序語義的正確性，MIMD、超標(biāo)量和數(shù)據(jù)流技術(shù)是多指令發(fā)射的典型結(jié)構(gòu)。MIMD是并行計(jì)算的重要研究領(lǐng)域。超標(biāo)量采用時(shí)序指令流發(fā)射技術(shù)，兼容性好，硬件開銷大，功耗開銷大，是目前多數(shù)商用高端處理器采用的主流技術(shù)。數(shù)據(jù)流采用token環(huán)技術(shù)，理論上可以開發(fā)出高度指令并行性。然而，其商用開發(fā)不成功，原因是運(yùn)行時(shí)間開銷大，尤其是token環(huán)匹配需要很高的時(shí)間代價(jià)。多指令操作是當(dāng)前體系結(jié)構(gòu)的重要研究方向。多指令操作包括數(shù)據(jù)并行性開發(fā)和操作并行性開發(fā)。盡管在CISC處理器中均采用過這兩種技術(shù)，但CISC給體系結(jié)構(gòu)開發(fā)帶來三個(gè)負(fù)面影響：一是CISC指令不適合流

3、水處理，二是指令差異很大造成譯碼困難，三是編譯器很難開發(fā)出有效的指令操作。與CISC處理器相反，多指令操作非常適合RISC處理器，其中SIMD和VLIW就是數(shù)據(jù)并行性和操作并行性的典型結(jié)構(gòu)。向量處理器和SIMD處理器都是利用多個(gè)操作數(shù)來實(shí)現(xiàn)數(shù)據(jù)并行性。但二者有很大不同。向量處理器對(duì)線性向量元素順序操作，SIMD則對(duì)向量元素進(jìn)行并發(fā)操作。對(duì)前者，每條指令只能作用于一個(gè)功能部件，執(zhí)行時(shí)間較長(zhǎng)；而后者在執(zhí)行指令時(shí)可以作用于多個(gè)功能部件。向量處理器采用交叉存儲(chǔ)器實(shí)現(xiàn)向量的訪存操作，同時(shí)可對(duì)短向量進(jìn)行有效操作，即對(duì)稀疏向量進(jìn)行壓縮以獲得高性能。SIMD適合多媒體中的分組數(shù)據(jù)流，通過特定算法將長(zhǎng)的數(shù)據(jù)流截

4、成定長(zhǎng)短向量序列，從而可以和向量處理器那樣實(shí)現(xiàn)對(duì)定長(zhǎng)短向量序列的高效處理。VLIW是實(shí)現(xiàn)操作并行性開發(fā)的重要途徑。CISC處理器采用垂直編碼技術(shù)，而VLIW則采用水平編碼技術(shù)，指令中的每個(gè)操作域可以并發(fā)執(zhí)行。同CISC處理器相比，VLIW具有的優(yōu)點(diǎn)是：指令操作域定長(zhǎng)，譯碼簡(jiǎn)單；適合流水處理，減少CPI；編譯器需要開發(fā)程序潛在的指令級(jí)操作并行性。傳統(tǒng)VLIW的不足是指令帶寬較高，二進(jìn)制目標(biāo)代碼不兼容。VLIW和SIMD結(jié)構(gòu)都能接受單一指令流，每條指令可以包含多個(gè)操作。但前者允許每條指令包含多個(gè)不同類型的操作，同時(shí)可以開發(fā)細(xì)粒度并行性。VLIW指令字較長(zhǎng)，而SIMD具有很強(qiáng)的數(shù)據(jù)壓縮能力。事實(shí)上，

5、VLIW和SIMD技術(shù)相結(jié)合可以獲得更高的性能加速比，且非常適合多媒體數(shù)據(jù)處理。從微處理器體系結(jié)構(gòu)和編譯器界面劃分的角度上講，指令級(jí)體系結(jié)構(gòu)可以分為順序結(jié)構(gòu)、相關(guān)結(jié)構(gòu)和獨(dú)立結(jié)構(gòu)三類。在順序結(jié)構(gòu)中，程序不包含任何指令并行信息，完全通過硬件進(jìn)行調(diào)度，即硬件負(fù)責(zé)操作間的相關(guān)分析、獨(dú)立操作分析和操作調(diào)度，編譯器只負(fù)責(zé)程序代碼的重組，程序中不附加任何信息。超標(biāo)量是該類結(jié)構(gòu)的典型代表。在相關(guān)結(jié)構(gòu)中，程序顯式指定操作的相關(guān)信息，即編譯器負(fù)責(zé)操作間的相關(guān)分析，而硬件負(fù)責(zé)獨(dú)立操作分析和調(diào)度，如數(shù)據(jù)流處理器。獨(dú)立結(jié)構(gòu)完全由程序提供各個(gè)獨(dú)立操作間的信息，即編譯器負(fù)責(zé)操作間相關(guān)性分析、獨(dú)立操作間分析和指令調(diào)度，VLI

6、W是其主要代表。超標(biāo)量處理器架構(gòu)現(xiàn)代超標(biāo)量處理器體系結(jié)構(gòu)均基于IBM360/91采用的Tomasulo和CDC6600采用的Scoreboard動(dòng)態(tài)調(diào)度技術(shù)，MIPS R10000和DEC21264微處理器均基于該體系結(jié)構(gòu)。典型超標(biāo)量處理器通常采用如下邏輯結(jié)構(gòu)實(shí)現(xiàn)動(dòng)態(tài)調(diào)度：寄存器重命名邏輯、窗口喚醒邏輯、窗口選擇邏輯和數(shù)據(jù)旁路邏輯。Intel的Pentium處理器、Motorola的PowerPC 604和SPARC64則采用基于預(yù)約站的超標(biāo)量體系結(jié)構(gòu)。兩種體系結(jié)構(gòu)的主要區(qū)別是：在典型超標(biāo)量結(jié)構(gòu)中，無論是推測(cè)還是非推測(cè)寄存器值都放在物理寄存器堆中；在預(yù)約站超標(biāo)量結(jié)構(gòu)中，推測(cè)數(shù)據(jù)放在重排序緩

7、沖器中，非推測(cè)數(shù)據(jù)和已經(jīng)執(zhí)行完成提交的數(shù)據(jù)則放在寄存器文件中。在典型結(jié)構(gòu)中，操作數(shù)不廣播到窗口，而只將操作數(shù)標(biāo)志TAG進(jìn)行廣播，操作數(shù)則送到物理寄存器文件。在預(yù)約站結(jié)構(gòu)中，指令執(zhí)行結(jié)果廣播到預(yù)約站，指令發(fā)射時(shí)從預(yù)約站去取操作數(shù)。超標(biāo)量處理器性能與IPC（Instructions Per Cycle）和時(shí)鐘頻率的乘積成正比。時(shí)鐘速率同系統(tǒng)結(jié)構(gòu)的關(guān)鍵路徑時(shí)延有關(guān)，而IPC和如下因素有關(guān)：程序中潛在的指令級(jí)并行性、體系結(jié)構(gòu)字長(zhǎng)寬度、指令窗口大小和并行性開發(fā)策略。超標(biāo)量處理器一般通過增加發(fā)射邏輯提高IPC，這將導(dǎo)致更寬的發(fā)射窗口和更復(fù)雜的發(fā)射策略。眾所周知，超標(biāo)量處理器是通用微處理器的主流體系結(jié)構(gòu)，

8、幾乎所有商用通用微處理器都采用超標(biāo)量體系結(jié)構(gòu)。而在DSP方面，LSI 邏輯公司的 ZSP200、 ZSP400、ZSP500和ZSP600均采用超標(biāo)量體系結(jié)構(gòu)。ZSP200采用并行MAC和ALU運(yùn)算部件，2發(fā)射超標(biāo)量結(jié)構(gòu)；ZSP400采用雙 MAC單元、4 發(fā)射超標(biāo)量處理器體系結(jié)構(gòu)；ZSP500為4發(fā)射體系結(jié)構(gòu)、采用增強(qiáng)型雙MAC和雙ALU運(yùn)算單元；ZSP600采用4MAC和雙ALU運(yùn)算部件，每個(gè)時(shí)鐘周期發(fā)射6條指令。圖1為ZSP400結(jié)構(gòu)框圖。圖1 ZSP400 內(nèi)核超標(biāo)量體系結(jié)構(gòu)框圖ADI公司的TigerSHARC系列采用靜態(tài)超標(biāo)量體系結(jié)構(gòu)。該系列采用了許多傳統(tǒng)超標(biāo)量處理器的特征，如lo

9、ad/store結(jié)構(gòu)、分之預(yù)測(cè)和互鎖寄存器堆等技術(shù)。每個(gè)時(shí)鐘周期發(fā)射4條指令。而靜態(tài)超標(biāo)量的含義是指指令級(jí)并行性識(shí)別是在運(yùn)行之前，即編寫程序時(shí)確定的（事實(shí)上以VLIW結(jié)構(gòu)為基礎(chǔ)）。同時(shí)，Tiger SHARC系統(tǒng)處理器采用SIMD技術(shù)，用戶可以對(duì)數(shù)據(jù)進(jìn)行廣播和合并。所有寄存器均是互鎖的，支持簡(jiǎn)單的編程模型，該模型不依賴于不同型號(hào)間的時(shí)延變化。分支目標(biāo)緩沖器BTB為128位，可以有效減小循環(huán)操作和其它非順序代碼的執(zhí)行時(shí)間。圖2為TigerSHARC系列中的ADSP-TS201S結(jié)構(gòu)框圖。圖圖2 AADSPP-TSS2011S靜態(tài)態(tài)超標(biāo)量量體系結(jié)結(jié)構(gòu)框圖圖超長(zhǎng)指指令字VVLIWW體系結(jié)結(jié)構(gòu)自從從

10、耶魯大大學(xué)的JJ.A Fissherr于19979年年首次提提出VLLIW體體系結(jié)構(gòu)構(gòu)以來，先先后由耶耶魯大學(xué)學(xué)開發(fā)出出基于跟跟蹤調(diào)度度(Trracee Scchedduliing)技術(shù)的的MulltiFFloww處理器器和Cyydroome公公司Boob RRau等等人開發(fā)發(fā)的基于于巨塊調(diào)調(diào)度（SSupeerbllockk Scchedduliing）的的Cyddra-5處理理器。但但直到九九十年代代中期，基基于VLLIW結(jié)結(jié)構(gòu)的處處理器基基本上停停留在實(shí)實(shí)驗(yàn)室原原型機(jī)階階段。因因?yàn)閂LLIW本本身固有有的幾個(gè)個(gè)關(guān)鍵問問題一直直沒有徹徹底解決決，導(dǎo)致致了其后后的商用用處理器器體系結(jié)結(jié)構(gòu)從RR

11、ISCC轉(zhuǎn)向了了超標(biāo)量量和超流流水，而而不是VVLIWW。盡管管如此，由由于VLLIW結(jié)結(jié)構(gòu)的許許多優(yōu)點(diǎn)點(diǎn)仍然使使許多研研究機(jī)構(gòu)構(gòu)競(jìng)相對(duì)對(duì)該技術(shù)術(shù)進(jìn)行堅(jiān)堅(jiān)持不懈懈地研究究，并在在體系結(jié)結(jié)構(gòu)和編編譯器方方面實(shí)現(xiàn)現(xiàn)了突破破，其中中最重要要的是解解決了目目標(biāo)代碼碼兼容問問題并支支持推斷斷推測(cè)機(jī)機(jī)制（盡盡管大部部分處理理器僅支支持部分分推斷推推測(cè)機(jī)制制）。這這之后出出現(xiàn)了PPhillip的的Triimeddia、EEquaatorr的MAAP10000AA媒體處處理器、CChroomattic的的Macct、TTI的TTMS3320CC6XXX、Trranssmetta的CCrussoe以以及INNT

12、ELL和HPP聯(lián)盟提提出的IIA-664體系系結(jié)構(gòu)（EEPICC）。事事實(shí)上VVLIWW作為下下一代高高性能處處理器體體系結(jié)構(gòu)構(gòu)的首選選技術(shù)已已成共識(shí)識(shí)，該體體系結(jié)構(gòu)構(gòu)和優(yōu)化化編譯器器形成的的SIMMD指令令流將更更加適合合多媒體體數(shù)據(jù)處處理。TTI的TTMS3320CC6系列列是典型型的超長(zhǎng)長(zhǎng)指令字字VLIIWW體系結(jié)結(jié)構(gòu)，該該系列每每個(gè)指令令周期可可以執(zhí)行行8條332位指指令，CC62為為定點(diǎn)處處理器，CC67為為浮點(diǎn)處處理器。CC62和和C677系列的的CPUU內(nèi)核是是相同的的，包含含32個(gè)個(gè)通用寄寄存器、88個(gè)執(zhí)行行部件。CC64包包含644個(gè)通用用寄存器器和8個(gè)個(gè)執(zhí)行部部件。88個(gè)執(zhí)

13、行行部件包包含2個(gè)個(gè)乘法器器和6個(gè)個(gè)ALUU。支持持8/116/332數(shù)據(jù)據(jù)類型，所所有指令令均為條條件執(zhí)行行，減小小了分支支指令開開銷。圖圖3為CC62和和C677系統(tǒng)框框圖。圖3 基于VVLIWW體系結(jié)結(jié)構(gòu)的TTMS3320CC6系統(tǒng)統(tǒng)框圖中中國科學(xué)學(xué)院聲學(xué)學(xué)研究所所在“9973國國家重大大基礎(chǔ)研研究發(fā)展展規(guī)劃”資資助下研研制成功功國內(nèi)第第一款基基于多發(fā)發(fā)射VLLIW和和SIMMD技術(shù)術(shù)的具有有可重組組結(jié)構(gòu)的的高性能能微處理理器芯片片華威威處理器器（SuuperrV）。該該處理器器為四發(fā)發(fā)射VLLIW處處理器，當(dāng)當(dāng)執(zhí)行向向量處理理功能時(shí)時(shí)，每個(gè)個(gè)周期可可執(zhí)行335個(gè)操操作。在在執(zhí)行332

14、位乘乘累加操操作時(shí)可可獲得22.9 GOPPS 的的數(shù)據(jù)處處理速度度；執(zhí)行行16位位乘累加加操作時(shí)時(shí)可獲得得5.11 GOOPS 的數(shù)據(jù)據(jù)處理速速度；執(zhí)執(zhí)行8位位乘累加加操作時(shí)時(shí)可獲得得9.33 GOOPS 的數(shù)據(jù)據(jù)處理速速度。該該處理器器是目前前國內(nèi)數(shù)數(shù)據(jù)處理理能力最最強(qiáng)的微微處理器器，可以以廣泛應(yīng)應(yīng)用于信信息家電電、網(wǎng)絡(luò)絡(luò)通信、聲聲音圖像像以及雷雷達(dá)聲納納等信號(hào)號(hào)處理領(lǐng)領(lǐng)域。可重構(gòu)構(gòu)處理器器架構(gòu)從從二十世世紀(jì)七十十年代開開始的第第一代CCISCC處理器器開始至至今，微微處理器器體系結(jié)結(jié)構(gòu)已經(jīng)經(jīng)經(jīng)過了了三代。然然而，即即使是第第三代的的RISSC技術(shù)術(shù)仍然停停留在固固定模式式的體系系架構(gòu)設(shè)

15、設(shè)計(jì)。隨隨著ASSIC和和SOCC技術(shù)的的發(fā)展，微微處理器器設(shè)計(jì)進(jìn)進(jìn)入到第第四代，即即后RIISC和和可重構(gòu)構(gòu)處理器器時(shí)代。其其重要特特征是系系統(tǒng)架構(gòu)構(gòu)不再采采用固定定模式，而而是將DDSP的的靈活性性與硬線線連接的的專用性性相結(jié)合合，使得得微處理理器可以以針對(duì)不不同的應(yīng)應(yīng)用需求求建立自自己獨(dú)特特的體系系結(jié)構(gòu)，達(dá)達(dá)到性能能最優(yōu)、功功耗更低低的目的的。華威威處理器器（SuuperrV）體體系結(jié)構(gòu)構(gòu)不僅基基于RIISC、VVLIWW和SIIMD技技術(shù)，而而且采用用了可重重構(gòu)技術(shù)術(shù)，使得得用戶在在不增加加硬件開開銷的情情況下通通過對(duì)系系統(tǒng)功能能部件的的重構(gòu)完完成對(duì)不不同應(yīng)用用的處理理，不僅僅提高了了

16、系統(tǒng)性性能，而而且大大大降低了了系統(tǒng)的的功耗。例例如，在在華威處處理器中中設(shè)計(jì)了了若干332位可可重構(gòu)乘乘法器，每每個(gè)可重重構(gòu)乘法法器可以以完成332位乘乘法、若若干個(gè)116位乘乘法或者者8位乘乘法。因因此，華華威處理理器可以以采用一一條指令令完成116個(gè)88位數(shù)據(jù)據(jù)的乘（累累）加操操作；一一條指令令可以完完成8個(gè)個(gè)16位位數(shù)據(jù)的的乘（累累）加操操作；一一條指令令可以完完成4個(gè)個(gè)32位位數(shù)據(jù)的的乘加操操作；一一條指令令可以完完成4個(gè)個(gè)32位位數(shù)據(jù)的的累加操操作；一一條指令令可以完完成166個(gè)索引引、166個(gè)地址址計(jì)算和和16次次數(shù)據(jù)加加載操作作；兩條條指令完完成166個(gè)8位位數(shù)據(jù)累累加操作作；

17、兩條條指令可可以完成成8個(gè)116位數(shù)數(shù)據(jù)累加加操作；兩條指指令可以以完成對(duì)對(duì)2566項(xiàng)、88位元素素的數(shù)據(jù)據(jù)表進(jìn)行行的166路并行行查找。 Tennsillicaa的可配配置技術(shù)術(shù)是可重重構(gòu)處理理器的重重要代表表。例如如，Veectrra LLX定點(diǎn)點(diǎn)向量DDSP引引擎就是是通過配配置選項(xiàng)項(xiàng)在Xttenssa LLX可配配置處理理器的基基礎(chǔ)上建建立起來來的。即即Vecctraa LXX定點(diǎn)DDSP引引擎是XXtennsa LX微微處理器器內(nèi)核的的一種配配置。該該定點(diǎn)DDSP引引擎是一一個(gè)3發(fā)發(fā)射SIIMD處處理器，具具有四個(gè)個(gè)乘法器器/累加加器（四四MACC），它它可以處處理1228位的的向量

18、。1128位位向量可可以分成成8個(gè)116位或或者4個(gè)個(gè)32位位的元素素。整個(gè)個(gè)Vecctraa LXX DSSP引擎擎是用TTIE （Teensiiliccass Innstrructtionn Exxtennsioon）語語言開發(fā)發(fā)的，通通過修改改可以適適合不同同的應(yīng)用用領(lǐng)域。VVecttra LX DSPP引擎增增加了116個(gè)向向量寄存存器（每每個(gè)寄存存器1660位寬寬）、四四個(gè)1228位的的向量隊(duì)隊(duì)列寄存存器、第第二個(gè)lloadd/sttoree單元和和2100多條現(xiàn)現(xiàn)有Xttenssa LLX處理理器指令令集體系系結(jié)構(gòu)中中的通用用DSPP指令。VVecttra LX DSPP引擎如如圖

19、4所所示。圖4 Vecctraa LXX DSSP體系系結(jié)構(gòu)框框圖結(jié)結(jié) 語作作為信息息產(chǎn)業(yè)的的核心技技術(shù)，微微處理器器體系結(jié)結(jié)構(gòu)正在在發(fā)生很很大的變變化，而而這種變變化無不不體現(xiàn)出出市場(chǎng)需需求的強(qiáng)強(qiáng)大動(dòng)力力。現(xiàn)代代微處理理器，無無論是通通用微處處理器還還是數(shù)字字信號(hào)處處理器在在體系結(jié)結(jié)構(gòu)方面面正在趨趨于融合合。通用用處理器器通過增增加媒體體處理指指令來提提高數(shù)據(jù)據(jù)處理器器能力；而數(shù)字字信號(hào)處處理器也也借鑒了了通用處處理器的的體系結(jié)結(jié)構(gòu)，使使得數(shù)字字信號(hào)處處理器的的數(shù)據(jù)處處理器能能力更加加強(qiáng)大、管管理更加加靈活。同同時(shí)，隨隨著嵌入入式應(yīng)用用的需求求，對(duì)功功耗的要要求也越越來越苛苛刻，使使得可

20、重重構(gòu)處理理器在未未來將會(huì)會(huì)起到重重要的作作用。由由于不同同的應(yīng)用用需求可可以通過過重構(gòu)技技術(shù)獲得得所需要要的微處處理器系系統(tǒng)架構(gòu)構(gòu)，這將將大大提提高產(chǎn)品品的競(jìng)爭(zhēng)爭(zhēng)力，同同時(shí)也降降低了整整個(gè)系統(tǒng)統(tǒng)的功耗耗和成本本。多處理器的的體系結(jié)結(jié)構(gòu) 隨著單個(gè)處處理器的的性能越越來越逼逼近其物物理極限限,現(xiàn)在在的處理理器設(shè)計(jì)計(jì)方向可可以大致致有兩類類，一是是采用單單片上集集成多個(gè)個(gè)核中或或者采用用一個(gè)核核中多個(gè)個(gè)物理線線程的方方法來達(dá)達(dá)到并行行的目的的，從而而提高性性能；另另一個(gè)方方向是嵌嵌入式應(yīng)應(yīng)用，這這有兩種種思路即即將通用用處理器器擴(kuò)展、改改裝成能能適合各各種嵌入入式應(yīng)用用（的份份額是），或或者將擴(kuò)擴(kuò)

21、展、改改裝以吸吸收部分分通用微微處理器器的特點(diǎn)點(diǎn)。事實(shí)實(shí)上，在20000年年，嵌入入式芯片片的銷售售量已經(jīng)經(jīng)是通用用微微處理能能的兩倍倍多。但但是從編編譯的角角度來看看由于其其不規(guī)則則、復(fù)雜雜的結(jié)構(gòu)構(gòu)以及指指令集結(jié)結(jié)構(gòu)，導(dǎo)導(dǎo)致無法法很好的的利用編編譯器。當(dāng)當(dāng)然，現(xiàn)現(xiàn)在的一一個(gè)研究究方向就就是吸收收通用微微處理器器的特點(diǎn)點(diǎn)，以方方便編譯譯器的使使用。 .相相關(guān)的體體系結(jié)構(gòu)構(gòu)介紹 .多發(fā)射射處理器器（muultii-isssuee prroceessoor）多發(fā)射射處理器器（muultii-isssuee prroceessoor）包包括超標(biāo)標(biāo)量(SSupeersccalaar)和和超長(zhǎng)指指令

22、字（VVeryy-Loong Insstruuctiion Worrd，）處理理器,其其思想是是允許在在一個(gè)時(shí)時(shí)鐘周期期內(nèi)發(fā)射射多條指指令以減減少處理理器的平平均, 更好地地利用處處理器的的功能部部件。提提高多發(fā)發(fā)射處理理器資源源利用率率的關(guān)鍵鍵問題是是：如何何在程序序中找到到足夠的的指令級(jí)級(jí)并行性性。超標(biāo)標(biāo)量處理理器在每每個(gè)時(shí)鐘鐘周期發(fā)發(fā)射由硬硬件動(dòng)態(tài)態(tài)確定的的指令，而而處理理器則在在每個(gè)時(shí)時(shí)鐘周期期發(fā)射出出編譯器器確定的的固定數(shù)數(shù)目的操操作。超超標(biāo)量處處理器是是依賴硬硬件來發(fā)發(fā)現(xiàn)ILLP，而VLLIW處處理器則則依賴編編譯器來來發(fā)現(xiàn)。不不管是超超標(biāo)量還還是處處理器都都只能挖挖掘同一一個(gè)線

23、程程的ILLP來提提高處理理器資源源利用率率。當(dāng)多多發(fā)射處處理器不不能發(fā)現(xiàn)現(xiàn)足夠的的指令來來添滿發(fā)發(fā)射槽時(shí)時(shí)，水平平浪費(fèi)（HHoriizonntall Waastee）就發(fā)發(fā)生了。此此外當(dāng)資資源沖突突造成多多發(fā)射處處理器在在接下來來的時(shí)鐘鐘周期中中不能發(fā)發(fā)射指令令，則造造成了垂垂直浪費(fèi)費(fèi)（Veertiicall Waastee）。如如圖1所所示為多多發(fā)射處處理器中中可能造造成的垂垂直浪費(fèi)費(fèi)和水平平浪費(fèi)情情況。圖圖中空空白塊表表示該指指令發(fā)射射槽（IIssuue SSlott）浪費(fèi)費(fèi)了；不同的的填充色色表示不不同線程程。現(xiàn)現(xiàn)代超標(biāo)標(biāo)量處理理器包括括：DEEC/CComppaq 211162,

24、PowwerPPC,MMIPSS R1100000,SSun UlttraSSparrc.HHP PPA-880000?，F(xiàn)代代VLIIW處理理器包括括：Inntell IAA-644(Ittaniium),trranssmetta CCrussoe。 2.1.22 多線線程處理理器（mmultti-tthreead proocesssorr）為為了減少少長(zhǎng)延遲遲對(duì)處理理器效率率的影響響，例例如減少少cacche不不命中和和執(zhí)行時(shí)時(shí)間長(zhǎng)的的指令對(duì)對(duì)處理器器效率的的影響，在在單個(gè)處處理器內(nèi)內(nèi)部實(shí)現(xiàn)現(xiàn)多個(gè)硬硬件線程程。當(dāng)某某個(gè)線程程處理 cacche不不命中時(shí)時(shí)，其他他線程可可以以繼繼續(xù)執(zhí)行行有

25、效工工作，從從而隱藏藏訪存延延遲，提提高綜合合性能。多線程程處理器器的優(yōu)點(diǎn)點(diǎn)在于由由于能夠夠快速切切換線程程上下文文，因此此多線程程處理器器能在每每個(gè)時(shí)鐘鐘周期發(fā)發(fā)射一個(gè)個(gè)獨(dú)立線線程的指指令。能能夠利用用線程級(jí)級(jí)并行提提高處理理器資源源的利用用率。其其主要缺缺點(diǎn)是由由于每個(gè)個(gè)時(shí)鐘周周期只能能允許一一個(gè)線程程活躍，所所以沒能能發(fā)現(xiàn)橫橫向的資資源效率率。多多線程處處理器通通常為每每個(gè)線程程維護(hù)獨(dú)獨(dú)立的和寄寄存器，可可以分為為細(xì)粒度度多線程程，即每每個(gè)時(shí)鐘鐘周期都都可以進(jìn)進(jìn)行線程程切換，以以及粗粒粒度多線線程，即即可以等等到有長(zhǎng)長(zhǎng)延遲操操作時(shí)再再做線程程切換。 2.1.33 同時(shí)時(shí)多線程程處理器

26、器（siimulltanneouus mmultti-tthreead proocesssorr）同同時(shí)多線線程是一一種處理理器體系系結(jié)構(gòu)，它它結(jié)合了了超標(biāo)量量和多線線程處理理器的特特點(diǎn)，可可以同時(shí)時(shí)減少水水平和垂垂直浪費(fèi)費(fèi)。在在一個(gè)時(shí)時(shí)鐘周期期內(nèi)發(fā)射射（Issssuue）來來自多個(gè)個(gè)線程的的多條指指令。同同時(shí)多線線程技術(shù)術(shù)在兩個(gè)個(gè)方面提提高了處處理器的的總體性性能：（）允允許在一一個(gè)時(shí)鐘鐘周期內(nèi)內(nèi)執(zhí)行來來自不同同線程的的多條指指令。因因此在一一個(gè)時(shí)鐘鐘周期內(nèi)內(nèi)能夠同同時(shí)利用用程序的的和ILLP消除除水平浪浪費(fèi)，提提高處理理器發(fā)射射槽以及及功能部部件的利利用率（如如圖1ee) （）理論論

27、上來說說，允許許任何活活動(dòng)線程程的組合合來發(fā)射射指令。當(dāng)當(dāng)由于長(zhǎng)長(zhǎng)延遲操操作或者者資源沖沖突導(dǎo)致致只有一一個(gè)活動(dòng)動(dòng)線程時(shí)時(shí)，該線線程能夠夠使用所所有可獲獲得的發(fā)發(fā)射槽。這這就使得得，可以以通過使使用其他他線程的的未阻塞塞指令來來消除垂垂直浪費(fèi)費(fèi)。由由于SMMT處理理器在每每個(gè)時(shí)鐘鐘周期可可以選擇擇多個(gè)線線程的指指令執(zhí)行行，因此此能夠更更好地利利用處理理器資源源。取指指階段有有更多選選擇，比比如可以以增加取取非投機(jī)機(jī)指令執(zhí)執(zhí)行的可可能性，可可以同時(shí)時(shí)提高水水平和垂垂直的資資源效率率。盡管管多發(fā)射射處理器器在一個(gè)個(gè)時(shí)鐘周周期內(nèi)能能執(zhí)行多多條指令令，但是是當(dāng)在一一個(gè)時(shí)鐘鐘周期內(nèi)內(nèi)不能找找到足夠夠的

28、并行行指令時(shí)時(shí)，多發(fā)發(fā)射處理理器效率率會(huì)下降降。多線線程處理理器可以以能夠克克服長(zhǎng)延延遲操作作和資源源沖突所所帶來的的限制，但但是不能能有效地地利用處處理器中中的所有有資源。結(jié)結(jié)合了超超標(biāo)量和和多線程程的好處處，而不不需要很很大的代代價(jià)（例例如芯片片面積）。為為了允許許在一個(gè)個(gè)時(shí)鐘內(nèi)內(nèi)發(fā)射多多個(gè)線程程的多條條指令業(yè)業(yè)為每個(gè)個(gè)線程維維護(hù)一套套獨(dú)立的的體系結(jié)結(jié)構(gòu)狀態(tài)態(tài)包括通通用寄存存器，控控制寄存存器和其其他的狀狀態(tài)寄存存器等。其主要要缺點(diǎn)是是，由于于采用集集中式指指令發(fā)射射指令發(fā)發(fā)射階段段變得復(fù)復(fù)雜，采采用什么么策略發(fā)發(fā)射指令令的問題題；另外外，未來來微處理理器設(shè)計(jì)計(jì)主要采采用功能能分布的的方

29、法來來克服片片上線延延遲，而而集中式式發(fā)射束束縛了功功能分布布，這是是不如片片上多處處理器的的地方。 .單單片多處處理器（ chiip mmultti-pproccesssor）隨著單單個(gè)芯片片上晶體體管數(shù)目目的增加加，構(gòu)造造片上多多處理器器系統(tǒng)成成為可能能。片上上多處理理器是指指中在單單個(gè)芯片片上的多多個(gè)處理理器核所所構(gòu)成的的多處理理器系統(tǒng)統(tǒng)。片上上多處理理器系統(tǒng)統(tǒng)允許線線程在多多個(gè)處理理器核上上并行執(zhí)執(zhí)行，它它利用線線程級(jí)并并行性來來提高系系統(tǒng)性能能。然而而由于片片上多處處理器系系統(tǒng)的資資源是采采用劃分分方式的的，當(dāng)沒沒有足夠夠線程時(shí)時(shí)，資源源就浪費(fèi)費(fèi)了。圖圖1d即即為的發(fā)發(fā)射槽利利用圖

30、。片片上多處處理器的的主要好好處是片片上的處處理器核核可以很很簡(jiǎn)單，使使得設(shè)計(jì)計(jì)和驗(yàn)證證時(shí)間短短，也也易于獲獲得較高高主頻。典型的的CMPP系統(tǒng)包包括: Staandffordd Hyydraa,IBBM PPoweer4,Sunn MAAJC,Brooadccom sb112500,Crradlless Unniveersaal MMicrrosyysteem。在程序序運(yùn)行時(shí)時(shí)，允許許線程在在多個(gè)處處理器上上執(zhí)行，利利用線程程級(jí)并行行性來提提高系統(tǒng)統(tǒng)性能。其其主要缺缺點(diǎn)是，由由于資源源是各個(gè)個(gè)處理器器獨(dú)有的的，所以以當(dāng)沒有有足夠的的線程時(shí)時(shí)會(huì)造成成資源浪浪費(fèi)。必必須注意意的是，嚴(yán)嚴(yán)格的

31、講講，此處處關(guān)心的的線程數(shù)數(shù)最小僅僅僅指單單純的線線程數(shù)，而而應(yīng)該指指（線程程數(shù)并并行性），因因?yàn)槿绻€程的的并行性性不高（比比如一個(gè)個(gè)線程長(zhǎng)長(zhǎng)時(shí)間依依賴于另另一個(gè)線線程）再再多的線線程在某某一個(gè)時(shí)時(shí)刻表現(xiàn)現(xiàn)出來的的實(shí)際效效果是很很差的。 2.11.5多多核多線線程處理理器這這是單片片多處理理器和多多線程的的結(jié)合體體，也是是未來的的處理科科體系結(jié)結(jié)構(gòu)的一一個(gè)可能能的發(fā)展展趨勢(shì)?，F(xiàn)現(xiàn)在也有有叫cllusttereed SSMTpproccesssor也也屬于這這種類型型。其結(jié)結(jié)構(gòu)特點(diǎn)點(diǎn)是一個(gè)個(gè)片上有有多個(gè)處處理器，同同時(shí)每個(gè)個(gè)處理器器內(nèi)部支支持多個(gè)個(gè)線程，所所以說是是單片多多處理器器和多線線

32、程的結(jié)結(jié)合體。單獨(dú)采采用片上上多處理理器的優(yōu)優(yōu)點(diǎn)是，能能夠把許許多時(shí)間間關(guān)鍵的的資源分分布到不不同的處處理器上上，故能能夠使邏邏輯稍微微簡(jiǎn)單，也也能夠提提高時(shí)鐘鐘頻率；其缺點(diǎn)點(diǎn)是不同同處理器器之間通通信延遲遲很大。單單獨(dú)采用用能夠增增加指令令發(fā)射寬寬度，消消除掉許許多延遲遲；其缺缺點(diǎn)是必必然增加加單個(gè)處處理器上上的時(shí)間間關(guān)鍵的的資源的的競(jìng)爭(zhēng)，如如寄存器器堆和重重命名機(jī)機(jī)制，同同時(shí)這種種競(jìng)爭(zhēng)必必然會(huì)要要求利用用出復(fù)雜雜的邏輯輯。但但是可以以看到上上述兩種種結(jié)構(gòu)具具有明顯顯的互補(bǔ)補(bǔ)性，所所以說，多多處理器器多線程程是一個(gè)個(gè)發(fā)展方方向。但但必須指指出的是是，這種種體系結(jié)結(jié)構(gòu)最大大的瓶頸頸就是隨隨

33、著處理理速度提提高，對(duì)對(duì)共享資資源的競(jìng)競(jìng)爭(zhēng)將更更加激烈烈。各段均取周周期法：流水水線各段段執(zhí)行時(shí)時(shí)間最長(zhǎng)長(zhǎng)的那段段為整個(gè)個(gè)流水線線的瓶頸頸，一般般地，將將其執(zhí)行行時(shí)間稱稱為流水水線的周周期。若在在計(jì)算nn個(gè)任務(wù)務(wù)地執(zhí)行行時(shí)間時(shí)時(shí)，將各各個(gè)子功功能段的的實(shí)際執(zhí)執(zhí)行時(shí)間間限制為為周期時(shí)時(shí)間，則則稱為各各段均取取周期法法。該方方法中，計(jì)計(jì)算公式式為: TT總=(n+kk-1)周期期其中中，k為為總段數(shù)數(shù)，n為為任務(wù)總總數(shù)。各各疊加段段取最大大值法：該方法法中，計(jì)計(jì)算公式式為: T總=t1+maxxt11,t22+mmaxt1,t2,t3+maxxt11,t22,tk-1 +maxxt11,

34、t22,ttkn-(k-1)+maaxtt2,tt3,tkk +maxxt33,t44,tk+maxxtkk-1,tk+tkk 其中中，k為為總段數(shù)數(shù)，n為為任務(wù)總總數(shù)。最最省時(shí)法法：該方法法中，計(jì)計(jì)算公式式為: TT總=tt1+tt2+tkk+maaxtt1,tt2,tt3,.,tk(nn-1) 其中，kk為總段段數(shù)，nn為任務(wù)務(wù)總數(shù)。采取哪種方法？當(dāng)各段執(zhí)行時(shí)間不一樣時(shí)，上述3種方法才存在區(qū)別。若各段執(zhí)行時(shí)間一樣，三者無區(qū)別。第2，3種方式依各段時(shí)間取值不一樣而可能存在區(qū)別。問題一、現(xiàn)現(xiàn)采用四四級(jí)流水水線結(jié)構(gòu)構(gòu)分別完完成一條條指令的的取指、指指令譯碼碼和取數(shù)數(shù)、運(yùn)算算以及送送回運(yùn)算算結(jié)

35、果四四個(gè)基本本操作，每每步操作作時(shí)間依依次為660nss，1000nss，500ns和和70nns。該該流水線線的操作作周期應(yīng)應(yīng)為_AA_nss。若有有一小段段程序需需要用220條基基本指令令完成（這這些指令令完全適適合于流流水線上上執(zhí)行），則則得到第第一條指指令結(jié)果果需_BB_nss，完成成該段程程序需_C_nns。供選擇擇的答案案： AA： 50 70 1000 2800 B： 1000 2000 2800 4000 C： 14000 20000 23000 26000 答答案：AA.3 B.44 C.3 問問題二、若若流水線線把一條條指令分分為取指指、分析析和執(zhí)行行三個(gè)部部分，且且三部分分的時(shí)間間分別是是t取指指=2nns，tt分析=2nss，t執(zhí)執(zhí)行=11ns，則則1000條指令令全部執(zhí)執(zhí)行完畢畢需_nns。 A、1163 B、1183 C、1192 D、2203 答案DD 以上上兩題計(jì)計(jì)算方法法存在著著沖突：問題題一、第第一條指指令結(jié)果果所需時(shí)時(shí)間=1100*4=4400 則相應(yīng)應(yīng)的完成成該段程程序所需需時(shí)間=1000*4+1000*199=23300 問題二二、第一一條指令令結(jié)果所

人人文庫> 全部分類> 行業(yè)資料 > 商業(yè)貿(mào)易

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

從體系結(jié)構(gòu)的演變看高性能微處理器的發(fā)展趨勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔