版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2023/7/23余臘生版權所有,違者必究5-1MultipleInstructionIssueWehaveattemptedtolimitstallsfromhazardstolowertheaverageCPItotheidealCPIof1CanwedecreaseCPItounder1?How?Issueandexecutemorethan1instructionatatimeMultiple-issueprocessorscomeintwokinds:Superscalarsusestaticand/ordynamicschedulingmechanismsandmultiplefunctionalunitstoissuemorethan1instructionatatimeVLIW(verylonginstructionword)useinstructionswhicharethemselvesmultipleinstructions,scheduledbyacompilerallinstructionsinthelongwordareexecutedinparallelthisrequiressoftware(compiler)support2023/7/23余臘生版權所有,違者必究5-2SuperscalarHardwareissuesfrom1to8instructionsperclockcycletheseinstructionsmustbeindependentandsatisfyotherconstraintsAvoidstructuralhazards-usedifferentfunctionalunits,makeupto1memoryreferencecombinedSchedulingofinstructionscanbedonestaticallybyacompilerordynamicallybyhardwareWhileasuperscalarcanissueanycombinationofinstructions,forsimplicity,wewillconcentrateona2instructionsuperscalarforMIPSwhereoneinstructionwillbeanintegeroperationandtheother,ifavailablewillbeafloatingpointoperationThissimplificationreducesthecomplexityofthehardware,butalsoreducestheusefulnessofthesuperscalar2023/7/23余臘生版權所有,違者必究5-3超標量處理機的基本結(jié)構(gòu)如果把處理機中能夠同時運行的指令條數(shù)定義為指令并行度ILP(instructionlevelparallelism),那未一條k級流水線的ILP為k。如果一個超標量處理機中存在n條這樣的流水線,其ILP為nk。12341234整數(shù)寄存器123412345656浮點數(shù)寄存器存儲器圖2-26常見的超標量處理機組成返回上一張2023/7/23余臘生版權所有,違者必究5-4指令的單發(fā)射與多發(fā)射處理機從指令存儲單元(或指令分配單元)取得指令的過程稱為“發(fā)射”。如果一個處理機在單個時鐘周期中只能取出一條指令供執(zhí)行,就稱為單發(fā)射處理機。如果在一個時鐘周期內(nèi)可以同時取得多條指令的處理機可以稱為多發(fā)射處理機。時鐘周期指令I1I2I351234IFIDEXWRIFIDEXWRIFIDEXWR時鐘周期指令I6I1I2I3I4I512345EXWRIFIDIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWR(a)單發(fā)射
(b)多發(fā)射圖2-28單發(fā)射與多發(fā)射工作方式比較返回上一張2023/7/23余臘生版權所有,違者必究5-5超標量流水線處理機超標量流水線的發(fā)射策略
已經(jīng)指出,限制指令級并行性的3種因素是:1.結(jié)構(gòu)相關,即資源沖突;2.控制相關;3.數(shù)據(jù)相關,即WR相關、RW相關、WW相關。在超標量流水中,上述相關的存在,使問題變得更加復雜化。因此超標量流水線的調(diào)度,即指令的發(fā)射和完成策略,對于充分利用指令級的并行度,提高超標量處理器的性能十分重要。
所謂指令發(fā)射策略包括兩層意思,
一是取指令的次序,另一個是所取指令的執(zhí)行次序。2023/7/23余臘生版權所有,違者必究5-6超標量流水線處理機指令發(fā)射(instructionissue)是指啟動指令進入執(zhí)行段的過程。指令發(fā)射策略是指指令發(fā)射所用的協(xié)議或規(guī)則。當指令按程序的次序發(fā)射時,稱之為按序發(fā)射(in-orderissue)。為改善流水線性能,可以將存在相關性的指令推后發(fā)射,而將后面無相關性的指令提前發(fā)射,即不按程序原有次序發(fā)射指令,稱之為無序發(fā)射(out-of-orderissue)。類似地,指令的完成也有按序完成和無序完成之分。一般而言,無序發(fā)射總導致無序完成。
2023/7/23余臘生版權所有,違者必究5-7超標量流水線處理機超標量流水線共有3種調(diào)度策略:1.按序發(fā)射按序完成;2.按序發(fā)射無序完成;3.無序發(fā)射無序完成。無論哪種調(diào)度策略,都要保證程序運行的最終結(jié)果是正確的.2023/7/23余臘生版權所有,違者必究5-8超標量流水線處理機假設有一個并行度為2的超標量流水線,其結(jié)構(gòu)如圖7(a)所示。它分為取指(F)段、譯碼(D)段、執(zhí)行(E)段和寫回(W)段共四段。F、D、W段都是1個時鐘周期完成。E段有多個功能部件:其中LOAD/STORE部件完成D-Cache訪問只需1個時鐘周期,加法器部件完成加法操作需2個時鐘周期,乘法器部件完成乘法操作則需3個時鐘周期。加法器和乘法器都已流水化。F段和D段要求指令成對的輸入。E段有內(nèi)部數(shù)據(jù)定向傳送,結(jié)果生成即可使用。2023/7/23余臘生版權所有,違者必究5-9超標量流水線處理機使用的程序包含如下6條指令序列:
I1
LOAD
R1,M(A)
;R1←M(A)
I2
ADD
R2,R1
;R2←(R2)+(R1)
I3
ADD
R3,R4
;R3←(R3)+(R4)
I4
MUL
R4,R5
;R4←(R4)×(R5)
I5
LOAD
R6,M(B)
;R6←M(B)
I6
MUL
R6,R7
;R6←(R6)×(R7)上述指令中I1,I2有WR相關,I3,I4有RW相關,I5,I6有WW相關和WR相關。2023/7/23余臘生版權所有,違者必究5-10超標量流水線處理機1
按序發(fā)射圖7(b)給出了按序發(fā)射按序完成的譯碼段、執(zhí)行段、寫回段的推進情況,而圖7(c)給出了流水線的時空圖。2023/7/23余臘生版權所有,違者必究5-11超標量流水線處理機我們看到,指令I5與I3,I4無關,若不推遲寫回而是在時鐘7寫回,程序的語義仍然正確。這樣實現(xiàn)的話,I5先于I4完成,這種情況就是按序發(fā)射無序完成,其流水線時空圖見圖8所示。雖然總的完成時間仍是10個時鐘周期,但是圖7(b)中的I5不存在了,LOAD/STORE部件的利用率得到了提高。2023/7/23余臘生版權所有,違者必究5-12超標量流水線處理機2
無序發(fā)射從按序發(fā)射方式看到,譯碼段只是對到達的指令進行資源沖突或數(shù)據(jù)相關性的判測,若無沖突或相關性則按序發(fā)射出去,否則指令滯留在譯碼段直到?jīng)_突或相關性消失再發(fā)射,如圖7(b)中的I2。如果處理器具有前找能力,即后續(xù)的指令中可能有獨立指令,它與已在流水線上的指令不相關,此時應提前譯碼并執(zhí)行,以充分發(fā)揮超標量多條指令流水線的能力。這就是無序發(fā)射的目的2023/7/23余臘生版權所有,違者必究5-13超標量流水線處理機2
無序發(fā)射為實現(xiàn)無序發(fā)射,就必須在流水線的譯碼段和執(zhí)行段之間建立緊密的聯(lián)系。一種常用的方法是使用指令窗口,它實質(zhì)上是一個緩沖棧。當處理器譯碼一條指令后就將它放入指令窗口,只要緩沖器不滿,就繼續(xù)取和譯碼后續(xù)的指令。指令由指令窗口發(fā)射到執(zhí)行段。只要滿足兩個條件:1.指令所需的功能部件是可用的,2.無相關性阻礙這條指令的執(zhí)行,那么這條指令即可發(fā)射出去,與取指或譯碼的順序無關。2023/7/23余臘生版權所有,違者必究5-14超標量流水線處理機2
無序發(fā)射使用指令窗口的超標量流水線模型見圖9(a)所示。注意,指令窗口只是譯碼段與執(zhí)行段之間的緩沖機構(gòu),并不是流水線的一個獨立段。在無序發(fā)射方式下,前述程序的6條指令在流水線上的推進情況及流水線時空圖分別示于圖9(b)和(c)中。2023/7/23余臘生版權所有,違者必究5-15SuperscalarProblemsWemustnowexpandthepotentialproblemsthatarisewithasuperscalarpipelineoveranordinarypipeline:RAWhazardscouldexistbetweenthetwoinstructionsissuedatthesametimeTherearenewpotentialWAWandWARhazardsWeneedtohavetwiceasmanyregisterreadsandwritesasbefore,ourregisterfilemustbeexpandedtoaccommodatethisLoadsandStoresareintegeroperationseveniftheyaredealingwithfloatingpointregisterswemightbereadingfloatingpointregistersforaFPoperationandalsoreading/writingfloatingpointregistersforanFPloadorstoreMaintainingpreciseexceptionsisdifficultbecauseanintegeroperationmayhavealreadycompletedHardwaremustdetecttheseproblems(andquickly)2023/7/23余臘生版權所有,違者必究5-16CostofaSuperscalarWealreadyhadthemultiplefunctionalunits,sothereisnoaddedcostintermsofhavinganintandaFPinstructionissueandexecuteinparallelThereareaddedcoststhoughforHazarddetectionthecomplexityhereisincreasedbecausenowinstructionsmustbecomparednotonlytoinstructionsfurtherdownthepipeline,buttotheinstructionatthesamestage,plusthereisapotentialfortwiceasmanyinstructionsbeingactiveatonetime!MaintainingpreciseexceptionsTwosetsofbusesintegeroperationsfromintegerregisterstointegerALU&datacacheFPoperationsfromFPregisterstoFPfunctionalunit&datacacheAbilitytoaccessfloatingpointregisterfilebyupto3instructionsduringthesamecycle(aloadorstoreFPintheIDorWBstage,anFPinstructioninIDandanFPinstructioninWB)2023/7/23余臘生版權所有,違者必究5-17HardwareBasedSpeculationInissuingmultipleinstructionspercycle,branchpredictionmaynotbeaccurateenoughtomaintainareasonableissuerateAhighissueprocessormayneedtoexecuteabrancheveryclockcycle!Toexploitfurtherperformance,wenowlookathardwaretopromotespeculativeinstructionissueHardwarewillpredictthenextinstructionandissueitbeforedeterminingthebranchresultIfpredictingwrong,theinstructionmustbekilledoffbeforeitcanaffectachangetothemachine’sstateitcannotupdateregistersormemoryWeaddanewbuffercalledthereorderbufferThisbufferstorestheresultsofcompletedinstructionsthatwerespeculated,untilthespeculationisproventrueorfalseIftrue,wecanallowtheinstruction’sresultstobewrittentoregisters/memoryIffalse,wemustremoveitandallinstructionsthatfolloweditsincetheywerespeculatedincorrectlyWeAddanewstatetoinstructionexecutioncalledcommittoourTomasulo-basedsuperscalararchitectureShouldtheresultbestoredinthedestinationregister?Thisbecomesthefinalstepforallinstructions2023/7/23余臘生版權所有,違者必究5-18TheNewArchitectureWillcombine:Tomasulo-basedapproachofreservationstationsfordynamicschedulingmulti-issuesuperscalarseparatelycontrolledintegratedfetchunitwhichwillspeculateoncontroldependencesreorderbuffertotemporarilystoreresultsbeforetheyaremovedtoregisters2023/7/23余臘生版權所有,違者必究5-19StepsforHardwareWemustenhanceourcontrolhardwarefromTomasulo’sapproachtoincludeInstructioncannotissueifthereorderbufferisfullUponissue,updateregisterstatustoincludereorderbufferentrynumber,andenterreorderbufferentrynumberintodestinationfieldofreservationstation–usethisvaluetorenameregistersifneededExecutionremainsthesamealthoughloadsandstoresarenowbeinghandledbyaseparatememorycontrolunitWriteresultremainsthesameexceptthatvaluesarenotwrittentoregistershere,buttheyareforwardedviaCDBIneachcycle,committheinstructionatthefrontofthereorderbufferifithasreachedthewriteresultstageandthespeculationfortheinstructionwascorrectOtherwise,ifthespeculationfortheinstructionwaswrong,flushtheinstructionandallothersinthereorderbufferuntilyoureachthefirstinstructionfetchedafterthebranchconditionwasdetermined2023/7/23余臘生版權所有,違者必究5-20ExampleHerewetakeabrieflookatanotherexampleofspeculationThecodeisgivenbelowAssumethereareseparateintegerunitsforeffectiveaddresscalculation,ALUoperations,andbranchconditionevaluationNoticethattherearenoFPoperationshere,soallinstructionsshouldexecutein1cycleWewilllookatthecyclesatwhicheachinstructionissues,executes,andwritestotheCDBwithoutspeculation,andissues,executes,writesandcommitswithspeculationLoop: LD R2,0(R1) DADDIU R2,R2,#1 SD R2,0(R1) DADDIU R1,R1,#4 BNE R2,R3,Loop2023/7/23余臘生版權所有,違者必究5-21WithoutSpeculationCycle#InstructionIssueExecuteMemAccCDBComments1LDR2,0(R1)1234Firstissue1DADDIUR2,R2,#1156WaitforLD1SDR2,0(R1)237Waitforadd1DADDIUR1,R1,#4234Executedirectly1BNER2,R3,Loop37Waitforadd2LDR2,0(R1)48910WaitforBNE2DADDIUR2,R2,#141112WaitforLD2SDR2,0(R1)5913Waitforadd2DADDIUR1,R1,#4589Waitfor1stBNE2BNER2,R3,Loop613Waitforadd3LDR2,0(R1)7141516Waitfor2ndBNE3DADDIUR2,R2,#171718WaitforLW3SDR2,0(R1)81519Waitforadd3DADDIUR1,R1,#481415Waitfor2ndBNE3BNER2,R3,Loop919Waitforadd2023/7/23余臘生版權所有,違者必究5-22WithSpeculationCycleInstructionIssueExecMemAccCDBCommitComments1LDR2,0(R1)12345Firstissue1DADDIUR2,R2,#11567WaitforLD1SDR2,0(R1)237Waitforadd1DADDIUR1,R1,#42348Commitinorder1BNER2,R3,Loop378Waitforadd2LDR2,0(R1)45679Nodelay2DADDIUR2,R2,#148910WaitforLD2SDR2,0(R1)5610Waitforadd2DADDIUR1,R1,#456711Commitinorder2BNER2,R3,Loop61011Waitforadd3LDR2,0(R1)7891012Nodelay3DADDIUR2,R2,#17111213WaitforLW3SDR2,0(R1)8913Waitforadd3DADDIUR1,R1,#4891014Commitinorder3BNER2,R3,Loop91314Waitforadd2023/7/23余臘生版權所有,違者必究5-23DesignIssuesReorderbuffervs.moreregistersWecouldforegothereorderbufferbyprovidingadditionaltemporarystorage–inessence,thetwoarethesamesolution,justaslightlydifferentimplementationBothrequireagooddealmorememorythanweneededwithanordinarypipeline,butbothimproveperformancegreatlyHowmuchshouldwespeculate?Otherfactorscauseourmultiple-issuesuperscalartoslow–cacheissuesorexceptionsforinstance,soalargeamountofspeculationisdefeatedbyotherhardwarefailings,wemighttrytospeculateoveracoupleofbranches,butnotmoreSpeculatingovermultiplebranchesImagineourloophasaselectionstatement,nowwespeculateovertwobranches–speculationovermorethanonebranchgreatlycomplicatesmattersandmaynotbeworthwhile2023/7/23余臘生版權所有,違者必究5-24Limitations/DifficultiesInherentlimitationstomultiple-issuearethelimitedamountofILPofaprogram:Howmanyinstructionsareindependentofeachother?Howmuchdistanceisavailablebetweenloadinganoperandandusingit?betweenusingandsavingit?Coupledwiththemulti-cyclelatencyforcertaintypesofoperationsthatcauseinconsistenciesintheamountofissuingthatcanbesimultaneousDifficultiesinbuildingtheunderlyinghardwareNeedmultiplefunctionunits(costgrowslinearlywiththenumberofunits)Needanincrease(possiblyverylarge)inmemoryandregister-filebandwidthwhichmighttakeupsignificantspaceonthechipandmayrequirelargersystembussizeswhichturnsintomorepinsComplexityofmultiplefetchesmeansamorecomplexmemorysystem,possiblywithindependentbanksforparallelaccesses2023/7/23余臘生版權所有,違者必究5-25LimitationsonIssueSizeIdeally,wewouldliketoissueasmanyindependentinstructionssimultaneouslyaspossible,butthisisnotpracticalbecausewewouldhaveto:LookarbitrarilyfaraheadtofindaninstructiontoissueRenameallregisterswhenneededtoavoidWAR/WAWDetermineallregisterandmemorydependencesPredictallbranchesProvideenoughfunctionalunitstoensureallreadyinstructionscanbeissuedWhatisapossiblemaximumwindowsize?Todetermineregisterdependencesoverninstructionsrequiresn2-ncomparisons2000instructions4,000,000comparisons50instructions2450comparisonsWindowsizeshaverangedbetween4and32withsomerecentmachineshavingsizesof2-8Amachinewithwindowsizeof32achievesabout1/5oftheidealspeedupformostbenchmarks2023/7/23余臘生版權所有,違者必究5-26OtherEffectsWithinfiniteregisters,registerrenamingcaneliminateallWAWandWARhazardsWithTomasulo’sapproach,thereservationstationsoffervirtualregistersMostmachinestodayhaveonlyafewvirtualregistersandperhaps32Intand32FPregistersavailableFigure3.41showstheresultingissuespercyclefordifferentnumbersofregistersSurprisingly,thenumberofregistersdoeshaveadramaticimpactandthat>32registersaredesirableAsidefromregisterrenaming,wehavenamedependenciesonmemoryreferencesThreemodelsofanalysisare:Global(perfectanalysisofallglobalvars)Stackperfect(perfectanalysisofallstackreferences)theseoffersomeimprovement,particularlyin2benchmarksInspection(examineaccessesforinterferenceatcompiletime)None(assumeallreferencesconflict)thesehavesimilarresults,between3-6instructions/cycle2023/7/23余臘生版權所有,違者必究5-27ExampleProcessorsLet’scomparethreehypotheticalprocessorsanddeterminetheirMIPSratingforthegccbenchmarkProcessor1:simpleMIPS2-issuesuperscalarpipelinewithclockrateof1GHz,CPIof1.0,cachesystemwith.01missesperinstructionProcessor2:deeplypipelinedMIPSwithaclockrateof1.2GHz,CPIof1.2,smallercacheyielding.015missesperinstructionProcessor3:speculativesuperscalarwith64-entrywindowthatachieves50%ofitsidealissueratewithaclockrateof800MHz,asmallcacheyielding.02missesperinstruction(although10%ofthemisspenaltyisnotvisibleduetodynamicscheduling)Assumememoryaccesstime(misspenalty)is100ns2023/7/23余臘生版權所有,違者必究5-28SolutionFirst,determinetheCPI(includingtheimpactofcachemisses)Processor1:1GHzclock=1nsperclockcyclememoryaccessof100nssomisspenalty=100/1=60cyclescachepenalty=.01*100=1.0cyclesperinstructionoverallCPI=1.0+1.0=2.0Processor2:1.2GHzclock=.83nsperclockcyclemisspenalty=100/.83=120cyclescachepenalty=.015*120=1.8cyclesperinstructionoverallCPI=1.2+1.8=3.0Processor3:800MHzclock=1.25nsperclockcyclemisspenaltytakesaffectonly90%ofthetime,somisspenalty=.90*100/1.25=72cyclescachepenalty=.02*72=1.44overallCPItobecomputednext…2023/7/23余臘生版權所有,違者必究5-29SolutionContinuedTheCPIofprocessor3requiresabitmoreeffortSincewewerenotgiventheCPI,wehavetocomputeitbyconsideringthenumberofinstructionissuespercycleWitha64-entrywindow,themaximumnumberofinstructionissuespercycleis9,wearetoldthatthisprocessoraverages50%itsidealrate,sothismachineissues4.5instructionspercyclegivingitaprocessorCPI=1/4.5=.22overallCPI=.22+1.44=1.66NowwecandeterminetheMIPSratingforeachProcessor1:1GHz/2.0=500MIPSProcessor2:1.2GHz/3.0=400MIPSProcessor3:800MHz/1.66=482MIPSThe2-issueprocessor(proc1)isagoodcompromisebetweenspeedofclockandissuerate,andyieldsthebestperformance2023/7/23余臘生版權所有,違者必究5-30超標量流水線處理機典型處理機結(jié)構(gòu)
Motorola公司的MC88110微處理器、Intel公司的Pentium微處理器都是典型的超標量流水線設計。前者是RISC機器,后者具有CISC和RISC兩者的特性。下面只介紹Pentium機的超標量流水線.2023/7/23余臘生版權所有,違者必究5-31超標量流水線處理機Pentium能在每個時鐘周期執(zhí)行兩條指令。它的某些指令完全是以硬連線實現(xiàn)的,并能在一個時鐘周期執(zhí)行完畢(RISC特征);另外一些指令是以微指令來實現(xiàn)的,可能需要2-3個時鐘周期的執(zhí)行時間(CISC特征)。因此,Pentium的超標量流水線與RISC處理器超標量流水線相比,既簡單又復雜。簡單是指它采用的超標量技術簡單且直截了當;復雜是指讓不定長、不同尋址方式、不同實現(xiàn)方式的指令流經(jīng)并行度為2的指令流水線是要頗費苦心的。2023/7/23余臘生版權所有,違者必究5-32超標量流水線處理機1
Pentium指令流水線的結(jié)構(gòu)Pentium處理器內(nèi)包含一個浮點部件(FPU)。浮點運算是流水化的,一條浮點運算指令分成8段完成。下面主要介紹整數(shù)指令流水線,其結(jié)構(gòu)如圖11所示。2023/7/23余臘生版權所有,違者必究5-33超標量流水線處理機從圖11中看出,Pentium有兩個32位的ALU來完成所有的整數(shù)運算和邏輯操作,因而能支持U、V兩條指令流水線的并行執(zhí)行。芯片內(nèi)部獨立設置的指令Cache(I-cache)和數(shù)據(jù)Cache(D-cache),其容量各為8KB,是對流水線的有力支持。兩個預取緩沖器,每個都是32字節(jié),負責由I-cache或主存取指令,并緩存其中。指令譯碼器除完成譯碼指令外,還要完成指令配對檢查。如果遇到轉(zhuǎn)移指令,要在譯碼之后將轉(zhuǎn)移指令地址送至轉(zhuǎn)移目標緩沖器BTB進行查找。控制ROM中存放用于控制指令執(zhí)行時操作順序的微指令。以上3個部件被U、V兩條流水線共用。2023/7/23余臘生版權所有,違者必究5-34超標量流水線處理機兩個地址生成器用于產(chǎn)生(或計算)存儲器操作數(shù)地址,各種工作模式下的邏輯地址最終要轉(zhuǎn)換成物理地址來訪問D-cache,并由轉(zhuǎn)換后援緩沖器TLB來加速這種地址轉(zhuǎn)換過程。D-cache是雙端口的,一個時鐘周期能存取兩個32位數(shù)據(jù)(或一個64位浮點數(shù))。通用寄存器組有8個32位整數(shù)寄存器,用于地址計算、保存ALU的源操作數(shù)和目的操作數(shù)。兩個32位的ALU都具有一個時鐘周期的等待時間。只有簡單指令而且沒有寄存器→存儲器或存儲器→寄存器操作的算術邏輯指令才能在一個時鐘周期執(zhí)行完畢。大多數(shù)簡單指令是以硬連線實現(xiàn)的,執(zhí)行段只需1個時鐘周期。少數(shù)涉及寄存器→存儲器或存儲器→寄存器操作的算術邏輯指令,它們需2-3個時鐘周期才能執(zhí)行完畢。但由于Pentium具有排序化硬件,允許將這些少數(shù)例外也作為簡單指令對待。2023/7/23余臘生版權所有,違者必究5-35超標量流水線處理機2
流水線的調(diào)度策略Pentium通過U、V兩條流水線能在每個時鐘周期執(zhí)行兩條整數(shù)指令。這兩條流水線都由5段組成,前兩段(PF、D1)是U、V共享的,見圖12(a)所示。現(xiàn)說明如下:預取(PF)段由I-cache取指令,指令長度是可變的,存入一個預取緩沖器。譯碼1(D1)段譯碼指令確認它的操作碼和尋址方式等有關信息。此段要完成指令配對檢查和轉(zhuǎn)移指令預測。兩條連續(xù)的指令I1、I2前后被譯碼,然后判決是否將這一對指令并行發(fā)射出去。發(fā)射一對指令必須滿足以下4個條件:1.兩條指令是簡單指令;2.兩條指令間不存在WR相關和WW相關,即I1的目標寄存器既不是I2的源寄存器也不是I2的目標寄存器。RW相關則用發(fā)射策略予以避免;3.每條指令都不同時含有立即數(shù)和偏移量;4.只有I1指令允許帶有指令前輟。如果不滿足上述條件,只允許I1指令發(fā)射到U流水線的下一段。2023/7/23余臘生版權所有,違者必究5-36超標量流水線處理機譯碼2(D2)段計算并產(chǎn)生存儲器操作數(shù)的地址。如果TLB命中,只需1個時鐘周期,否則不只1個時鐘周期。當然不是所有指令都有存儲器操作數(shù),但也必須流經(jīng)這個段。執(zhí)行(EX)段此段主要是在ALU、桶形移位器或其他功能部件中完成指定的運算。需要時完成D-cache訪問。寫回(WB)段將運算的結(jié)果打入目標寄存器和標志寄存器。U、V兩條流水線是不等價的,也不能交換使用。U流水線能執(zhí)行所有的整數(shù)和浮點數(shù)指令,而V流水線只能執(zhí)行簡單的整數(shù)指令和浮點數(shù)交換這樣的少數(shù)浮點數(shù)指令。U、V兩條流水線的調(diào)度采用按序發(fā)射按序完成策略。檢查合格的一對指令同時被發(fā)射到U、V流水線的D2段,這一對指令也必須同時離開D2段進入EX段。如果一條指令在D2段滯留,另一條指令也必須在D2段停頓,如圖12(b)的I1、I2情況所示(時鐘4)。一旦成對進入EX段,若能同時執(zhí)行完最好,否則就使U流水線的指令先執(zhí)行完。如圖12(b)所示的指令I3、I4情況是:I3執(zhí)行所需時間較長,此時V流水線的I4必須停頓,等待I3執(zhí)行完(時鐘7)。圖12(b)所示的指令I5、I6情況是:U流水線中的I5執(zhí)行所需時間較短,那么它可先執(zhí)行完畢并進入寫回段(時鐘9)。2023/7/23余臘生版權所有,違者必究5-37超標量流水線處理機Pentium的超標量流水線在每個時鐘周期能執(zhí)行兩條簡單的整數(shù)指令,但一般只能執(zhí)行一條浮點數(shù)指令。這是因為浮點數(shù)指令流水線是8段,而前5段是與U、V流水線的5段共享的,而且某些浮點操作數(shù)是64位,因此除少數(shù)例外(如浮點數(shù)交換指令),浮點數(shù)指令不能與整數(shù)指令同時執(zhí)行。
2023/7/23余臘生版權所有,違者必究5-38PentiumII:RISCfeaturesAllRISCfeaturesareimplementedontheexecutionofmicroinstructionsinsteadofmachineinstructionsMicroinstruction-levelpipelinewithdynamicallyscheduledmicrooperationsFetchmachineinstruction(3stages)Decodemachineinstructionintomicroinstructions(2stages)Issuemicroinstructions(2stages,registerrenaming,reorderbufferallocationperformedhere)Executeofmicroinstructions(1stage,floatingpointunitspipelined,executiontakesbetween1and32cycles)Writeback(3stages)Commit(3stages)Superscalarcanissueupto3microoperationsperclockcycleReservationstations(20ofthem)andmultiplefunctionalunits(5ofthem)Reorderbuffer(40entries)andspeculationused2023/7/23余臘生版權所有,違者必究5-39MoreonthePipelineFunctionalUnitshavethefollowingstages IntegerALU 1 IntegerLoad 3 IntegerMultiply 4 FPadd 3 FPmultiply 5(partiallypipelined–multipliescanstarteveryothercycle) FPdivide 32(notpipelined)Thefetchunitcanfetchupto16bytespercycle,whichisenoughtodeterminehowmuchmoreneedstobefetchedfrommemory(recallinstructionsvaryinlengthfrom1-17bytes)sothefetchmighttake2-3cyclesinall2023/7/23余臘生版權所有,違者必究5-40CISC指令的RISC實現(xiàn)指令Cache16KB指令流緩沖器指令流長度譯碼器譯碼器對齊段寄存器分配器去重排序緩沖器ROB(簡單)譯碼器2(復雜)譯碼器0(簡單)譯碼器1微代碼指令序列發(fā)生器譯碼后指令隊列靜態(tài)轉(zhuǎn)移預測動態(tài)轉(zhuǎn)移預測下一個IPRATIFU1IFU2IFU3ID1ID22023/7/23余臘生版權所有,違者必究5-41FunctionalUnitArchitectureInstructionfetchedfrominstructioncacheInstructionunitdecodesintomicrocodeMicrocodeissuedtooneofthefunctionalunits(upto3issuespercycle)5functionalunits1setofintegerunits1setofFPunits1branchunit2load/storeunitsFunctionalunitsdirectlyconnectedtodatacacheforquickaccessSecondlevelcacheusedasbackuptobothinstructionanddatacaches2023/7/23余臘生版權所有,違者必究5-42ReservationStationsTheuseofreservationstationsallowsdynamicandmultipleissuewithareorderbufferunitingallofthistogetherNoticethat2stores,1load,1simpleintegerorMMXand1complexinteger/FP/MMXoperationcanbeissuedatatime2023/7/23余臘生版權所有,違者必究5-43HandlingSpeculationInstructionfetchanddecodeplacesmicroinstructionsininstructionpoolDispatchandExecutionUnitissuesmicroinstructionsFunctionalunitsareinsideoftheexecutionunitDispatchunitusesspeculationwhenissuingmicroinstructionsAsmicroinstructionsfinish,theydonotwriteresultstoregisters(orcache)butinsteadwaitfortheretireunitTheretireunitwritesallresultsbacktodataregistersand/orcache2023/7/23余臘生版權所有,違者必究5-44SourceofStallsThisarchitectureisverycomplexandreliesonbeingabletofetchanddecodeinstructionsquicklyTheprocessbreaksdownwhenLessthan3instructionscanbefetchedin1cycleLessthan3instructionscanbeissuedbecauseinstructionshavedifferentnumberofmicrooperationsLimitationofreservationstationsandreorderbufferslotsDatadependencesDatacacheaccessresultsinamissBranchesaremispredictedInthelast3cases,thiscouldcausethereorderbuffertostall,resultinginmultiplemicroinstructionsnotbeingabletocommitforseveralcyclesOverall,thePentiumProhasbetween.2and2.8stallsperinstructiononSPEC95benchmarks,average1+stallperinstructionAndhasanaverageCPIofaround2.52023/7/23余臘生版權所有,違者必究5-45FallaciesandPitfallsF:ProcessorswithlowerCPIswillalwaysbefasterF:ProcessorswithfasterclockrateswillalwaysbefasterP:EmphasizinganimprovementinCPIbyincreasingissueratewhilesacrificingclockratecanleadtolowerperformanceP:Improvingonlyoneaspectofamultiple-issueprocessorandexpectingoverallperformanceimprovementP:SometimesbiggeranddumberisbetterThisspecificallyreferstousingsimplerbranchpredictionschemesthanmorecomplexones2023/7/23余臘生版權所有,違者必究5-46超標量流水處理機性能
為便于比較,將單流水線普通標量處理機的指令級并行度記作(1,1),超標量處理機的指令級并行度記為(m,1)。
在理想情況下,N條指令在單流水線普通標量處理機上的執(zhí)行時間為T(1,1)=(k-N-1)Δt
其中,k是流水線的級數(shù),Δt是一個時鐘周期的時間長度。
如果把相同的N條指令在一臺每個時鐘周期發(fā)射m條指令的超標量處理機上執(zhí)行,所需的執(zhí)行時間為
其中,第一項是第一批m條指令同時通過m條指令流水線所需要的執(zhí)行間,而第二項是執(zhí)行其余N-m條指令所需的時間。這時,每一個時鐘周期有m條指令分別通過m條指令流水線。
超標量處理機相對于單流水普通標量處理機的加速比為
當N→∞時,在沒有資源沖突,沒有數(shù)據(jù)相關和控制相關的理想情況下超標量處理機的加速比最大為
S(m,1)max=m如果與順序執(zhí)行結(jié)構(gòu)相比,加速比為km
2023/7/23余臘生版權所有,違者必究5-47超流水線處理機指令執(zhí)行時序典型處理機結(jié)構(gòu)超流水線處理機性能余臘生版權所有,違者必究
兩種定義:
一個周期內(nèi)能夠分時發(fā)射多條指令的處理機稱為超流水線處理機。
指令流水線有8個或更多功能段的流水線處理機稱為超流水線處理機。提高處理機性能的不同方法:
超標量處理機是通過增加硬件資源為代價來換取處理機性能的。超流水線處理機則通過各硬件部件充分重疊工作來提高處理機性能。兩種不同并行性:
超標量處理機采用的是空間并行性
超流水線處理機采用的是時間并行性余臘生版權所有,違者必究指令執(zhí)行時序每隔1/n個時鐘周期發(fā)射一條指令,流水線周期為1/n個時鐘周期在超標量處理機中,流水線的有些功能段還可以進一步細分例如:ID功能段可以再細分為譯碼、讀第一操作數(shù)和讀第二操作數(shù)三個流水段。也有些功能段不能再細分,如WR功能段一般不再細分。因此有超流水線的另外一種定義:有8個或8個以上流水段的處理機稱為超流水線處理機余臘生版權所有,違者必究每個時鐘周期分時發(fā)送3條指令的超流水線IF時鐘
周期指令I1I2I3IDEXWR123456I4I5I6IFIDEXWRI7I8I9IFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWR余臘生版權所有,違者必究典型處理機結(jié)構(gòu)MIPSR4000處理機每個時鐘周期包含兩個流水段,是一種很標準的超流水線處理機結(jié)構(gòu)。指令流水線有8個流水段有兩個Cache,指令Cache和數(shù)據(jù)Cache的容量各8KB,每個時鐘周期可以訪問Cache兩次,因此在一個時鐘周期內(nèi)可以從指令Cache中讀出兩條指令,從數(shù)據(jù)Cache中讀出或?qū)懭雰蓚€數(shù)據(jù)。主要運算部件有整數(shù)部件和浮點部件余臘生版權所有,違者必究余臘生版權所有,違者必究MIPSR4000處理機的流水線操作指令CacheIF:取第一條指令 IS:取第二條指令
RF:讀寄存器堆,指令譯碼
EX:執(zhí)行指令 DF:取第一個數(shù)據(jù)
DS:取第二個數(shù)據(jù) TC:數(shù)據(jù)標志
校驗;WB:寫回結(jié)果指令
譯碼讀寄
存器堆ALU數(shù)據(jù)Cache標志檢驗寄存器堆IFISRFEXDFDSWBTC余臘生版權所有,違者必究IF流水線周期當前CPU周期ISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWBIFISRFEXDFDSTCWB主時
鐘
周期MIPSR4000正常指令流水線工作時序余臘生版權所有,違者必究如果在LOAD指令之后的兩條指令中,任何一條指令要在它的EX流水級使用這個數(shù)據(jù),則指令流水線要暫停一個時鐘周期采用順序發(fā)射方式余臘生版權所有,違者必究MIPSR4000正常指令流水線工作時序暫停IFISRFEXDFDSTCWBISRFEXDFDSTCWBRFEXDFDSTCWBEXDFDSTCWBEXDFDSTWBDFDSTCWBIFISRFI1I2I3I4I5I6運行運行Load指令使用Load數(shù)據(jù)余臘生版權所有,違者必究超流水線處理機性能指令級并行度為(1,n)的超流水線處理機,執(zhí)行N條指令所的時間為:超流水線處理機相對于單流水線普通標量處理機的加速比為:余臘生版權所有,違者必究即:
超流水線處理機的加速比的最大值為:S(1,n)MAX=n2023/7/23余臘生版權所有,違者必究5-59超標量超流水線處理機指令執(zhí)行時序典型處理機結(jié)構(gòu)超標量流水線處理機性能余臘生版權所有,違者必究
把超標量與超流水線技術結(jié)合在一起,就成為超標量超流水線處理機
指令執(zhí)行時序超標量超流水線處理機在一個時鐘周期內(nèi)分時發(fā)射指令n次,每次同時發(fā)射指令m條,每個時鐘周期總共發(fā)射指令m×
n條。余臘生版權所有,違者必究IF時鐘周期指令I1I2I3IDEXWR12345I4I5I6I7I8I9IFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRIFIDEXWRI10I11I12每時鐘周期發(fā)射3次,每次3條指令余臘生版權所有,違者必究典型處理機結(jié)構(gòu)DEC公司的Alpha處理機采用超標量超流水線結(jié)構(gòu)。主要由四個功能部件和兩個Cache組成:整數(shù)部件EBOX、浮點部件FBOX、地址部件ABOX和中央控制部件IBOX。中央控制部件IBOX可以同時從指令Cache中讀入兩條指令,同時對讀入的兩條指令進行譯碼,并且對這兩條指令作資源沖突檢測,進行數(shù)據(jù)相關性和控制相關性分析。如果資源和相關性允許,IBOX就把兩條指令同時發(fā)射給EBOX、ABOX和FBOX三個指令執(zhí)行部件中的兩個。指令流水線采用順序發(fā)射亂序完成的控制方式。在指令Cache中有一個轉(zhuǎn)移歷史表,實現(xiàn)條件轉(zhuǎn)移的動態(tài)預測。在EBOX內(nèi)還有多條專用數(shù)據(jù)通路,可以把運算結(jié)果直接送到執(zhí)行部件。余臘生版權所有,違者必究Alpha21064處理機共有三條指令流水線
整數(shù)操作流水線和訪問存儲器流水線分為7個流水段,其中,取指令和分析指令為4個流水段,運算2個流水段,寫結(jié)果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執(zhí)行部件FBOX的延遲時間為6個流水段。所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設置由專用數(shù)據(jù)通路。 析指令為4個流水段,運算2個流水段,寫結(jié)果1個流水段。浮點操作流水線分為10個流水段,其中,浮點執(zhí)行部件FBOX的延遲時間為6個流水段。所有指令執(zhí)行部件EBOX、IBOX、ABOX和FBOX中都設置由專用數(shù)據(jù)通路。Alpha21064處理機的三條指令流水線的平均段數(shù)為8段,每個時鐘周期發(fā)射兩條指令。因此,Alpha21064處理機是超標量超流水線處理機。余臘生版權所有,違者必究余臘生版權所有,違者必究IF
取值
SWAP
交換雙發(fā)射指令、轉(zhuǎn)移預測I0
指令譯碼
I1
訪問通用寄存器堆,發(fā)射校驗A1
計算周期1,IBOX計算新的PC值A2
計算周期2,查指令快表WR
寫整數(shù)寄存器堆,指令Cache命中檢測7個流水段的整數(shù)操作流水線SWAP1IFI0I1A0A1WR234560余臘生版權所有,違者必究IF
取值
SWAP
交換雙發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深圳中公輔警公務員考試試題及答案
- 2025年鈉離子電池在電動工具五年市場報告
- 2025年智能駕駛傳感器技術五年突破行業(yè)報告
- 智能客服中心建設與人工智能技術融合在智能城市建設中的可行性分析報告
- 2025年全球半導體市場五年波動分析與技術演進行業(yè)報告
- 一消掛靠協(xié)議書
- 2025年物流行業(yè)在線化五年發(fā)展:配送效率與成本控制報告
- 開學典禮講話稿3篇
- 員工培訓需求分析工具與實施步驟
- 2026屆天津市河西區(qū)達標名校語文高三第一學期期末監(jiān)測試題含解析
- 游戲:看表情符號猜成語PPT
- 手術室醫(yī)療廢物的管理
- 2023年運動康復期末復習-體適能理論與訓練(運動康復專業(yè))考試上岸題庫歷年考點含答案
- 普通機床主傳動系統(tǒng)的設計課程設計說明書
- 班組工程進度款申請表
- 四年級閱讀訓練概括文章主要內(nèi)容(完美)
- JJG 1033-2007電磁流量計
- GB/T 629-1997化學試劑氫氧化鈉
- GB/T 37234-2018文件鑒定通用規(guī)范
- GB/T 2895-2008塑料聚酯樹脂部分酸值和總酸值的測定
- 水利工程監(jiān)理規(guī)劃78648
評論
0/150
提交評論