版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、新型多核網(wǎng)絡處理器,主要參考文獻,Advanced Processor with System on a Chip Interconnect Technology. http:/www.patentstorm.us 思科QuantumFlow處理器及其戰(zhàn)略研究。,研發(fā)背景,今天的網(wǎng)絡要求越來越高的帶寬和越來越復雜的數(shù)據(jù)包處理: 鏈路帶寬迅速提高(增長速度高于CPU性能的提升速度) 新的業(yè)務大量涌現(xiàn)(音/視頻通信、P2P業(yè)務等),要求網(wǎng)絡設備具備快速的業(yè)務升級能力。 業(yè)務流量持續(xù)增長(每12個月翻一番) 包處理越來越復雜: 安全:IPSec/VPN,SSL,防火墻 應用認知(applicatio
2、n awareness) 流量工程(Traffic Engineering):QoS/SLA等。 深度數(shù)據(jù)包檢查(Deep Packet Inspection,DPI),現(xiàn)狀,目前的網(wǎng)絡設備大多采用通用處理器+ASIC的設計模式: ASIC無法提供業(yè)務快速升級所需的靈活性 傳統(tǒng)網(wǎng)絡處理器: 主要用于加速基本的包處理任務 內(nèi)部資源有限,無法支持DPI這樣的復雜處理 采用低級語言,缺乏相應的支持軟件,新型NP與傳統(tǒng)NP的不同,傳統(tǒng)NP只處理數(shù)據(jù)面任務,新型NP可應用于控制面、數(shù)據(jù)面、管理面處理。 傳統(tǒng)NP主要卸載網(wǎng)絡層和傳輸層功能,而新型NP可以卸載第四層以上的處理(如DPI、加/解密、壓縮/解壓
3、縮等),這主要通過集成各種特殊的硬件加速器來實現(xiàn)。 傳統(tǒng)NP一般采用微碼編程,新型NP支持標準嵌入式操作系統(tǒng)和高級語言(C/C+)編程。,主要的多核NP半導體廠商,Cavirm(MIPS架構) Broadcom(MIPS架構) RMI(MIPS架構) Cisco Freescale(PowerPC架構) Tilera ,1. Cavium OCTEON處理器,面向網(wǎng)絡、無線、控制和存儲等應用,提供高度集成和低成本的64位計算解決方案,廣泛用于各種網(wǎng)絡設備。 一種片上系統(tǒng)(SoC),集成了: 12個定制的cnMIPS64 CPU core:專門針對網(wǎng)絡服務而設計,功耗很小。 各種硬件加速器(應用
4、,安全):針對下一代IP網(wǎng)絡各種需求的L3-L7數(shù)據(jù)、內(nèi)容和安全服務硬件加速選項,分擔MIPS core的很多任務。 豐富的可配置網(wǎng)絡接口:以太網(wǎng)、PCI/PCI-X、VoIP、USB 2.0等。,OCTEON CN31XX的內(nèi)部結(jié)構,CN31XX的組成,cnMIPS64 core: 帶有片上存儲管理單元MMU(負責虛擬地址和物理地址之間的映射) 增強的MIPS64 Release 2整數(shù)指令集 雙發(fā)射、5級流水線的超標量體系結(jié)構 32KB指令緩存和8KB L1數(shù)據(jù)緩存 一致存儲子系統(tǒng): 256KB L2 cache 64/72-bit DDR2 內(nèi)存控制器 (可選的)低延遲16-bit DD
5、R2-667,用于基于內(nèi)容的處理和保存元數(shù)據(jù),CN31XX的組成(續(xù)),集成的應用加速協(xié)處理器: 數(shù)據(jù)包I/O處理引擎:針對L2-L4的包處理和緩沖區(qū)管理引擎。 TCP加速:包括全面的檢查、標簽產(chǎn)生、校驗和、定時器和緩沖區(qū)管理。 隊列/調(diào)度和服務質(zhì)量硬件:對于輸入包實現(xiàn)基于Diffserv、QoS/ToS、輸入端口的隊列/調(diào)度;對于輸出包實現(xiàn)基于固定優(yōu)先級或加權公平隊列(WFQ)的隊列/調(diào)度。 安全硬件完全分擔:針對IPSec、SSL、SRTP、WLAN 802.11i安全協(xié)議處理,支持所有的標準算法。 壓縮/解壓縮硬件加速:實現(xiàn)GZIP、PKZIP和各種協(xié)議。 模式匹配硬件加速引擎(8個):
6、深度數(shù)據(jù)包檢查。 不同的處理器版本(通信處理器、安全通信處理器、網(wǎng)絡服務處理器)包含不同的硬件加速選項。,CN31XX的組成(續(xù)),集成的高性能網(wǎng)絡接口: 最多3個可配置的以太網(wǎng)接口:3個10/100/1000 Ethernet MAC RGMII,或者1個RGMII+1個GMII。 32位PCI/PCI-X 主設備或從設備。 支持無縫VoIP的TDM/PCM接口。 480Mbps USB2.0 主設備,性能,每秒最多執(zhí)行10億條(CN3110)或20億條(CN3120)指令。 500Mbps2Gbps的應用性能: 最高2Gbps 64B IP轉(zhuǎn)發(fā) 最高2Gbps TCP、IPSec、SSL、
7、壓縮/解壓縮 最高1Gbps正規(guī)表達式匹配 工業(yè)標準的編程模型,不需要任何專用工具或微代碼,2. Broadcom BCM1480,3. RMI XLR處理器,采用SoC技術,將網(wǎng)絡連接、負載平衡、安全、XML等功能集成在一個芯片上。 基于Mips64架構。 支持Linux SMP和VxWorks等常見的操作系統(tǒng),允許利用工業(yè)標準的開發(fā)工具和環(huán)境進行軟件設計,沒有代碼空間的限制。 可用于任何需要網(wǎng)絡加速的場合,目標市場包括多業(yè)務交換機,路由器,防火墻/VPN/IDS/內(nèi)容認知網(wǎng)絡、網(wǎng)絡服務、虛擬存儲和負載平衡等網(wǎng)絡應用。,XLR732的內(nèi)部結(jié)構,XLR處理器的設計特色,多核多線程:包含多個Mi
8、ps64核心,每個核心擁有4個線程,每個線程擁有完全獨立的寄存器組,在線程調(diào)度時不需要進行上下文切換。 高速內(nèi)部網(wǎng)絡:采用專利技術構成的內(nèi)部網(wǎng)絡連接各個核、網(wǎng)絡接口、DMA和安全引擎,允許以上各部件之間獨立并行地傳遞數(shù)據(jù)。 硬件加速器:數(shù)據(jù)包處理,安全處理。 豐富的接口:以太網(wǎng)、Hyper Transport、內(nèi)存、PCI-X、DMA、串口等。,XLR處理器內(nèi)部結(jié)構,XLR的專利設計,自帶數(shù)據(jù)cache和指令cache的處理器核 與各個核的cache相連的data switch interconnect ring(DSI),在各個核之間傳遞與內(nèi)存相關的數(shù)據(jù)。 連接到DSI上的共享L2 cach
9、e,存放內(nèi)核可直接訪問的數(shù)據(jù)。 與各個核的指令cache及各個通信端口相連的fast messaging ring,在核與通信端口之間提供與存儲無關的點對點消息傳輸。 與消息網(wǎng)絡及通信端口相連的interface switch interconnect(ISI),用于在消息網(wǎng)絡和通信端口之間傳輸消息。 與DSI和至少一個通信端口相連的內(nèi)存橋,在DSI和通信端口之間直接通信。 與DSI、ISI和至少一個通信端口相連的超級內(nèi)存橋,與DSI、ISI和通信端口通信。,3.1 處理器核,每個處理器核采用4路多線程單發(fā)射10級流水線結(jié)構,為線程級并行而優(yōu)化。(指令級并行對于訪存密集型應用而言意義不大,而數(shù)
10、據(jù)包處理具有自然的線程級并行。 ) 不同的核可以執(zhí)行不同的程序,甚至運行不同的操作系統(tǒng)。 一個核中的不同線程可以執(zhí)行不同的程序,甚至運行不同的操作系統(tǒng)。 處理器核之間通過消息網(wǎng)絡進行通信。,線程調(diào)度-Eager round-robin,線程調(diào)度 Multithreaded fixed-cycle scheduling,線程調(diào)度-Multithreaded fixed-cycle scheduling with eager round-robin,可編程中斷 控制器PIC,可編程中斷控制器(PIC)從中斷源接受中斷請求后,可以將中斷指派給任何一個核/線程去處理。 CPU mask是一個32比特的
11、數(shù),用于指示哪些核/線程不處理該中斷。 如有多個未屏蔽的核或線程,采用round-robin方式進行任務分配。 XLR還允許一個線程中斷另一個線程。,3.2 L2 Cache,統(tǒng)一的(指令與數(shù)據(jù))片上L2 Cache,2MB容量,32B cache line。 包含與處理器核數(shù)量一樣多的bank。 每個時鐘周期最多可以同時接收8路訪問。 可以不包括L1 cache中的內(nèi)容,從而有效地提高整個內(nèi)存系統(tǒng)的容量。 可被處理器核直接訪問。,3.3 數(shù)據(jù)交換(data switch),DSI、內(nèi)存橋和超級內(nèi)存I/O橋構成一個用于數(shù)據(jù)交換的環(huán),其中內(nèi)存橋連接存儲端口與處理器核,超級內(nèi)存I/O橋連接存儲端口
12、、通信端口與處理器核。 每個處理器核、內(nèi)存橋和超級內(nèi)存I/O橋各自通過一個環(huán)單元連接到環(huán)上。每個處理器核的環(huán)單元與該處理器核的指令cache以及 L2 cache中的相應bank連接。 實際上有4個環(huán)構成了這個環(huán)結(jié)構:請求環(huán)(RQ)、數(shù)據(jù)環(huán)(DT)、Snoop Ring(SNP)和響應環(huán)(RSP),每個節(jié)點包括了4個環(huán)上的環(huán)單元。 環(huán)上的通信是基于包的通信,每個包包含像目的ID、事務ID等域,包在環(huán)上傳遞直至被接收節(jié)點收到。,數(shù)據(jù)交換互連環(huán)示意圖,環(huán)單元結(jié)構,包在環(huán)上的 傳遞過程,3.4 消息 傳遞網(wǎng)絡,FMN環(huán) 單元結(jié)構,消息的數(shù)據(jù)結(jié)構,基于信用的流量控制,對于一個特定的接收者,分配給所有發(fā)
13、送者的信用總數(shù)不能超過接收隊列(RCV Queue)的入口總數(shù)(如256)。 軟件可以控制信用的分配。比如,啟動時每個發(fā)送者可以被分配一個缺省的信用數(shù),然后軟件再可以為每個發(fā)送者分配信用。 當一個代理要發(fā)送一個消息給某個接收者時,它必須具有向該目標發(fā)送消息的信用。當發(fā)送一個消息后,其相應的信用要減1。當信用為0時,必須停止向該目標發(fā)送消息。 目標取得消息后,向發(fā)送者發(fā)送一個響應信號,發(fā)送者的信用加1。,3.5 本地節(jié)點上的分組流,Packet Distribution Engine(PDE),PDE包括一個XGMII/SPI-4.2接口和4個RGMII接口。 PDE利用FMN,將數(shù)據(jù)包負載均衡
14、地、快速地分發(fā)到軟件指定的線程。 事實上,數(shù)據(jù)包并沒有真正地在FMN上傳遞。網(wǎng)絡接口將數(shù)據(jù)包寫入內(nèi)存,PDE將一個包描述符插入到消息中發(fā)達給軟件指定的接收者。,PDE分配數(shù)據(jù)包舉例之一,在這個例子中,軟件選擇thread 4thread7處理接收的數(shù)據(jù)包,并且PDE均勻地將數(shù)據(jù)包分配到4個線程上。,PDE分配數(shù)據(jù)包舉例之二,基于信用的round-robin,Packet Ordering Device(POD),許多應用要求維持包序,維持包序的方法: 用軟件實現(xiàn),達不到線速處理速度。 將屬于同一個流的包發(fā)送到同一個線程,要求包分類,影響性能,且不利于負載均衡。 XLR使用硬件加速部件POD,在
15、發(fā)送到輸出網(wǎng)絡接口前排序數(shù)據(jù)包。,POD(續(xù)),每個數(shù)據(jù)包都被輸入接口分配一個序號,該序號連同其它包信息一起由PDE發(fā)送給工作線程。線程處理完數(shù)據(jù)包后,將包描述符和原始序號交給POD。 POD根據(jù)序號建立一個隊列,對每一個收到的數(shù)據(jù)包在隊列中排序,并按順序發(fā)送到輸出端口。,POD的工作機制,POD(續(xù)),隊頭阻塞問題: 較早的一個數(shù)據(jù)包一直沒有到達POD:用定時器解決 在超時前隊列滿:丟棄隊頭的包,以便接收新的包 損壞的包或控制包:軟件知道這些包不會到達POD,可以在POD中插入一個”啞“包描述符來消除暫時的隊頭阻塞問題。 芯片上可以有5個可編程的POD,可以指定哪個POD對應哪個接口,也可以
16、配置成繞過POD。,XLR的最大特色,高速內(nèi)部網(wǎng)絡是XLR處理器的最大特色: 對于1.5GHz的XLR,F(xiàn)MN的帶寬達到96GBps,DSI的帶寬達到3.84TBps。 允許各個核、核與接口(網(wǎng)絡接口、安全引擎、DMA)之間在同一時間各自并行地傳遞數(shù)據(jù),避免了通常的總線所需要的仲裁階段。,4. 思科QuantumFlow網(wǎng)絡處理器,QuantumFlow(QFP)是思科在廣域接入和智能化邊緣設備解決方案中的重要技術支持,定位在邊緣路由器和企業(yè)路由器。 芯片主要解決基于狀態(tài)的服務(stateful service)和轉(zhuǎn)發(fā)合一(如音/視頻、防火墻、深度包檢查等) 芯片內(nèi)部包含40個處理器核,每個處
17、理器核有4個硬件線程,可以同時做160個數(shù)據(jù)處理,計算能力超強。,芯片的一般情況,處理器核:最多40個核,每個核4個線程 主頻:最高1.2GHz 晶體管數(shù)量:8億 內(nèi)存:兩個片上DDR2控制器,最高1GB RLDRAM 片上包內(nèi)存:存儲包頭和載荷,以便進行快速的DPI CAM:外掛TAM,最高40MB 片內(nèi)高速互聯(lián):Crossbar Switch 片外互聯(lián):ESI 網(wǎng)絡接口:4個10Gbps SPI4.2 功耗:80瓦,QFP體系結(jié)構,QFP結(jié)構- 處理器觀點,指令集:購買了Tensilica的Xtensa的ISA,32位 流水線:3發(fā)射5級流水線 4個線程共享一個L1指令緩存 每個線程有自己
18、的L1數(shù)據(jù)緩存 40個核共享一個L2指令緩存 所有節(jié)點通過crossbar交換機構成一個2維mesh全聯(lián)通圖,QFP體系結(jié)構 互聯(lián)觀點,QFP體系結(jié)構報文觀點,從報文的觀點來看,QFP是一個L2-L7的數(shù)據(jù)處理與轉(zhuǎn)發(fā)引擎。 在ASR1000系列中,QFP用于集中式的數(shù)據(jù)控制和處理。從線卡和控制平面卡來的所有數(shù)據(jù)都進入QFP,處理后再轉(zhuǎn)發(fā)給某個線卡或控制平面卡。 QFP的邏輯分為兩大部分: Processor engine:主要是40個CPU核 Traffic Manager:由一些數(shù)據(jù)緩存、隊列和相應的調(diào)度算法邏輯組成。,包處理流程,數(shù)據(jù)包通過一個SPI-4.2通道進入,包分發(fā)器將一個完整的幀
19、傳送到片上包內(nèi)存中,進行一些基本的包處理和分析,然后將這個包分配給一個線程去處理。 該線程負責數(shù)據(jù)包的全部處理(輸入、轉(zhuǎn)發(fā)、輸出),將數(shù)據(jù)包送到流量管理器的某個隊列。 流量管理器調(diào)度數(shù)據(jù)包,將數(shù)據(jù)包發(fā)往另一個線卡、控制平面、備用ESP卡或片上包內(nèi)存(如果需要再處理一遍),若需加密則啟動外掛的加密部件。 流量管理器支持128K隊列、三級報文隊列調(diào)度和多種隊列調(diào)度算法。,QFP體系結(jié)構-軟件觀點,ASR1000運行的操作系統(tǒng)稱為IOS-XE,這是一個基于Linux的IOS操作系統(tǒng)。 IOS-XE的基本特點是: 在控制平面卡上,支持單卡上兩個IOS運行,從而支持單控制平面卡的高可用性,這是很重要的一
20、個亮點。 在數(shù)據(jù)處理卡ESP上,主控CPU(PowerPC)運行一個Linux內(nèi)核和相應的管理進程,與控制平面卡的IOS和相應的進程通過標準的IPC進行通信,使控制平面和數(shù)據(jù)平面同步工作。主控CPU還控制QFP,負責安裝、啟動和運行QFP的軟件。QFP則相當于一個專門處理數(shù)據(jù)包的協(xié)處理器。 在線卡SIP上,也通過一個主控CPU運行一個Linux內(nèi)核和相應的管理進程,與控制平面卡的IOS和相應的進程通過標準的IPC進行通信,使控制平面和線卡同步工作。,ESP和QFP的軟件結(jié)構圖,QFP上的軟件結(jié)構,QFP上沒有宿主操作系統(tǒng)。 多核部分的數(shù)據(jù)包處理邏輯運行在一個裸機環(huán)境下,或者一個非常簡單的硬件抽
21、象層上。 QFP的啟動、包處理軟件的下載、安裝和運行,都是由主控CPU通過HT接口控制的。 QFP的線程作為引擎的角色,運行包處理軟件。,QFP體系結(jié)構系統(tǒng)觀點,QFP是作為思科的邊緣路由器ASR1000的重要組成部分設計的。 ASR1000是一個分布式結(jié)構,但采用的是集中式數(shù)據(jù)處理。任何一個數(shù)據(jù)包都要通過線卡SPA-線卡接口模塊SIP-ESI互聯(lián)-ESP-QFP進行處理,從控制平面卡出來的數(shù)據(jù)包(如BGP、OSPF報文等)也是如此。因此,QFP起著一個樞紐的作用。,ASR1000邏輯結(jié)構圖,戰(zhàn)略規(guī)劃,核心主導思想: 針對企業(yè)網(wǎng)的高性能WAN接入,包括網(wǎng)絡安全、WAN優(yōu)化、音/視頻接入等。 智能化邊緣路由器,將防火墻、IPSec/VPN、DPI、會話邊界控制等多種應用集成在一個系統(tǒng)中。,5. Freescale PowerQUICC處理器,Freescale的PowerQUICC通信處理器是一種高度集成化的設計,將網(wǎng)絡處理和控制處理功能合并在一起。 增強型的Power e500-mc內(nèi)核,用于控制面處理。目前的產(chǎn)品集成了兩個Power e500-mc核。 增強型的QUICC引擎技術,用于數(shù)據(jù)面處理。 包含豐富的接口:DDR2/DDR3存儲控制器、以太網(wǎng)接口SGMII、串行Rapi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年管理會計師專業(yè)能力認證考試試題附答案
- 迪士尼員工安全培訓卡課件
- 云南國防工業(yè)職業(yè)技術學院《室內(nèi)設計(軍工場館)》2024-2025 學年第一學期期末試卷(藝術專業(yè))
- 邊坡支護安全教育培訓課件
- 內(nèi)科主治醫(yī)師考試基礎知識練習試題及答案
- 2026年書記員測試題及答案
- 中小學德育活動策劃與學生品格塑造專項工作總結(jié)(2篇)
- 2025年企業(yè)審計年終工作總結(jié)(3篇)
- 銀行內(nèi)部控制規(guī)范制度
- 2026年工作室成員個人工作總結(jié)(2篇)
- 醫(yī)院申請醫(yī)養(yǎng)結(jié)合申請書
- 2024-2025學年山東省濱州市北鎮(zhèn)中學鴻蒙班九年級下學寒假開學考試數(shù)學試題
- 園林綠化服務方案(3篇)
- 2025年流產(chǎn)家屬簽字協(xié)議書
- 2025年《中醫(yī)護理適宜技術臨床應用指南》
- 下頜阻生齒拔除病例匯報
- 生物樣本資源庫建設計劃及管理工作方案
- DBJ04-T 491-2025 建設工程消防設計審查驗收文件歸檔標準
- DB45∕T 2419-2021 鉆孔管波探測技術規(guī)程
- 2025年學校食堂從業(yè)人員食品安全知識培訓考試試題(附答案)
- GB/T 45752-2025礦用車載滅火系統(tǒng)安全技術要求
評論
0/150
提交評論