蘭州大學計算機體系結(jié)構(gòu)-第7章_第1頁
蘭州大學計算機體系結(jié)構(gòu)-第7章_第2頁
蘭州大學計算機體系結(jié)構(gòu)-第7章_第3頁
蘭州大學計算機體系結(jié)構(gòu)-第7章_第4頁
蘭州大學計算機體系結(jié)構(gòu)-第7章_第5頁
已閱讀5頁,還剩129頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

弓I自(美)JohnL.Hennessy

向邈與思考,7.DavidA.Patterson

1.“媒體就是信息:因為正是它塑造并控制人類交

往與行為的形式。

MarshallMcLuhan

UnderstandingMedia(1964)

電影、廣播和電視所具有的魅力是單向通信形式自

身所具有的神奇魅力,但實際上它們根本不是通信。

MiltonMayer

OntheRemotePossibilityofCommunication(1967)

3.Townhouse與Villa的區(qū)別是什么?

7

1.弓I言

2.通用互連網(wǎng)絡

3.工作站并行計算系統(tǒng)(NOW計劃)介紹

4.總結(jié):虛擬并行機PVM

5.集群

本章要點:

1.引言

前面二至六章介紹了傳統(tǒng)單處理器計算機系統(tǒng)

結(jié)構(gòu)的內(nèi)容。單個處理器處理能力的提高,一直是

計算機速度提高的主要動力。

在集成電路工藝技術方面,有從雙極型集成電

路、PMOS、NMOS到HMOS、CHMOS的進步;

在體系結(jié)構(gòu)方面,從最簡單的CPU結(jié)構(gòu)到利用

ILP、優(yōu)化Cache、實現(xiàn)DO性能匹配,都使得處理器

的能力有了快速地提高。但必須清楚的看到,這一

技術發(fā)展遲早有一個技術的上限。

1.引言

同時,為了實現(xiàn)更高的指令級并行(ILP)水平和更

有效Cache結(jié)構(gòu),處理器芯片的設計也日趨復雜以至于

新的速度提高變得越來越困難,也越來越難以顧及其它

方面的性能。

事實上,近五六年來的芯片速度提高,都是以硅片

利用率、額外連線增多、器件功率浪費為代價而達到的。

依靠付出這樣的代價,以及半導體技術對時鐘速度的最

后一些貢獻,處理器的速度還會有一段時間的提高,但

面對著迅速增長的對計算能力的需求,顯然不能單純依

靠改進單處理器體系結(jié)構(gòu)來提高計算機的處理速度。

1.引言

多處理器體系結(jié)構(gòu)就是為了克服單處理器體

系結(jié)構(gòu)處理能力不足而采用的。通過使用并行處

理技術,極大地提高了計算機的處理能力,取得

了很大的成功。近年來世界上所有的巨型機都是

基于多處理器體系結(jié)構(gòu)的,其中,在80年代提出

的大規(guī)模并行處理(MPP)體系結(jié)構(gòu)已成為多處理

器體系結(jié)構(gòu)的主流技術,而且,這種體系結(jié)構(gòu)還

正在影響一些小型計算機和工作站的設計。但

是,在MPP獲得成功的同時,也暴露出它的許多

1.引言

首先是工程上的延遲。從新一代處理器的推出,到完成一個相應

MPP系統(tǒng)的設計需要耗去大量的時間,通常是一至兩年,當處理器速度

每年以近80%的速度提高時,這種時延就使MPP失去了利用最新技術的

機會,妨礙了其性能的提高。

其次是MPP性能/價格比較差。由于MPP設計困難,成本昂貴,而

相應的市場又很小,導致其價格居高不下,非一般用戶所能承受。

另外,用戶少,市場小又使得MPP通常沒有足夠好用的軟件,甚至

于沒有合適的操作系統(tǒng),用戶有時不得不自行設計一些很底層的程序。

同樣的原因還導致了軟件移植性差的問題。這些問題后來盡管通過給每

一個CPU配上一個單獨的UNIX操作系統(tǒng)而得以暫時解決,但由此對外

設進行的分割使用卻導致系統(tǒng)功能減弱,可靠性降低,時延增加。

最后,MPP還存在適應面過窄的問題,它們通常在處理某些問題時

表現(xiàn)出很高性能,但在處理通用應用,或者其它別的一些專用應用時都

表現(xiàn)不佳。

1.引言

計算機技術正在進入新的紀元。對它的要求,已經(jīng)從原先的單

純計算工具,逐漸變成一種以計算和信息傳播并重的工具。其間影

響最大的事件,莫過于計算機的普及化和網(wǎng)絡化,進而促進了全球

性計算機網(wǎng)絡時代的到來。在網(wǎng)絡中,計算機(PC機和工作站等)

作為系統(tǒng)的一個節(jié)點(node)而存在,通過高速局域網(wǎng)如ATMLAN

的互連,成為一個低成本、高性能的整體一一。在

網(wǎng)絡中,“共享'’成為一個重要的概念,每個用戶不必擁有它所需要

的全部資源,它只需要想辦法去共享網(wǎng)絡中的資源即可。

在人們對計算能力的要求面前,計算機總是處于兩種極端的境

地:它是,以致當用戶進行交互操作時,它幾乎總是無事

可干而空閑;它又是,以致當用戶的程序執(zhí)行時,它幾乎

總是趕不上用戶的需求。用戶對計算機使用的突發(fā)性和不均勻性,

使得在充滿了對計算速度之慢的抱怨的世界上,許多地方的機器處

于完全空閑的狀態(tài)。

1.引言

為什么不在網(wǎng)絡上共享這些計算資源呢?這樣可同時解決資

源的浪費和不足兩個問題,網(wǎng)絡并行計算的理由之一就在于此。

追求高的性能價格比是計算機界永恒的真理。MPP就是倒在

這條真理之下的。網(wǎng)絡并行從MPP中吸取了并行化的概念,繼承

了全局系統(tǒng)觀點(globalsystemview),也就是將整個網(wǎng)絡系統(tǒng)作為

一個整體加以統(tǒng)籌考慮,從而使它與MPP的區(qū)別僅剩下了通訊開

銷。另一方面基于最新的單處理機(工作站和PC機)、網(wǎng)絡商

業(yè)產(chǎn)品和眾多成熟的軟件的網(wǎng)絡并行計算系統(tǒng),無疑)將克服MPP

在工程時延、程序移植和高成本等方面的困擾,大大降低系統(tǒng)集

成的成本。雖然MPP仍是當前滿足超高速計算能力需求的一種技

術途徑,但在低得多的成本下,網(wǎng)絡并行計算體系結(jié)構(gòu)已經(jīng)能滿

足絕大多數(shù)高速計算的需求。

1.引言

于是,單處理機體系結(jié)構(gòu)的計算機在以計算為目的的領

域中融合了,成為網(wǎng)絡并行計算系統(tǒng)的一個組件;MPP變革

了,向著四個不同的方向分化,其中一支實際上就是這里要

討論的網(wǎng)絡并行計算。

MPP的分化方向之一是仍然使用專用的處理器,針對這

些處理器設計的專用網(wǎng)絡負責把這些處理器連為一體。這實

際上就是傳統(tǒng)意義上的MPP體系結(jié)構(gòu),因為一些特殊的需要

而保留下來。這類機器有IntelParagon,CrayT3D等等。

二是用標準的網(wǎng)絡來連接專用的處理器。這樣做的好處

是可以采用大量的成熟網(wǎng)絡技術,從而帶來良好的性能價格

比,缺點是這樣往往涉及一些計算模型的改變,因此這樣的

系統(tǒng)仍處于試驗階段。

1.引言

三是用商業(yè)化的單處理機結(jié)點,而采用優(yōu)化過的專用

網(wǎng)絡連接。由于采用商業(yè)化的單處理機,提高性能價格比

可以降低成本,缺點是只能采用消息傳遞方式的計算模

型,同時由于網(wǎng)絡是專用的,連接的成本較高。典型的例

子是舊MPS2O

四是利用商業(yè)化的單處理器機、商業(yè)化的網(wǎng)絡來構(gòu)架

多處理器體系結(jié)構(gòu),這也是本章所要講述的體系結(jié)構(gòu)。它

雖然只能采用消息傳遞模式,而且相對以上各方向,有較

高的通訊時延和較差的帶寬,但能最及時的應用計算機工

業(yè)提供的最新的最快的廉價的單處理器機器和網(wǎng)絡產(chǎn)品,

無疑有著最好的性能價格比。對于某些各子進程相互獨立

的應用來說,采用這樣的方式是再適合不過了。

1.引言

這樣的網(wǎng)絡并行計算系統(tǒng)的目標是,利用大

量廉價的單處理器機器的商業(yè)產(chǎn)品(PC機或工作

站),加上可擴展、高帶寬低時延的網(wǎng)絡,低開銷

網(wǎng)絡接口和全局性的操作系統(tǒng),招聯(lián)網(wǎng)的處理器、

存儲器和磁盤作為一個整體來使用,這樣組成的大

系統(tǒng))將有很強的運算能力,很大的RAM和磁盤存

儲空間,即在普通的,被稱為“

構(gòu)(aneverydaycomputinginfras—)”上同時實現(xiàn)通

常桌面系統(tǒng)的高交互性操作和進行大規(guī)模并行計算

的能力。

1.引言

正如裸機需要計算機軟件的支持,網(wǎng)絡并行計算系統(tǒng)也需要網(wǎng)

絡并行軟件的支撐。隨著網(wǎng)絡并行計算系統(tǒng)實現(xiàn)方式和實現(xiàn)層次的

不同,網(wǎng)絡并行軟件可以包括從操作系統(tǒng)頂層的消息傳遞系統(tǒng)到最

低層的網(wǎng)絡操作系統(tǒng)的不同層次的內(nèi)容。這并非僅僅是為了對用戶

友好而使他們不用編制大量的網(wǎng)絡接口程序,更重要的是使整個系

統(tǒng)有一個全局的觀念,是一個網(wǎng)絡并行計算系統(tǒng)而不是幾臺各自為

政的計算機加上幾條網(wǎng)絡線,從而可以更高效地調(diào)度和利用網(wǎng)上的

資源。另外,網(wǎng)絡并行軟件還可以增加系統(tǒng)的容錯性。

這樣,網(wǎng)絡并行計算的實現(xiàn)就主要依賴于兩項技術,高性能的

網(wǎng)絡和簡潔的系統(tǒng)軟件。尤其是前者,是決定網(wǎng)絡并行計算系統(tǒng)效

果的關鍵技術。為此,我們下面沿著這兩個方面介紹網(wǎng)絡并行計算

的系統(tǒng)NOW;最后,在7.4節(jié)中介紹一個網(wǎng)絡并行計算系統(tǒng)的實例

PVMo

2.通用互連網(wǎng)絡

網(wǎng)絡將計算機連接起來,形成一個機群。這樣

的網(wǎng)絡也稱互連網(wǎng)絡(interconnectionnetworks)或通

信子網(wǎng)(commimicationsubnets),網(wǎng)上的節(jié)點機也稱

作終端系統(tǒng)(endsystems)或宿主機(hosts)。圖7,給出

了一個通用互連網(wǎng)絡的基本結(jié)構(gòu)。

?多機互連網(wǎng)絡

也引言

根據(jù)網(wǎng)上節(jié)點數(shù)目和它們連接的緊密程度,可以把互連

網(wǎng)絡分為三種不同的類型。

1.廣域網(wǎng)(wideareanetwork,WAN)O它能連接分布在世

界范圍的成千上萬臺計算機,連接距離可達兩個

以上的互連網(wǎng)絡之間的連接叫做是

一種在不同協(xié)議的網(wǎng)絡之間進行數(shù)據(jù)傳輸?shù)募夹g。

2.局域網(wǎng)(localareanetwork,LAN)O它可連接幾百臺計算

機,最大連接距離可達與MPP網(wǎng)不同,LAN能連

接分布在一座建筑物里的計算機。通訊往往是多對一的,比

如在客戶機(Client)和服務器(Server)間進行;而MPP網(wǎng)的通

訊則常常在所有節(jié)點機間進行。

弓I自(美)JohnL.Hennessy

DavidA.Patterson

3,存儲區(qū)域網(wǎng)或系統(tǒng)區(qū)域網(wǎng)(storeareanetwor1JAN)。這種互連網(wǎng)

絡是針對一個機房內(nèi)的機器的,因此一個鏈路的最大距離一般不超過遢

通常也可以有幾百個結(jié)點。如今SAN一般指存儲區(qū)域網(wǎng),這種網(wǎng)絡將計算機

連接到存儲設備,比如磁盤陣列。原先SAN是揩計算機連接在一起構(gòu)成的系

統(tǒng)區(qū)域網(wǎng),比如揩PC機連接成一個機群。最近推出的Infiniband網(wǎng)就是一個

連接存儲設備和主機的SAN的例子。

這三種互連網(wǎng)絡有各自不同的技術背景,MPP網(wǎng)是

MPP技術的一部分;LAN和工作站的興起有密切關系;而

WAN則起源于遠程通訊,它們有各自不同的協(xié)議,連接計

算機的方法和目的也各不相同。

本節(jié)揩介紹有關通用互連網(wǎng)絡的情況,著重研究以下

幾個重要問題:計算機是怎樣與互連網(wǎng)絡相連接的;使用

何種物理介質(zhì)連網(wǎng);如何將多臺計算機連接在一起,并介

紹幾個實用網(wǎng)絡的例子。

網(wǎng)絡原理

假設我們有兩臺計算機,用一條完美的導線連接在一起。這條

導線是一個理想的先進先出(FIFO)信息管道,從不出錯,也不丟失

信息。這樣就組成了一個最簡單的計算機理想網(wǎng)絡。

然后假設我們要在這樣的網(wǎng)絡上進行網(wǎng)絡并行計算,計算機甲

要求乙完成一次操作,并回送結(jié)果。此時,甲應該發(fā)一條約定長度

的請求(request)信息給乙,說明操作的類型并附上必要參數(shù)。乙在

執(zhí)行完成之后,再發(fā)一個約定長度的應答(reply)信息給甲,附上操

作結(jié)果。這樣的往來信息稱為。

網(wǎng)絡原理

為了區(qū)別它們,必須在消息上加一個消息頭;聲明它是請求消

息還是應答消息。這樣的消息結(jié)構(gòu)如圖7?2所示。消息體可以是一

個字長(如32位),或幾百個字長,圖7?2的消息體為一個32位字長。

1位32位

消息頭消息體(32bits/幾百字長)

消息頭=請求消息

消息頭=應答消息

圖7-2最簡單的消息結(jié)構(gòu)

于是,在我們這個系統(tǒng)中,除了應用程序和連網(wǎng)計算機

外,又出現(xiàn)了第三個角色一網(wǎng)絡軟件。負責發(fā)送和

接收消息,并根據(jù)消息的類型,給消息加上合適的消息頭結(jié)構(gòu)。

網(wǎng)絡原理

實際上,不可能存在那種完美的傳輸介質(zhì),由于干擾,接口器

件或介質(zhì)本身傳輸特性所限,總會發(fā)生出錯或丟失信息的事情,只

不過概率有大小而已,為了給應用程序提供可靠的傳輸管道,通常

由網(wǎng)絡軟件來負責可靠傳遞,為了實現(xiàn)這點,最常用的技術是確認

應答(acknowledge)與檢驗和(checksum)兩種。用于防止消

息丟失,用于減少數(shù)據(jù)錯誤。

息啟動計時

接收方

1果超時事新好1關

圖0-7?1具有確認應答技術的消息傳輸過程

在這樣的情況下,網(wǎng)絡軟件就根據(jù)以下步驟來發(fā)送

和接受消息:

1.應用程序?qū)⒁l(fā)的數(shù)據(jù)送網(wǎng)絡軟件。

2.網(wǎng)絡軟件計算檢驗和,填充消息頭,保留消息的一個備

份,并啟動計時器。

3.網(wǎng)絡軟件將消息送給網(wǎng)絡接口硬件發(fā)送。

接受方一相反的步驟提取信息:

3.網(wǎng)絡軟件從網(wǎng)絡接口硬件處得到消息數(shù)據(jù)。

2.網(wǎng)絡軟件計算數(shù)據(jù)的檢驗和,并符其與消息頭中的檢

驗和比較。如一致,說明接收數(shù)據(jù)正確,向發(fā)送方發(fā)一個

確認應答,否則,丟棄接受的錯誤數(shù)據(jù),等待發(fā)送方重發(fā)。

1.)仔接受到的正確數(shù)據(jù)交給應用程序。

網(wǎng)絡原理

應用程序I

棄錯誤數(shù)據(jù)發(fā)送確認

等待重發(fā)L........「應答消息

網(wǎng)絡軟件)網(wǎng)格軟件

t^致

檢驗和,填允消息頭檢驗和,與

保留備份,啟動消息頭中比的檢較驗和.

計時器

網(wǎng)絡軟件網(wǎng)絡軟件

發(fā)送……網(wǎng)絡接口硬件……接收.BM

網(wǎng)絡原理

最后,發(fā)送方還要對接受方的確認應答做出反應:

?如果得到接受方的確認應答,就復位定時器,釋放原先消息的拷貝。

?如果沒收到確認應答而定時器超時,發(fā)送方就必須根據(jù)原消息的拷

貝重發(fā)此消息。

這樣的情況下,所需的消息格式如圖7.3,它是7.2的改進。

2位32位4位

消息頭消息體檢驗和

消息頭=請求消息

消息頭=應答消息

消息頭=對請求信息的確認應答

消息頭=對應答信息的確認應答

圖7?3改進具有技術的消息結(jié)構(gòu)

網(wǎng)絡原理

網(wǎng)絡軟件執(zhí)行的上述通訊步驟統(tǒng)稱為(protocol)o通常,

協(xié)議里還要包括一些其它的內(nèi)容,以便提高網(wǎng)絡利用率,如進行通訊

流量的控制等功能,在多機互連的環(huán)境下,網(wǎng)絡軟件通常還包括消息

目的地的尋址功能,因為此時每臺計算機有多于一臺的計算機可以與

之通訊,正確識別消息的目的地是必須的。

為了簡化網(wǎng)絡軟件的設計,大多數(shù)協(xié)議都采用了分層組織的方

式,每層完成一定的網(wǎng)絡功能,為上一層提供基礎。為了給各種不同

的協(xié)議提供一個國際標準,ISO(國際標準化組織)于1983年提出了一種

網(wǎng)絡協(xié)議分層模型,即

參考模型。開放系統(tǒng)互連共分七層,為網(wǎng)絡體系結(jié)構(gòu)制定了標準。但

在實際應用中,許多協(xié)議在不同領域占據(jù)了事實上的標準地位,其中

最有名的是(TransferControlProtocol/InternetProtocol傳輸控制

協(xié)議/網(wǎng)際協(xié)議),其網(wǎng)絡軟件作為UNIX以及許多UNIX操作系統(tǒng)

變種的一部分被廣泛使用。

2.2網(wǎng)絡原理

下面我們簡單了解一下對網(wǎng)絡的性能評估問題。首先我們)捋評估

性能時滑到的指標一一介紹如下:

傳輸時間

發(fā)送方開銷(消息長度/帶寬

發(fā)送方

傳輸時間

飛行時間(消息長度/帶寬接收方開銷

接收方

傳遞時延

總時延

圖7?4網(wǎng)絡性能指標示意圖

網(wǎng)絡原理

單位時間內(nèi),網(wǎng)絡上可以傳遞的信息的

多少。單位一般是百萬位/秒。

消息的第一位從發(fā)出到到達接收

方的時間。

一個消息通過網(wǎng)絡的時間,

等于消息長度除以帶寬。

是傳輸時間和飛行時間之和。

處理器消息放到網(wǎng)上所花的時間

包括在軟件和硬件上的開銷。

把消息從網(wǎng)上收下來的時間

開銷。它通常大于發(fā)送方開銷。

總時延=接收方開銷+飛行時間+消息長度/帶寬+發(fā)送方開銷(7.1)

網(wǎng)絡原理

[事]設一個網(wǎng)絡帶寬為10Mb/s,發(fā)送和接收開銷分別為230〃s和270〃s,若有兩

臺相距100m的計算機,一臺要向另一臺發(fā)送一個1000字節(jié)的消息(包括消息

頭),而消息格式最多只允許消息有1000字節(jié)長,計算從一臺計算機發(fā)送一個消息

到另一臺的總時延。再設兩臺計算機相距1000km,計算上述時延。

:光速為299792.5km/s,在導體中信號傳輸?shù)乃俣燃s為光速的一半,

距離為100m的情況下:

發(fā)送方時延=230〃s接收方時延=270jus

飛行時間=100m/(l/2x299792.5)km/s=0.66713〃s

傳輸時間=消息長度/帶寬=1000xb/10Mb/s=800MS

???總時延=發(fā)送方時延+飛行時間+傳輸時間+接收方時延=1300.6671〃s

同理,距離為1000km的情況下:

飛行時間=1000km/(1/2x299792.5)km/s=6671.3〃s

總時延=7971.3〃s

從上面的例子可以看出,在長距離上飛行時間大大增加在加上長

距離傳輸帶來的高出錯率,導致廣域網(wǎng)的速度比局域網(wǎng)要慢的多,這也是為什么網(wǎng)

絡并行計算系統(tǒng)很少在廣域網(wǎng)上工作的原因所在。

網(wǎng)絡原理

,計算機與互連網(wǎng)絡的連接

計算機與互連網(wǎng)絡的連接包括兩個方面:網(wǎng)絡在硬件

上如何連接,使用什么總線;在軟件上如何連接,即用什

么連接方式和如何避免使用系統(tǒng)調(diào)用。

計算機的總線與存儲器一樣,根據(jù)性能分為幾個層次。

通常分為I/O總線和內(nèi)存總線(memorybus)o

通常I/O總線有標準可依,對電氣性能的需求相對較

低,而內(nèi)存總線比I/O總線有更高的帶寬和更低的存取時延。

一般來說,這個選擇取決于用戶所要達到的性能指標和對

付出代價的權衡。

網(wǎng)絡原理

在采用何種接收方式方面,我們有兩種選擇:是用輪詢方式還

是用中斷方式實現(xiàn)接收。

在下,處理器必須周期性的檢查網(wǎng)絡接口,看

是否有消息到達,然后予以接收。

在下,處理器僅在網(wǎng)絡接口上有消息到達

時,才得到一個中斷信號,再進行接收消息的工作。

中斷方式所要付出的代價是進入中斷處理的時延,中斷處理時開、

關中斷的開銷,在UNIX等多用戶操作系統(tǒng)下,還涉及進程的切換問

題,如果應用進程在接收時從內(nèi)存中被交換到磁盤上,引起的開銷也是

很大的。于是這就變成了一個在輪詢方式所浪費的多余查詢時間與中斷

方式付出的開銷之間尋找最優(yōu)方案的問題。

網(wǎng)絡原理

?計算機與互連網(wǎng)絡的連接

無疑這個問題的關鍵在于消息到來的速度。消息到來越

快,輪詢中查出“無消息到達''的無用查找次數(shù)就越少,效率

就高。這是若采用中斷方式,則中斷的次數(shù)就越多,反復進

入/退出中斷的代價也就越大,效率就低。當消息到來慢時,

情況會反過來,向著有利于中斷方式的方向發(fā)展。所以,合

適的解決這種選擇的辦法時研究網(wǎng)絡中消息到來的速度,消

息來得快的網(wǎng)絡宜用輪詢方式,反之應采用中斷方式。

最后,減少使用操作系統(tǒng)的時間對減少網(wǎng)絡開銷時很重

要的。在不少操作系統(tǒng)中,系統(tǒng)調(diào)用常常是用自陷的方式進

行的,其代價與硬件中斷幾乎一樣高。

網(wǎng)絡原理

?互連網(wǎng)絡所用的介質(zhì)

這一節(jié)將解答第二個問題:用什么通訊介質(zhì)實現(xiàn)互連網(wǎng)絡。其實

答案還是和前一問題相類似,這取決于用戶需要什么樣性能的網(wǎng)絡和

他愿意為此網(wǎng)絡付出多少代價。

本節(jié)揩介紹三種常用的網(wǎng)絡介質(zhì),它們分別是:雙絞線、同軸電

纜和光纜。

首先介紹廣泛使用的傳輸介質(zhì)。它由兩根絕緣的銅線組

成,典型的粗細是1mm左右,兩根導線相互紐絞在一起,這樣可以減

少兩根線間的電氣干擾。

雙絞線可以接幾公里,并可通過中繼器加長,傳輸速度最高可達

幾兆位每秒。在短距離內(nèi)還可達到幾十兆位每秒。由于雙絞線成本

低,性能好,而且使用早,可能會繼續(xù)使用下去。

雙絞線的缺點是難以支持多點的連接,在高頻時抗干擾性能差。

網(wǎng)絡原理

....ru/z|ru,?

另一種常用的傳輸介質(zhì)是。廣泛使用的同軸電纜有

兩類:50歐姆的基帶同軸電纜,主要用于傳遞數(shù)字信號;75歐姆

的寬帶同軸電纜,用于模擬信號傳輸。同軸電纜結(jié)構(gòu)見圖7?5。

圖7?5同軸電纜

網(wǎng)絡原理

?互連網(wǎng)絡所用的介質(zhì)

同軸電纜中,基帶纜采用曼徹斯特編碼,可達到lOM/s

的傳輸速率,覆蓋范圍為幾公里,寬帶纜可用分頻多路復用

及調(diào)制技術傳遞數(shù)字信號,最多可支持幾百兆的傳輸速率,

覆蓋幾十公里的范圍。但寬帶技術比基帶技術復雜得多。同

軸電纜能實現(xiàn)多點的連接,抗干擾的能力也較好。

同軸電纜中的細纜與計算機的連接較麻煩,必須把電纜

切斷,然后用一個T型插頭把計算機連接進去,對一個已在運

行的網(wǎng)絡來說,這種連接是不合適的。對于另一類稱為粗纜

的同軸電纜來說,可以用一種稱為吸血蝙蝠的專用接頭連

接,不過整個連接精度高,手續(xù)麻煩,必須由專用人員完成。

是一種最新的介質(zhì),盡管貴些,但寬帶和覆蓋范圍這

兩個指標都是最佳的。光纜以光脈沖傳遞數(shù)據(jù),比如有光代表

“I”,無光代表“0”等。光纜是一種單向介質(zhì),要進行雙向通訊必須

有兩根光纖。

一個光導纖維系統(tǒng)由三部分組成,傳輸介質(zhì)、光源和檢測器。

是極細的玻璃纖維或石英玻璃纖維。是發(fā)光二極管或

激光二極管。

發(fā)光二極管或

激光二極管

光源

完全折射

圖0-7?5光導纖維

網(wǎng)絡原理

由于光線從一種物質(zhì)傳到另一種物質(zhì)時會發(fā)生折射,

所以傳輸過程中會發(fā)生能量損失,除非纖維直徑減至一個

波長。此時纖維就像波導一樣作用,光線不會有折射,能

量損失就極〃\。這樣的光纖叫(single-mode

fiber),而把有多種波長光線反射的光纖叫

(multi-modefiber)。單模光纖可在幾百公里范圍內(nèi)用幾G

位每秒的速度傳遞數(shù)據(jù),而多模光纖僅能在最多2km的范

圍內(nèi)以最快600兆位每秒的速度傳送數(shù)據(jù)。但單模光纖要用

昂貴的激光二極管作為光源,而多模光纖可用廉價的發(fā)光

二極管(LED)作為光源。

網(wǎng)絡原理

把光纖連到計算機上的技術比較復雜。吸血蝙蝠的方

法是不可取的,因為這樣會漏失光線。

解決這個問題的辦法是使用兩種T型插頭,一種是無

源接口,一種是有源中繼器(activerepeater)o

無源接口的組成是)捋接頭熔接到主光纖上,光纖的一

頭有一個LED或激光二極管。插頭作為主發(fā)射器,另一端

的插頭是光電二極管作為接收器。由于插頭無源,接口非

常可靠,因為一旦插頭故障并不會斷開光纖,只是影響了

本機的網(wǎng)絡功能。

網(wǎng)絡原理

有源中繼器則不同,它把到來的光信號轉(zhuǎn)換為電信

號,再)將電信號轉(zhuǎn)換回光信號發(fā)射出去,如果本機要收

發(fā)什么消息,就在這時候一起完成。有了中繼器,網(wǎng)絡

連接的長度實際上就沒有限制,因為傳輸?shù)墓庑盘柌煌?/p>

地再生。但它的缺點是一旦有一個有源中繼器壞了,那

么不僅是它連接的計算機無法使用網(wǎng)絡,整個網(wǎng)絡也符

無法使用。

光纖網(wǎng)可以有兩種拓撲形式:環(huán)形和星型,后者的

優(yōu)點是便于廣播,但光能量損失大。

網(wǎng)絡原理

表7」以表格的形式列出幾種網(wǎng)絡通訊介質(zhì)的性能,作為總結(jié)。

總之每種介質(zhì)都各有優(yōu)缺點,具體應用時根據(jù)需要選擇。

表7?1幾種傳輸媒體的價格和性能比

最大每米每臺計算機

帶寬帶寬義距離終結(jié)器安裝勞務

介質(zhì)距離似本接口成本

(Mbps)(Gb-km/s)成本($)成本($)

(km)($)($)

銅雙絞線1(20)2(0.1)0.010.234.602.00約2

同軸電纜1010.011.64220.0015.00約5

多模光纖60021.21.0311.8010.00約1000

單模光纖20001002001.6423.9010.00約1000

多機互連網(wǎng)絡

大家知道,網(wǎng)絡并行計算需要將多臺計算機連接成網(wǎng)絡系

統(tǒng);而一旦揩多個結(jié)點連接成網(wǎng)絡,必然存在網(wǎng)絡介質(zhì)如何分配

的問題。一般有兩種解決辦法:和?,F(xiàn)分述如下:

在的情況下,結(jié)點機以一定的方式為自己爭取使用

傳輸介質(zhì)的權利。這是一種簡單的介質(zhì)分配方法,類似于計算機

內(nèi)的1/O總線。共享介質(zhì)中最重要的技術問題是如何對使用申請

進行仲裁,使得在同一時間共享介質(zhì)中只允許有一個傳輸,其它

結(jié)點機則必須等待。在小規(guī)模網(wǎng)絡中,可以采用集中式仲裁,由

其單一地完成這種仲裁。但在擁有大量結(jié)點機的網(wǎng)絡中,這種辦

法顯然是行不通的。因為首先,這時的仲裁器勢必成為瓶頸,其

次是不再有合適的方法能使結(jié)點機的使用申請能送達到仲裁器。

因而,通常網(wǎng)絡上都采用分布式仲裁的方法實現(xiàn)仲裁。

多機互連網(wǎng)絡

?其木粗下令

在分布式仲裁情況下,各結(jié)點機采用一種著名的仲裁策略

叫做(CSMA/CD)O每個結(jié)點機在發(fā)

送消息前先偵聽介質(zhì)上的信號,若無消息正在介質(zhì)上傳遞它才

發(fā)送。但如果兩個或兩個以上結(jié)點機同時偵聽到介質(zhì)空閑并發(fā)

送,就會產(chǎn)生沖突,從而破壞發(fā)送的消息。發(fā)送結(jié)點機在檢測

到?jīng)_突時,應立即停止繼續(xù)發(fā)送,并且重發(fā)此消息。

這個策略還留下的一個問題是,發(fā)生沖突的消息發(fā)送方在

重發(fā)消息時,可能還會發(fā)生沖突,從而導致無休止的重發(fā)。為

此,在發(fā)生沖突之后,發(fā)送結(jié)點應等待一個隨機時間再發(fā),以

減小再次發(fā)生沖突的可能性。為了提高網(wǎng)絡使用效率并減少沖

突,還有一系列的技術措施如采用非堅持的CSMA等,但要以

增加發(fā)送時延為代價。

多機互連網(wǎng)絡

共享介質(zhì)的方法便宜,容易構(gòu)造網(wǎng)絡,但一個

本質(zhì)的弱點是:在一個有許多節(jié)點的網(wǎng)絡上,只允

許兩個節(jié)點的單向通訊,效率很低。為了改進它,

可將每個節(jié)點都連到一個交換器(switch)上,從而可

以使每一對節(jié)點機之間都能同時通訊。這樣使用網(wǎng)

絡介質(zhì)的方式叫做。

的實現(xiàn)方式有多種,常用的兩種拓撲結(jié)

構(gòu)是全連接(crossbar)互連網(wǎng)絡和Omega互連網(wǎng)

絡,見圖7?6。

圖7?6(a)全連接(crossbar)交換器結(jié)構(gòu)

左圖中所用的一

Omega網(wǎng)絡單元

圖7.6(b)Omega交換結(jié)構(gòu)

多機互連網(wǎng)絡

全連接結(jié)構(gòu)可以允許所有節(jié)點的自由通訊,但硬件開銷也最

大,有M個交叉點;Omega交換具有最小的硬件開銷,為

n/210g2n(n為節(jié)點數(shù))個交叉點,但通訊會受到限制。如當P?在向巴

發(fā)送時,P3就不能向P。發(fā)送。這種情況叫做阻塞(block)。當然,兩

個節(jié)點向同一個節(jié)點進行發(fā)送時,必然會引起阻塞,即使是在縱橫

制中也一樣。

全連接和Omega是開銷與通訊阻塞的權衡中的兩種極端情況,

通常還有許多折衷的拓撲結(jié)構(gòu)。其中,有一種是“"(見

圖77)。在“胖樹”中,每兩層間的連接帶寬都是一樣的,所以,從

樹的下面往上看時,帶寬是逐漸遞增的。從一個節(jié)點發(fā)出的消息,

可以任意地選擇樹的一條路徑傳遞。比如,從節(jié)點1到節(jié)點15就有四

條路可以走,這樣最大限度地保證了各種路徑的公平性,也減少了

■舞尋胸

2.3多機互連網(wǎng)絡

圖7?716個節(jié)點的“胖樹”結(jié)構(gòu)

多機互連網(wǎng)絡

以上講的幾種交換結(jié)構(gòu)中,交換器都是作為一個專用部件而出現(xiàn)

的,多級交換(multistageswitch)功能集中做在一個交換器中工作。

但也可以把交換器與節(jié)點結(jié)合在一起,作為一個分布式交換單元

(distributedswitchingunit)o

分布式交換器最常見的實現(xiàn)結(jié)構(gòu)是將各節(jié)點連成一個環(huán)(ring),

見圖7?8。這樣的結(jié)構(gòu)與共享介質(zhì)不同的是:消息僅能在相鄰站點間收

發(fā),也就是說,兩個相鄰節(jié)點完全占有它們間的傳輸介質(zhì)。這樣,兩

個不相鄰節(jié)點間的通訊就得依靠交換器的轉(zhuǎn)發(fā)。一般,環(huán)都是單向傳

遞數(shù)據(jù)的,節(jié)點發(fā)出的消息在環(huán)上一直向前走,直至接收節(jié)點將其“取

下二也就是不再傳遞。

對環(huán)的一個變種是所謂的“工在這樣的系統(tǒng)

中,有一個叫做"”的消息在轉(zhuǎn)遞,得到令牌的節(jié)點才有權

發(fā)送消息。這主要是為了防止發(fā)送站點過多時,環(huán)上容納不下而設計

的,許多流行的局域網(wǎng)絡結(jié)構(gòu)使用令牌環(huán)。

圖7?8環(huán)結(jié)構(gòu)網(wǎng)絡

多機互連網(wǎng)絡

對“環(huán),,的一種自然的擴展就是在每個交

換器間連一條專用的線,構(gòu)成一種“全連接”

的結(jié)構(gòu)。但這樣做的成本很高。所以,一般

都采用一種折衷的辦法,以一定的布局在交

換器間連線。這些辦法有二維網(wǎng)格結(jié)構(gòu)(2D

gridormesh)、二維圈(2Dtours)、超立

方體樹(hypercubetree)等結(jié)構(gòu),并廣泛地

在MPP網(wǎng)中使用(見圖7-9)o

多機互連網(wǎng)絡

a.16節(jié)點的二維網(wǎng)格

C.16節(jié)點的超立方體樹

圖7?9幾種交換器連接拓撲結(jié)構(gòu)

2.3多機互連網(wǎng)絡

?基本概念

在MPP互聯(lián)網(wǎng)絡中常用一種名為“中分帶寬”的指標來衡量拓撲結(jié)構(gòu)。

所謂“”指的是招網(wǎng)絡分為大致相等的兩部分后,按連接兩部分的

連線條數(shù)計算中分帶寬,如環(huán)結(jié)構(gòu)的中分帶寬為2,全連接結(jié)構(gòu)(crossbar)

中分帶寬為n/2等。

由于網(wǎng)絡自身可能不對稱,可能存在多種中分線的劃法,從而出現(xiàn)多

種中分帶寬,中分帶寬按最差的情況即中分后帶寬最小的情況計算。換一

種說法,即計算全部可能的中分帶寬,取其最小值為該拓撲結(jié)構(gòu)的中分帶

寬。表7?2,64節(jié)結(jié)點不同拓撲結(jié)構(gòu)網(wǎng)絡的給出了中分帶寬和連線數(shù)。

表7.264個節(jié)點組成的幾種互連網(wǎng)絡的性能與相對成本

總線環(huán)二維環(huán)網(wǎng)6維立方體全連接

性能二分帶寬1216321024

成本每個交換機端口數(shù)NA35764

總線數(shù)]1281922562080

多機互連網(wǎng)絡

以上只是對網(wǎng)絡拓撲結(jié)構(gòu)做簡單分析,對于真正的實用系

統(tǒng),這樣的分析是遠遠不夠的。

首先,三維的拓撲結(jié)構(gòu)在制造時必須映射為實際的二維布

線,于是理想的拓撲結(jié)構(gòu)中必須加入對布線連通性、電氣指標甚

至布線板尺寸大小的考慮。

其次,內(nèi)部交換器的速度也是一個要考慮的問題。如果這個

速度是恒定的,那么,顯然它連接的鏈路越多,所能分配給各鏈

路的帶寬也就越低,設計時不能無視這一問題。

最后,還必須考慮不同拓撲結(jié)構(gòu)對時延的影響,復雜的網(wǎng)路

會帶來較大的時延。一個理想的拓撲結(jié)構(gòu),在設計時可能會不怎

么理想甚至很糟。所以,在實際設計中,必須進行多方面的考慮

以求得最好的效果。_______________________________________

2.3多機互連網(wǎng)絡

概念

讓我們來比較表7?2中各種拓撲結(jié)構(gòu)中分帶寬的不同。仍然

設它們是64節(jié)點結(jié)構(gòu),所有的節(jié)點都要互相通訊,每個向其它節(jié)點

發(fā)一條消息。為了簡化,我們假設從一個交換器到另一個交換器耗

■時一個單位,節(jié)點收發(fā)消息不花時間;設每條連接的速度一樣,一

個節(jié)點一次可以發(fā)送、接受任意多的消息。這樣完成所有節(jié)點間的

通訊要花多長時間?

解:要使每個節(jié)點向其它所有節(jié)點發(fā)一條消息,共需要發(fā)64x63

=4032條消息。

對于總線結(jié)構(gòu),所有消息都要串行發(fā)送,共需4032個時間單位

對于全連接結(jié)構(gòu),所有消息都會并行發(fā)送,只需1時間單位

對于環(huán),我們可以一步步地來分析:

多機互連網(wǎng)絡

第一步,每個節(jié)點向編號比自己大1的相鄰節(jié)點發(fā)送。即

2…,而63號節(jié)點發(fā)給。號,共需時1單位。

第二步,每個節(jié)點向編號大2的節(jié)點發(fā)送,這時需要經(jīng)過一次

交換器轉(zhuǎn)發(fā),故完成它需要時2單位。

如此下去,每個節(jié)點各向比自己編號大/(左1,2,…,63)節(jié)點

發(fā)送一遍,就完成了發(fā)送。但由于連接是雙向的,向節(jié)點編號大于

32的節(jié)點發(fā)送可反向進行以節(jié)約時間。故有

環(huán)的發(fā)送成時間=1+2+...+31+32+33+-+2+1

=31x32/2+32+31x32/2=1024

對二維圈,在這個64節(jié)點陣列中共有8行8列,注意一個圓的上下兩

列是一條鏈接,用于連起最左最右兩節(jié)點。這樣我們可以用和環(huán)差

不多的思路去考慮它,而不用顧慮邊緣節(jié)點的特殊情況。讓我們先

考慮一個節(jié)點向它同行的節(jié)點發(fā)送,這和8節(jié)點環(huán)的情況一樣

2.3多機互連網(wǎng)絡

Timerow=1+2+3+4+3+2+1

=3x4/2+4+3x4/2=6+4+6

如果要發(fā)送到下一行的節(jié)點,所有8條消息都必須首先花一個單位的

時間到下一行上,它們要到達目的的時間和送一條消息到一行的所有

節(jié)點的時間一樣,為

Timerowbelow=8x1+Timerow

總時間可以看作發(fā)8條消息到每列上加上揩消息分布到一列上各節(jié)點

的時間之和

Time2D=Timerow+(8x1+Timerow)+(8x2+Timerow)

+(8x4+Timerow)+...(8x1+Timerow)

=Timerow+8x(1+2+3+4+3+2+1+Timerow)

=Timerow+8x(3x4Z2+4+3x4/2+Timerow)

=Timerow+8x(16+Timerow)=16+8x16+16=272

多機互連網(wǎng)絡

上面是每個節(jié)點一次只發(fā)一個消息的情況,而實際上每個節(jié)

點有多條鏈接,這種先縱向后橫向的路徑選擇只使用了約一

半可能的帶寬。通過仔細地選擇通訊對,讓縱向的通訊量與

橫向的相同,可使總時間減到上述計算結(jié)果的一半左右。

6立方體在這樣的結(jié)構(gòu)下,每個節(jié)點可以先發(fā)送給離它

最近的節(jié)點,這些消息共64x6=384個,花去兩個時間單位:

再發(fā)給相隔一步的節(jié)點,花時4個單位,發(fā)出384條消息,全

部4032條消息可以以這樣的步驟,分4032/384=11次發(fā)出,

于是

總時間=2x(1+2+3+.?,+10+11)

=2x11x12/2=132

多機互連網(wǎng)絡

在交換式介質(zhì)中消息要通過交換器的轉(zhuǎn)發(fā)才能到達目

的地,而且除了少數(shù)拓撲結(jié)構(gòu)如環(huán)、全連接和Omeg矽卜,

從源到目的地往往有幾條路徑可以走。這種對消息所走路徑

的選擇就叫。

對于路由問題,有三種解決方法:

1,基于源的路由選擇(source-basedrouting)由消息

源指空消息轉(zhuǎn)往目的的路徑,途中各交換器嚴格按位執(zhí)行:

2.虛電路(virtualcircuit)是前一種方法的改進,通過一

定的協(xié)商先在源和目的之間建一條專用的路徑稱為,

留出帶寬,消息以后就沿著這條預定的路徑傳遞。

3.(destination-basedrouting),源只

給消息指定目的,具體走哪條路徑由中間的交換器決定。

多機互連網(wǎng)絡

在廣域網(wǎng)中,交換器常以存儲轉(zhuǎn)發(fā)(store?and?forward)策略

實現(xiàn)路由選擇。所謂即指交換器招整個消息接收下來

后,再轉(zhuǎn)發(fā)到相應路徑上去。這樣做的優(yōu)點是實現(xiàn)方式簡單,

缺點是消息通過此類交換器時有很大的時延。

因此,在某些局域網(wǎng)和MPP網(wǎng)中,使用一種改進的方法叫

(cut-thoughrouting或wormholerouting)o使用這種

方法,交換器檢查消息頭,一旦確定傳輸?shù)哪康牡鼐烷_始轉(zhuǎn)

發(fā),而不用等到收完整個消息。在遇到阻塞時,捷徑蟲蝕法有

兩種方法:其一叫(wormhole),即)捋被阻塞的消息在交

換器間反復發(fā)送,但這樣可能阻塞了別的消息傳遞;其二是

(cut-through),即招被阻塞的消息暫存到一個交換器中

去,從而避免了蟲蝕法的缺點。

多機互連網(wǎng)絡

我們把在路由選擇中,有保留一部分帶寬給某兩個結(jié)點通訊

用的虛電路策略叫作。而把不預先保留

帶寬,由消息自由在交換期間轉(zhuǎn)遞的策略叫作(packet

switch)。分組交換不預留帶寬,不用造成浪費,但一旦大量消

息要通過網(wǎng)絡以致超過網(wǎng)絡帶寬承受能力的擁塞問題。

解決辦法之一是簡單地把過多的分組丟棄,必須選擇把那些

“走的還不太遠”的分組丟棄掉。

另一種辦法是流量控制。當一個節(jié)點飽和時,它向消息的源

節(jié)點發(fā)出一個信號,我們稱它反壓(backpressure)信號,讓源

節(jié)點減少甚至停止發(fā)送。

我們真正需要的是一種對網(wǎng)絡擁塞時做出反應的機制,這種

方法是使用抑制分組(chockpacket)o

多機互連網(wǎng)絡

?多機互聯(lián)網(wǎng)實例

在多機互連網(wǎng)絡中,以太網(wǎng)無疑是個成功的典范。自從它

于1978年推出以來,在局域網(wǎng)領域得到了廣泛應用,而局域網(wǎng)

正是網(wǎng)絡并行計算所最常用的網(wǎng)絡。以太網(wǎng)被采納為國際標準

IEEE802.3和ISO8802.3,至今仍是局域網(wǎng)的主流。

但以太網(wǎng)10Mb/s的速度早已不能滿足當前的需求,〉將以太

網(wǎng)分段從而變成所謂的(multipleEthernet)是一個加大

以太網(wǎng)帶寬的辦法(圖7?10)。這樣,被分開的各段的內(nèi)部通訊可

以分別同時進行,只有段間通訊才需要(bridge)轉(zhuǎn)發(fā)。但這

種方法并未從根本上解決問題。網(wǎng)絡的連接目的就是通訊,企

圖用通訊的局部化增加網(wǎng)絡利用率并不真正解決問題。

未分段,僅一對節(jié)點可進行通訊。

分段后,可有兩對節(jié)點進行通訊。

多機互連網(wǎng)絡

節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點

飛~Ir

未分段

節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點

節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點

網(wǎng)橋網(wǎng)橋,.

分段后__________)

節(jié)點節(jié)點節(jié)點節(jié)點節(jié)點

圖7?10以太網(wǎng)分段及其作用

多機互連網(wǎng)絡

(fiberdistributeddatainterface,FDDI)是一

種高性能的光纖令牌環(huán)結(jié)構(gòu)LAN,運行速度為100Mb/s,最大距離

200km,最多連接站數(shù)為1000,它采用令牌環(huán)結(jié)構(gòu),增加了令牌環(huán)

的個數(shù)以增加可能同時發(fā)送的數(shù)據(jù)幀的個數(shù)。它通常用于主干網(wǎng)

(backbone)聯(lián)系幾個局域網(wǎng),而不是用于小范圍的LAN。

隨著網(wǎng)絡技術的發(fā)展,有三種LAN技術逐漸發(fā)展起來,并可能

在今后的網(wǎng)絡并行計算里成為占主導地位的網(wǎng)絡管道。

1.高速以太網(wǎng)技術一一100Mb/s,大大地提高了帶寬。

2.交換式以太網(wǎng)(switchedEthernet)-----引入交換技術,在不

改變以太網(wǎng)協(xié)議的情況下增加了可利用帶寬。一

3.異步傳輸技術(asynchronoustransfermode,ATM),其高速

和高可靠性使得許多網(wǎng)絡計算都趨向于利用它作為網(wǎng)絡連接基礎。

表7?3,列出了當前流行的網(wǎng)絡技術一覽表。

表7-3各種網(wǎng)絡技術情況一覽表

MPPLANWAN

IBMIntelCary100-Mb

CM-5EthernetSwitchedFDDIATM

PS-2ParagonT3DEthernet

長度(m)2510?10?10.3500/2500200500/25004000100/1000

數(shù)據(jù)線數(shù)目48161611111

時鐘頻率(MHZ)40401001501010010100155/622

交換?是是是是否否是否是

結(jié)點<=2048<=512<=1024<=2048<=254<=254<=254<=254^10000

材料銅銅銅銅銅銅銅光纖銅/光纖

Bisection40X結(jié)320X結(jié)1600X2400X10X結(jié)155X結(jié)

10100100

BW(Mbits/s)點點結(jié)點M2結(jié)點如點點

峰值鏈BW(Mbits/s)160320160024001010010100155/622

測量鏈BW(MbitsZs)1602841400112099710

延遲(Us)5110.2151.5七5010七50

發(fā)送接受開銷(口s)1539240.7440440440心500630

拓撲結(jié)構(gòu)胖樹胖樹如網(wǎng)格3D環(huán)形線性線性星形環(huán)形星形

無連接?是是是是是是是是否

儲存和轉(zhuǎn)發(fā)否否否否否否否否是

擁塞控制反壓反壓反壓反壓載波偵聽載波偵聽令牌

標準IEEE802.3ATM論壇

容錯無有無無有有有有有

多機互連網(wǎng)絡

是為了寬帶綜合業(yè)務數(shù)據(jù)網(wǎng)絡B?ISDN而設計的,它以交換技

術為基礎,結(jié)合了線路和分組交換的優(yōu)點。ATM是以一種叫“”

的通訊幀作為通訊基礎的,這是一種53字節(jié)的結(jié)構(gòu),由5字節(jié)的信元頭

和48字節(jié)的消息數(shù)據(jù)共同組成(圖7-11),所有由其傳遞的數(shù)據(jù)都被組織

PT負載類型CLP信元丟失優(yōu)先權HEC信元頭差錯控制

圖7-11ATM信元結(jié)構(gòu)

多機互連網(wǎng)絡

ATM使用多路復用的虛電路傳遞信元。

各虛電路所占信道的時間是不固定的,而是按

通訊者的需求隨機出現(xiàn),這也就是所謂的“

的含義。

小的信元使得ATM的傳輸延遲大大減少,并且

開銷也低。

而多路復用的虛電路使得ATM既有靈活的信道

分配,適應各種傳輸速率的要求;又能保證一旦連

接建立后的時延為常數(shù)的特點,結(jié)合了分組交換與

電路交換的優(yōu)點。

多機互連網(wǎng)絡

ATM的協(xié)議分為三層來實施,它們是ATM適配層

(ATMAdaptationLayer,AAL)、ATM層和物理層。物理

層實現(xiàn)的是與傳輸介質(zhì)有關的功能,包括介質(zhì)適配和簡單

的傳輸錯誤恢復等功能;ATM層中實現(xiàn)的功能有虛電路交

換,信元頭產(chǎn)生/消除和一般流量控制;AAL是ATM最高

層,擔負著與更高層協(xié)議溝通的任務(如TCP/IP),包括負

責拆分高層消息幀的拆分重裝子層(segmentationand

reassemble,SAR)和會聚子層(convergencesublayer,CS)O

ATM標準的制定者ITU?T)仔這一層的功能分為五類,其中

AAL5提供面向連接,可變傳輸速率的傳輸,且不要求接

收方與發(fā)送方的定時關系,被認為是ATM在局域網(wǎng)上應用

的最好協(xié)議類型。

多機互連網(wǎng)絡

輸入隊列及

DMA?Inteli960

總線控制處理器

總線控制器

王接口k網(wǎng)絡

控制器

輸出隊列及

DMA

CRC

校驗

256KI初起

機SRAMPROM

圖7,2ForeSystemSBA-200接口卡

多機互連網(wǎng)絡

這里的ATMLAN接口卡,使用Fore

System公司的SAB-200,它的硬件實現(xiàn)了

ATM各層的功能。如圖7?12所示,SBA-200

包含了一個i690的網(wǎng)絡協(xié)議處理器,DMA接

□,符合ATMAAL5標準的循環(huán)冗余校驗

(CRC)校驗器和256KB的SRAM,用于i960的

程序執(zhí)行,其內(nèi)容可被主板修改。接口卡插

在主機的I/O總線上(圖7?13)。

多機互連網(wǎng)絡

i960協(xié)處理器的任務是把處理ATM協(xié)議的工作(如符消

息分為信元、加信元頭、作CRC校驗)從主機那里接過來,與

主機并行執(zhí)行以加快速度。主機只要招數(shù)據(jù)的一個描述符交

給網(wǎng)卡,網(wǎng)卡上的協(xié)處理器就可以完成所有ATM協(xié)議的工

作了。

DMA接口有兩個作用:

1.在不用主機處理器干預的情況下傳消息數(shù)據(jù)到網(wǎng)卡。

2.在突發(fā)性大量消息到來時傳送數(shù)據(jù)給主機。

SBA-200的DMA可以以30MB/S的速度傳遞突發(fā)數(shù)據(jù)。

多機互連網(wǎng)絡

我們以一個連在SUNSPARCStationlO上的foreSystems

SBA-200ATM接口為例,連接的組織如表7?14,ATM接口卡連

到一個16對ATM交換器上,根據(jù)與交換器距離的不同,連接線

可以是雙絞線或光纖。

BayNetworksLatticescell10114交換器是一個類似Omega交

換器的多級交換器,如圖7?14所示,它的內(nèi)部帶寬為16個5Mbps

端口所需帶寬的兩倍,即5Gbps。

另一種ATM交換器是ForesystemsASX-200,在這種2?5

Gbps的交換器內(nèi)部是一條簡單的40MB64位總線,可以處理最多

24個155Mbps端口的交換,時延僅為10睦以下。它包括一個

SPARC微處理器用于路由和每端口700長8的輸出緩存。

ATM協(xié)議與功能強大的網(wǎng)卡相配合,可以產(chǎn)生出良好的傳輸

性能,但我們很快就可以看到,這樣的性能對網(wǎng)絡并行計算未必

多機互連網(wǎng)絡

SynOptics

Lattiscell

16X16

ATM交換器

圖7-14SPARCStation-10和ATM交換器組織

2.3多機互連網(wǎng)絡

表7?4列出了普通10Mbps以太網(wǎng)與采用兩種不同ATM交換器的傳

送時間。

表7?4不同長度消息時的傳送時間比較表

消息長度以太網(wǎng)ASX-20Latticescell10114ATM

(byte)(ms)(ms)(ms)

8504690865

256726811989

102414229081083

4096417413791589

8192863119932274

(據(jù)KimKeeton,U.C.Berkeley)

2.3多機互連網(wǎng)絡

從表中我們可以看到,對于256字節(jié)以下的消息,ATMLAN竟然不如以

太網(wǎng)的傳遞速度快,這對網(wǎng)絡并行計算系統(tǒng)來說是個產(chǎn)重的問題,因為網(wǎng)絡并

行計算系統(tǒng)中傳遞的信息大都是短信息。造成這種現(xiàn)象的原因有二:

一是現(xiàn)有操作系統(tǒng)網(wǎng)絡軟件的問題,現(xiàn)有操作系統(tǒng)的網(wǎng)絡軟件(如UNIX

的網(wǎng)絡軟件)通常是在十年前設計的,那時候的網(wǎng)絡速度比現(xiàn)在要慢得多,大

略正好是以太網(wǎng)的速度水平。針對那樣的網(wǎng)絡設計的軟件自然在許多地方不適

于現(xiàn)有的高速網(wǎng)絡。同時,這些軟件實現(xiàn)的通訊協(xié)議(如TCP/IP)本身就存

在帶寬利用率低和時延長等問題,它們也是許多年前的成熟技術,未必適合與

今天的高速低錯LAN。

二是ATMLAN現(xiàn)有接口程序,如ATM接口卡本身固化的驅(qū)動程序的缺

陷。許多此類程序招其注意力放在如何防止接口成為ATM高帶寬的瓶頸問題

上,而忽略了時延的要求。比如前提至U的ForesyetemsSBA_200,它的驅(qū)動程

序要求網(wǎng)絡協(xié)處理器揩數(shù)據(jù)的傳輸全部用DMA方式進行,而這種方式有利于

實現(xiàn)高帶寬卻無益于低時延。

現(xiàn)有高速網(wǎng)絡存在的問題,使我們必須對網(wǎng)絡設計的思想和原則作一新的

修訂以符合網(wǎng)絡并行計算系統(tǒng)的要求,這項工作已經(jīng)在計算機科技界中展開。

多機互連網(wǎng)絡

在討論了計算機如何同網(wǎng)絡連接的問題

之后,我們再討論一下如何將已有的網(wǎng)絡互

連起來的問題。雖然由于某些特殊的需要

(如要在網(wǎng)絡并行計算系統(tǒng)中包括一臺遠程

的巨型計算機)而必須使用廣域網(wǎng)連接系統(tǒng)

的話,則更是肯定要穿越幾個網(wǎng)絡,這就有

必要使用網(wǎng)絡互連。

多機互連網(wǎng)絡

保證網(wǎng)絡互聯(lián)有兩種方法:一種是用應用程序來實現(xiàn)網(wǎng)絡互

連。比如要用到一個在網(wǎng)絡間傳遞文件的程序,這個程序就必須

了解它可能會經(jīng)過的所有網(wǎng)絡的細節(jié),并通過各網(wǎng)絡傳遞機間協(xié)

作完成任務。這是一種很直接的解決方法,但結(jié)果是通信能力低

下且麻煩。向系統(tǒng)上增加新功能便意味著在所有計算機上增加新

程序,增加新的網(wǎng)絡就必須修改應用程序使其適應新網(wǎng)絡,或者

干脆編寫新的應用程序。實際上,當今世界網(wǎng)絡成百上千,依靠

這種方法誰也無

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論