版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、 Kubernetes 網(wǎng)絡(luò)的應(yīng)用場景分析 本文介紹了Kubernetes網(wǎng)絡(luò)的各種場景,包括容器之間、Pod之間、Pod到Service、外部到內(nèi)部的這4種場景下,不同的通信模式。在設(shè)計(jì)Kubernetes容器平臺的時候,建議按照這些通信模式,根據(jù)具體的場景,逐一比對選擇合適的解決方案。其中,特別需要注意的是外部到內(nèi)部的訪問。如果您想更系統(tǒng)學(xué)習(xí)容器云平臺網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)及優(yōu)化,了解容器網(wǎng)絡(luò)基礎(chǔ)概念、學(xué)習(xí)架構(gòu)設(shè)計(jì)和優(yōu)化實(shí)踐,可以關(guān)注文章后所附介紹。在實(shí)際的業(yè)務(wù)場景中,業(yè)務(wù)組件之間的關(guān)系十分復(fù)雜,特別是微服務(wù)概念的提出,應(yīng)用部署的粒度更加細(xì)小和靈活。為了支持業(yè)務(wù)應(yīng)用組件的通信聯(lián)系,Kubernete
2、s網(wǎng)絡(luò)的設(shè)計(jì)主要致力于解決以下場景:(1)緊密耦合的容器到容器之間的直接通信;(2)抽象的Pod到Pod之間的通信;(3)Pod到Service之間的通信;(4)集群外部與內(nèi)部組件之間的通信。1. 容器到容器的通信在同一個Pod內(nèi)的容器(Pod內(nèi)的容器是不會跨宿主機(jī)的)共享同一個網(wǎng)絡(luò)命名空間,共享同一個Linux協(xié)議棧。所以對于網(wǎng)絡(luò)的各類操作,就和它們在同一臺機(jī)器上一樣,它們甚至可以用localhost地址訪問彼此的端口。這么做的結(jié)果是簡單、安全和高效,也能減少將已經(jīng)存在的程序從物理機(jī)或者虛擬機(jī)移植到容器的難度。如下圖中的陰影部分就是Node上運(yùn)行著的一個Pod實(shí)例。容器1和容器2共享了一個網(wǎng)
3、絡(luò)的命名空間,共享一個命名空間的結(jié)果就是它們好像在一臺機(jī)器上運(yùn)行似的,它們打開的端口不會有沖突,可以直接用Linux的本地IPC進(jìn)行通信。它們之間互相訪問只需要使用localhost就可以。容器到容器間通信2. Pod之間的通信每一個Pod都有一個真實(shí)的全局IP地址,同一個Node內(nèi)的不同Pod之間可以直接采用對房Pod的IP地址通信,而不需要使用其他發(fā)現(xiàn)機(jī)制,例如DNS、Consul或者etcd。Pod既有可能在同一個Node上運(yùn)行,也有可能在不用的Node上運(yùn)行,所以通信也分為兩類:同一個Node內(nèi)的Pod之間的通信和不同Node上的Pod之間的通信。1)同一個Node內(nèi)的Pod之間的通信
4、如圖,可以看出,Pod1和Pod2都是通過Veth連接在同一個Docker0網(wǎng)橋上的,它們的IP地址IP1、IP2都是從Docker0的網(wǎng)段上自動獲取的,它們和網(wǎng)橋本身的IP3是同一個網(wǎng)段的。另外,在Pod1、Pod2的Linux協(xié)議棧上,默認(rèn)路由都是Docker0的地址,也就是說所有非本地的網(wǎng)絡(luò)數(shù)據(jù),都會被默認(rèn)發(fā)送到Docker0網(wǎng)橋上,由Docker0網(wǎng)橋直接中轉(zhuǎn),它們之間是可以直接通信的。同一個Node內(nèi)的Pod關(guān)系2)不同Node上的Pod之間的通信Pod的地址是與Docker0在同一個網(wǎng)段內(nèi)的,我們知道Docker0網(wǎng)段與宿主機(jī)網(wǎng)卡是兩個完全不同的IP網(wǎng)段,并且不同Node之間的通信
5、只能通過宿主機(jī)的物理網(wǎng)卡進(jìn)行,因此要想實(shí)現(xiàn)位于不同Node上的Pod容器之間的通信,就必須想辦法通過主機(jī)的這個IP地址來進(jìn)行尋址和通信。另外一方面,這些動態(tài)分配且藏在Docker0之后的所謂“私有”IP地址也是可以找到的。Kubernetes會記錄所有正在運(yùn)行Pod的IP分配信息,并將這些信息保存在etcd中(作為Service的Endpoint)。這些私有IP信息對于Pod到Pod的通信也是十分重要的,因?yàn)槲覀兊木W(wǎng)絡(luò)模型要求Pod到Pod使用私有IP進(jìn)行通信。之前提到,Kubernetes的網(wǎng)絡(luò)對Pod的地址是平面的和直達(dá)的,所以這些Pod的IP規(guī)劃也很重要,不能有沖突。綜上所述,想要支持不
6、同Node上的Pod之間的通信,就要達(dá)到兩個條件:(1)在整個Kubernetes集群中對Pod分配進(jìn)行規(guī)劃,不能有沖突;(2)找到一種辦法,將Pod的IP和所在Node的IP關(guān)聯(lián)起來,通過這個關(guān)聯(lián)讓Pod可以互相訪問。根據(jù)條件1的要求,我們需要在部署Kubernetes的時候,對Docker0的IP地址進(jìn)行規(guī)劃,保證每一個Node上的Docker0地址沒有沖突。我們可以在規(guī)劃后手工分配到每個Node上,或者做一個分配規(guī)則,由安裝的程序自己去分配占用。例如Kubernetes的網(wǎng)絡(luò)增強(qiáng)開源軟件Flannel就能夠管理資源池的分配。根據(jù)條件2的要求,Pod中的數(shù)據(jù)在發(fā)出時,需要有一個機(jī)制能夠知道
7、對方Pod的IP地址掛在哪個具體的Node上。也就是說要先找到Node對應(yīng)宿主機(jī)的IP地址,將數(shù)據(jù)發(fā)送到這個宿主機(jī)的網(wǎng)卡上,然后在宿主機(jī)上將相應(yīng)的數(shù)據(jù)轉(zhuǎn)到具體的Docker0上。一旦數(shù)據(jù)到達(dá)宿主機(jī)Node,則哪個Node內(nèi)部的Docker0便知道如何將數(shù)據(jù)發(fā)送到Pod。具體情況,如下圖所示。跨Node的Pod通信在圖6中,IP1對應(yīng)的是Pod1,IP2對應(yīng)的是Pod2。Pod1在訪問Pod2時,首先要將數(shù)據(jù)從源Node的eth0發(fā)送出去,找到并到達(dá)Node2的eth0。也就是說先要從IP3到IP4,之后才是IP4到IP2的送達(dá)。3.Pod 到Service之間的通信為了支持集群的水平擴(kuò)展、高可
8、用,Kubernetes抽象出Service的概念。Service是對一組Pod的抽象,它會根據(jù)訪問策略(LB)來訪問這組Pod。Kubernetes在創(chuàng)建服務(wù)時會為服務(wù)分配一個虛擬的IP地址,客戶端通過訪問這個虛擬的IP地址來訪問服務(wù),而服務(wù)則負(fù)責(zé)將請求轉(zhuǎn)發(fā)到后端的Pod上。這個類似于反向代理,但是,和普通的反向代理有一些不同:首先它的IP地址是虛擬的,想從外面訪問需要一些技巧;其次是它的部署和啟停是Kubernetes統(tǒng)一自動管理的。Service在很多情況下只是一個概念,而真正將Service的作用落實(shí)的是背后的kube-proxy服務(wù)進(jìn)程。在Kubernetes集群的每個Node上都會
9、運(yùn)行一個kube-proxy服務(wù)進(jìn)程,這個進(jìn)程可以看作Service的透明代理兼負(fù)載均衡器,其核心功能是將到某個Service的訪問請求轉(zhuǎn)發(fā)到后端的多個Pod實(shí)例上。對每一個TCP類型的Kubernetes Service,kube-proxy都會在本地Node上建立一個SocketServer來負(fù)責(zé)接收請求,然后均勻發(fā)送到后端某個Pod的端口上,這個過程默認(rèn)采用RoundRobin負(fù)載均衡算法。Kube-proxy和后端Pod的通信方式與標(biāo)準(zhǔn)的Pod到Pod的通信方式完全相同。另外,Kubernetes也提供通過修改Service的service.spec.-sessionAffinity參
10、數(shù)的值來實(shí)現(xiàn)會話保持特性的定向轉(zhuǎn)發(fā),如果設(shè)置的值為“ClientIP”,則將來自同一個ClientIP的請求都轉(zhuǎn)發(fā)到同一個后端Pod上。此外,Service的ClusterIP與NodePort等概念是kube-proxy通過Iptables和NAT轉(zhuǎn)換實(shí)現(xiàn)的,kube-proxy在運(yùn)行過程中動態(tài)創(chuàng)建與Service相關(guān)的Iptables規(guī)則,這些規(guī)則實(shí)現(xiàn)了ClusterIP及NodePort的請求流量重定向到kube-proxy進(jìn)程上對應(yīng)服務(wù)的代理端口的功能。由于Iptables機(jī)制針對的是本地的kube-proxy端口,所以如果Pod需要訪問Service,則它所在的那個Node上必須運(yùn)行
11、kube-proxy,并且在每個Kubernetes的Node上都會運(yùn)行kube-proxy組件。在Kubernetes集群內(nèi)部,對Service Cluster IP和Port的訪問可以在任意Node上進(jìn)行,這個因?yàn)槊總€Node上的kube-proxy針對該Service都設(shè)置了相同的轉(zhuǎn)發(fā)規(guī)則。綜上所述,由于kube-proxy的作用,在Service的調(diào)用過程中客戶端無需關(guān)心后端有幾個Pod,中間過程的通信、負(fù)載均衡及故障恢復(fù)都是透明的,如下圖所示。Service的負(fù)載均衡轉(zhuǎn)發(fā)訪問Service的請求,不論是用Cluster IP+Target Port的方式,還是用節(jié)點(diǎn)機(jī)IP+Node
12、Port的方式,都會被節(jié)點(diǎn)機(jī)的Iptables規(guī)則重定向到kube-proxy監(jiān)聽Service服務(wù)代理端口。Kube-proxy接收到Service的訪問請求后,會如何選擇后端Pod?首先,目前kube-proxy的負(fù)載均衡只支持Round Robin算法。該算法按照成員列表逐個選取成員,如果一輪循環(huán)完,便從頭開始下一輪,如此循環(huán)往復(fù)。Kube-proxy的負(fù)載均衡器在Round Robin算法的基礎(chǔ)上還支持Session保持。如果Service在定義中指定了Session保持,則kube-proxy接收請求時會從本地內(nèi)存中查找是否存在來自該請求IP的affinityState對象,如果存在
13、該對象,且Session沒有超時,則kube-proxy將請求轉(zhuǎn)向該affinityState所指向的后端Pod。如果本地存在沒有來自該請求IP的affinityState對象,記錄請求的IP和指向的Endpoint。后面的請求就會粘連到這個創(chuàng)建好的affinityState對象上,這就實(shí)現(xiàn)了客戶端IP會話保持的功能。接下來我們深入分析kube-proxy的實(shí)現(xiàn)細(xì)節(jié)。kube-proxy進(jìn)程為每個Service都建立了一個“服務(wù)代理對象”,服務(wù)代理對象是kube-proxy程序內(nèi)部的一種數(shù)據(jù)結(jié)構(gòu),它包括一個用于監(jiān)聽此服務(wù)請求的Socket-Server,SocketServer的端口是隨機(jī)選擇
14、的一個本地空閑端口。此外,kube-proxy內(nèi)部也建立了一個“負(fù)載均衡器組件”,用來實(shí)現(xiàn)SocketServer上收到的連接到后端多個Pod連接之間的負(fù)載均衡和會話保持能力。kube-proxy通過查詢和監(jiān)聽API Server中Service與Endpoint的變化來實(shí)現(xiàn)其主要功能,包括為新創(chuàng)建的Service打開一個本地代理對象(代理對象是kube-proxy程序內(nèi)部的一種數(shù)據(jù)結(jié)構(gòu),一個Service端口是一個代理對象,包括一個用于監(jiān)聽的服務(wù)請求的SocketServer),接收請求,針對發(fā)生變化的Service列表,kube-proxy會逐個處理。下面是具體的處理流程:(1)如果該Se
15、rvice沒有設(shè)置集群IP(ClusterIP),則不做任何處理,否則,獲取該Service的所有端口定義列表(spec.ports域)(2)逐個讀取服務(wù)端口定義列表中的端口信息,根據(jù)端口名稱、Service名稱和Namespace判斷本地是否已經(jīng)存在對應(yīng)的服務(wù)代理對象,如果不存在就新建,如果存在且Service端口被修改過,則先刪除Iptables中和該Service相關(guān)的的規(guī)則,關(guān)閉服務(wù)代理對象,然后走新建流程,即為該Service端口分配服務(wù)代理對象并為該Service創(chuàng)建相關(guān)的Iptables規(guī)則。(3)更新負(fù)載均衡器組件中對應(yīng)Service的轉(zhuǎn)發(fā)地址表,對于新建的Service,確定
16、轉(zhuǎn)發(fā)時的會話保持策略。(4)對于已經(jīng)刪除的Service則進(jìn)行清理。Kube-proxy與APIServer的交互過程4. 外部到內(nèi)部的訪問Pod作為基本的資源對象,除了會被集群內(nèi)部的Pod訪問,也會被外部使用。服務(wù)是對一組功能相同Pod的抽象,以它為單位對外提供服務(wù)是最合適的粒度。由于Service對象在Cluster IP Range池中分配到的IP只能在內(nèi)部訪問,所以其他Pod都可以無障礙地訪問到它。但如果這個Service作為前端服務(wù),準(zhǔn)備為集群外的客戶端提供服務(wù),就需要外部能夠看到它。Kubernetes支持兩種對外服務(wù)的Service的Type定義:NodePort和LoadBal
17、ancer。(1)NodePort在定義Service時指定spec.type=NodePort,并指定spec.ports.nodePort的值,系統(tǒng)就會在Kubernetes集群中的每個Node上打開一個主機(jī)上的真實(shí)端口號。這樣,能夠訪問Node的客戶端就能通過這個端口號訪問到內(nèi)部的Service了。(2)LoadBalancer如果云服務(wù)商支持外接負(fù)載均衡器,則可以通過spec.type=LoadBalancer定義Service,同時需要指定負(fù)載均衡器的IP地址。使用這種類型需要指定Service的NodePort和ClusterIP。對于這個Service的訪問請求將會通過LoadB
18、alancer轉(zhuǎn)發(fā)到后端Pod上去,負(fù)載分發(fā)的實(shí)現(xiàn)方式依賴于云服務(wù)商提供的LoadBalancer的實(shí)現(xiàn)機(jī)制。(3)外部訪問內(nèi)部Service原理我們從集群外部訪問集群內(nèi)部,最終都是落在具體的Pod上。通過NodePort的方式就是將kube-proxy開放出去,利用Iptables為服務(wù)的NodePort設(shè)置規(guī)則,將對Service的訪問轉(zhuǎn)到kube-proxy上,這樣kube-proxy就可以使用和內(nèi)部Pod訪問服務(wù)一樣的方式來訪問后端的一組Pod了。這種模式就是利用kube-proxy作為負(fù)載均衡器,處理外部到服務(wù)進(jìn)一步到Pod的訪問。而更常用的是外部均衡器模式。通常的實(shí)現(xiàn)是使用一個外部
19、的負(fù)載均衡器,這些均衡器面向集群內(nèi)的所有節(jié)點(diǎn)。當(dāng)網(wǎng)絡(luò)流量發(fā)送到LoadBalancer地址時,它會識別出這是某個服務(wù)的一部分,然后路由到合適的后端Pod。所以從外面訪問內(nèi)部的Pod資源,就有了很多種不同的組合。外面沒有負(fù)載均衡器,直接訪問內(nèi)部的Pod外面沒有負(fù)載均衡器,直接通過訪問內(nèi)部的負(fù)載均衡器來訪問Pod外面有負(fù)載均衡器,通過外部負(fù)載均衡器直接訪問內(nèi)部的Pod外面有負(fù)載均衡器,通過訪問內(nèi)部的負(fù)載均衡器來訪問內(nèi)部的Pod第一種情況的場景十分少見,只是在特殊的時候才需要。我們在實(shí)際的生產(chǎn)項(xiàng)目中需要逐一訪問啟動的Pod,給它們發(fā)送一個刷新指令。只有這種情況下才使用這種方式。這需要開發(fā)額外的程序,
20、讀取Service下的Endpoint列表,逐一和這些Pod進(jìn)行通信。通常要避免這種通信方式,例如可以采取每個Pod從集中的數(shù)據(jù)源拉命令的方式,而不是采取推命令給它的方式來避免。因?yàn)榫唧w到每個Pod的啟停本來就是動態(tài)的,如果依賴了具體的Pod們就相當(dāng)于繞開了Kubernetes的Service機(jī)制,雖然能夠?qū)崿F(xiàn),但是不理想。第二種情況就是NodePort的方式,外部的應(yīng)用直接訪問Service的NodePort,并通過Kube-proxy這個負(fù)載均衡器訪問內(nèi)部的Pod。第三種情況是LoadBalancer模式,因?yàn)橥獠康腖oadBalancer是具備Kubernetes知識的負(fù)載均衡器,它會去
21、監(jiān)聽Service的創(chuàng)建,從而知曉后端的Pod啟停變化,所以它有能力和后端的Pod進(jìn)行通信。但是這里有個問題需要注意,那就是這個負(fù)載均衡器需要有辦法直接和Pod進(jìn)行通信。也就是說要求這個外部的負(fù)載均衡器使用和Pod到Pod一樣的通信機(jī)制。第四種情況也很少使用,因?yàn)樾枰?jīng)歷兩級的負(fù)載均衡設(shè)備,而且網(wǎng)絡(luò)的調(diào)用被兩次隨機(jī)負(fù)載均衡后,更難跟蹤了。在實(shí)際生產(chǎn)環(huán)境中出了問題排錯時,很難跟蹤網(wǎng)絡(luò)數(shù)據(jù)的流動過程。(4)外部硬件負(fù)載均衡器模式在很多實(shí)際的生產(chǎn)環(huán)境中,由于是在私有云環(huán)境中部署Kubernetes集群,所以傳統(tǒng)的負(fù)載均衡器都對Service無感知。實(shí)際上我們只需要解決兩個問題,就可以將它變成Serv
22、ice可感知的負(fù)載均衡器,這也是實(shí)際系統(tǒng)中理想的外部訪問Kubernetes集群內(nèi)部的模式。通過寫一個程序來監(jiān)聽Service的變化,將變化按照負(fù)載均衡器的通信接口,作為規(guī)則寫入負(fù)載均衡器。給負(fù)載均衡器提供直接訪問Pod的通信手段。如下圖,說明了這個過程。自定義外部負(fù)載均衡器訪問Service這里提供了一個Service Agent來實(shí)現(xiàn)Service變化的感知。該Agent能夠直接從etcd中或者通過接口調(diào)用API Server來監(jiān)控Service及Endpoint的變化,并將變化寫入外部的硬件負(fù)載均衡器中。同時,每臺Node上都運(yùn)行著有路由發(fā)現(xiàn)協(xié)議的軟件,該軟件負(fù)責(zé)將這個Node上所有的地址通過路由發(fā)現(xiàn)協(xié)議組播給網(wǎng)絡(luò)內(nèi)的其他主機(jī),當(dāng)然也包含硬件負(fù)載均衡器。這樣硬件負(fù)載均衡器就能知道每個Pod實(shí)例的IP地址是在哪臺Node上了。通過上述兩個步驟,就建立起一個基于硬件的外部可感知Service的負(fù)載均衡器。具體的案例,可以參見第五章的實(shí)踐部分。5.總結(jié)本章重點(diǎn)介紹了Kubernetes網(wǎng)絡(luò)的各種場景,包括容器之間、Pod之間、Pod到Service
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電池制液工操作管理評優(yōu)考核試卷含答案
- 景泰藍(lán)制作工崗前理論實(shí)操考核試卷含答案
- 茶葉精制工安全技能強(qiáng)化考核試卷含答案
- 稀土永磁材料工崗前操作能力考核試卷含答案
- 農(nóng)化技術(shù)員QC管理測試考核試卷含答案
- 酒店消防設(shè)備檢查維護(hù)制度
- 酒店客房鑰匙管理規(guī)范制度
- 超市商品銷售及數(shù)據(jù)分析制度
- 浩澤凈水機(jī)培訓(xùn)
- 流程培訓(xùn)教學(xué)
- 2025至2030中國飛機(jī)燃料電池行業(yè)項(xiàng)目調(diào)研及市場前景預(yù)測評估報告
- 園林綠化養(yǎng)護(hù)標(biāo)準(zhǔn)與作業(yè)流程說明
- 收購五金輔料店協(xié)議合同
- 噴砂車間管理辦法
- 梨狀肌綜合癥康復(fù)指導(dǎo)講課件
- 【SA8000標(biāo)準(zhǔn)(社會責(zé)任標(biāo)準(zhǔn))對我國勞動密集型產(chǎn)業(yè)的影響及應(yīng)對措施研究12000字(論文)】
- 醫(yī)療行業(yè)知識產(chǎn)權(quán)教育的必要性
- 工程搶險勞務(wù)合同協(xié)議
- 傳染病院感防控課件
- 7下英語單詞表人教版
- 涉密人員保密培訓(xùn)
評論
0/150
提交評論