版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、集群系統(tǒng)的管理與任務(wù)實(shí)驗(yàn)指導(dǎo)書XCAT簡(jiǎn)介一個(gè)普通的小規(guī)模集群系統(tǒng)(節(jié)點(diǎn)小于10)在沒有集群管理軟件進(jìn)行管理的情況下,通過手動(dòng)安裝、配置每臺(tái)計(jì)算節(jié)點(diǎn),其工作量的多少是可想而知的,以一個(gè)包含10個(gè)節(jié)點(diǎn)的集群系統(tǒng)為例,在每一臺(tái)計(jì)算節(jié)點(diǎn)上安裝操作系統(tǒng)、配置并行計(jì)算機(jī)環(huán)境、同步集群用戶,在保證不出錯(cuò)的情況下,花費(fèi)的時(shí)間大約是兩個(gè)小時(shí),10個(gè)計(jì)算節(jié)點(diǎn)一共需要20個(gè)小時(shí)左右,這還是一個(gè)比較小的集群系統(tǒng),如果像石油勘探、天氣預(yù)報(bào)等使用的動(dòng)輒幾百個(gè)節(jié)點(diǎn)的集群系統(tǒng),照這種方法逐個(gè)配置計(jì)算節(jié)點(diǎn),雖然耗費(fèi)的時(shí)間太多,而且要重啟計(jì)算節(jié)點(diǎn)也必須逐個(gè)進(jìn)行,操作極其繁瑣,因此需要集群管理軟件來管理集群系統(tǒng),提高工作效率。X
2、CAT(Extreme Cluster Administration Toolkit)是由大型計(jì)算設(shè)備提供商IBM開發(fā)的一套集群管理套件,在IBM的刀片箱上集成了一個(gè)KVM的硬件模塊,該模塊控制著箱內(nèi)的所有刀片,包括電源開關(guān)、啟動(dòng)順序等,XCAT可以控制KVM模塊,用戶可以通過該套件實(shí)現(xiàn)集群計(jì)算節(jié)點(diǎn)的管理,使得集群管理更容易,用戶只需要安裝好管理節(jié)點(diǎn),配置好XCAT的相關(guān)參數(shù),就可以通過XCAT控制計(jì)算節(jié)點(diǎn)的安裝(使用PXE網(wǎng)絡(luò)啟動(dòng)和KickStart),配置、重啟等操作,特別是使用XCAT安裝計(jì)算節(jié)點(diǎn),在管理節(jié)點(diǎn)上設(shè)置安裝源以后,運(yùn)行發(fā)送命令,計(jì)算節(jié)點(diǎn)就會(huì)自動(dòng)從管理節(jié)點(diǎn)同步安裝文件,自動(dòng)將管
3、理員設(shè)置好的軟件包等安裝到計(jì)算節(jié)點(diǎn)上,無需管理員諸葛安裝和配置每臺(tái)計(jì)算節(jié)點(diǎn),為集群管理員節(jié)省了大量時(shí)間。XCAT的配置XCAT能幫助管理員有效地管理集群,避免了手動(dòng)管理每一個(gè)集群計(jì)算節(jié)點(diǎn)的麻煩。只需要載管理節(jié)點(diǎn)上安裝和配置好XCAT的運(yùn)行環(huán)境,就能使集群的管理更加簡(jiǎn)單,接下來介紹XCAT的安裝與配置。XCAT安裝的前提條件管理節(jié)點(diǎn)上至少要有兩個(gè)網(wǎng)卡,一個(gè)對(duì)內(nèi)部的計(jì)算節(jié)點(diǎn)進(jìn)行管理,一個(gè)對(duì)外提供計(jì)算應(yīng)用。除此之外,還需要如下4個(gè)XCAT的軟件包。xcat-dist-core-1 . 2 . 0-RC3.tgzxcat-dist-doc-1 . 2 . 0-RC3.tgzxcat-dist-ibm-
4、1 . 2 . 0-RC3.tgzxcat-dist-oss-1 . 2 . 0-RC3.tgz安裝XCAT解壓縮前面列出的XCAT必須的4個(gè)軟件包,如果將這4個(gè)軟件包解壓到/opt/xcat 目錄下則運(yùn)行如下命令。rootmanager#tar-xzvpf xcat-dist-core-1 .2 .0-RC2.tgz-C /opt/xcatrootmanager#tar-xzvpf xcat-dist-oss-1 . 2 . 0-RC2.tgz-C /opt/xcatrootmanager#tar-xzvpf xcat-dist-ibm-1 . 2 . 0-RC2.tgz-C /opt/xc
5、atrootmanager#tar-xzvpf xcat-dist-doc-1 . 2 . 0-RC2.tgz-C /opt/xcat安裝包解壓完成后,會(huì)在/opt/xcat 中生成安裝腳本setupxcat,載生成的文件夾中進(jìn)行XCAT的首次安裝。 HYPERLINK mailto:rootmanager#./setupxcat rootmanager#./setupxcat配置網(wǎng)絡(luò)時(shí)間同步服務(wù)器(NTP)。設(shè)置NTP的目的是為了使集群中的計(jì)算節(jié)點(diǎn)能自動(dòng)管理節(jié)點(diǎn)上同步時(shí)間,避免了手動(dòng)修改每臺(tái)計(jì)算節(jié)點(diǎn)造成的時(shí)間不統(tǒng)一的問題,首先我們載管理節(jié)點(diǎn)上設(shè)置好NTP服務(wù)器端,編輯/etc/ntp.con
6、f配置文件,載文件中輸入如下內(nèi)容。#vi /etc/ntp.confserver server fudge stratum 10driftfile /var/lib/ntp/drift編輯ntp.conf完成后,需要載服務(wù)器開啟NTP服務(wù),使系統(tǒng)自動(dòng)的時(shí)候自動(dòng)加載NTP服務(wù),命令如下。#chkconfig -level 345 ntpd on定義集群XCAT對(duì)計(jì)算節(jié)點(diǎn)的管理主要依靠集群設(shè)備中硬件的定義信息表,這個(gè)表由管理員載集群管理節(jié)點(diǎn)上配置,表2-1列出了常用的幾個(gè)表名及用途。表2-1 XCAT中的表 表 名用 途site.tabxCAT住配置表,集群的全局定義表,是整個(gè)XCAT中最重要的一
7、個(gè)表,它定義了rsh路徑、rcp路徑、安裝計(jì)算節(jié)點(diǎn)需要的tftp目錄、集群的域名解析服務(wù)器地址、管理節(jié)點(diǎn)的名稱、使用的作業(yè)管理系統(tǒng)名稱、資源調(diào)度器名稱等nodehm.tabXCAT的計(jì)算節(jié)點(diǎn)硬件管理表,記錄了節(jié)點(diǎn)名稱、高級(jí)系統(tǒng)管理適配器、電源類型、終端類型等硬件信息Nodelist.tab定義集群中多有節(jié)點(diǎn)的名稱、節(jié)點(diǎn)從屬組、運(yùn)行狀態(tài)等Nodepos.tab記錄了每個(gè)節(jié)點(diǎn)所安放的物理位置noderes.tab定義節(jié)點(diǎn)組名稱、節(jié)點(diǎn)的啟動(dòng)方式、tftp服務(wù)器IP地址、nfs服務(wù)器IP地址、安裝啟動(dòng)的網(wǎng)卡設(shè)備名稱等Nodetype.tab定義節(jié)點(diǎn)的系統(tǒng)類型、構(gòu)架,使用的鏡像類型及從屬的組名稱pass
8、wd.tab定義各種管理設(shè)備使用的用戶及密碼postscripts.tab定義kickstar等安裝結(jié)束后配置節(jié)點(diǎn)的相關(guān)腳本Postdeps.tab定義postscripts中腳本的相互依存關(guān)系Networks.tab定義節(jié)點(diǎn)所使用的網(wǎng)段、掩碼、網(wǎng)關(guān)、DNS信息conserver.tab定義節(jié)點(diǎn)通過何種方式轉(zhuǎn)發(fā)console信息mp.tab定義節(jié)點(diǎn)的管理設(shè)備及在插槽的位置mpa.tab定義管理設(shè)置的類型及使用何種方式進(jìn)行管理等定義好XCAT 管理集群的表以后,就可以在系統(tǒng)管理節(jié)點(diǎn)上創(chuàng)建DNS服務(wù)、收集計(jì)算節(jié)點(diǎn)的MAC地址、創(chuàng)建DHCP服務(wù)等,按照傳統(tǒng)的方式配置這些服務(wù),不僅需要管理員非常熟悉D
9、NS、DHCP服務(wù)器等的配置,還非常容易載配置中出現(xiàn)錯(cuò)誤。XCAT已經(jīng)為管理員簡(jiǎn)化了這方面的配置,剩下的事情就交由XCAT自動(dòng)執(zhí)行安裝配置,不僅簡(jiǎn)化了操作,還節(jié)約了時(shí)間,同時(shí)在保證所有表配置信息不出錯(cuò)的情況下,XCAT能將這些服務(wù)器安裝、配置正確。下面分別給出了創(chuàng)建DNS、收集MAC地址信息、創(chuàng)建DHCP服務(wù)的命令。創(chuàng)建DNS服務(wù)。#makedns收集所有計(jì)算節(jié)點(diǎn)的MAC地址信息至mac.tab。#getmacs compute創(chuàng)建DHCP服務(wù)。#makedhcp -new -allmac第二次運(yùn)行setupxcat,完成CAT的安裝。#. /setupxcat使用XCAT安裝計(jì)算節(jié)點(diǎn)XCAT
10、配置完成后,就可以通過XCAT安裝計(jì)算節(jié)點(diǎn)了,在安裝計(jì)算節(jié)點(diǎn)前,還需要設(shè)置系統(tǒng)安裝鏡像及NFS、TFTP服務(wù)等。首先要利用Linux的安裝光盤建立安裝計(jì)算節(jié)點(diǎn)需要的操縱系統(tǒng)下載源,這樣當(dāng)所有的計(jì)算節(jié)點(diǎn)來時(shí)安裝系統(tǒng)時(shí)會(huì)自動(dòng)到管理節(jié)點(diǎn)上下載安裝包到本地執(zhí)行安裝。這需要在管理節(jié)點(diǎn)上打開TFTP服務(wù),XCAT整合了這些繁瑣的操作,只需要運(yùn)行一個(gè)命令copycds就可以實(shí)現(xiàn),運(yùn)行完這個(gè)命令后,會(huì)在根目錄下生成install文件夾,在這個(gè)文件夾下生成系統(tǒng)的安裝源文件,以64位的Red Hat Enterprise Linux 為例,生成目錄為/install/rhel-SERVER5.3/x86_64,拷
11、貝安裝源文件這個(gè)過程會(huì)耗費(fèi)約10分鐘,具體時(shí)間根據(jù)管理節(jié)點(diǎn)的性能而有差異??截愅臧惭b源文件,接下來再?gòu)?fù)制XCAT目錄下保存的系統(tǒng)安裝完成后額外需要安裝的軟件,命令如下。#cd /opt/xcat#find post -print | cpio -dump /install安裝源和額外安裝的軟件配置完成后,需要建立計(jì)算節(jié)點(diǎn)啟動(dòng)的鏡像文件,以便于計(jì)算節(jié)點(diǎn)從網(wǎng)卡啟動(dòng)時(shí),自動(dòng)從管理節(jié)點(diǎn)上下載啟動(dòng)鏡像文件,命令如下。#cd /opt/xcat/stage#./mkstage完成上面的設(shè)置以后,為確保XCAT正??刂朴?jì)算節(jié)點(diǎn),可以先進(jìn)行電源管理命令的測(cè)試,以查看XCAT是否正常檢測(cè)計(jì)算節(jié)點(diǎn)的狀態(tài),在管理節(jié)
12、點(diǎn)的終端輸入如下命令。#rpower compute stat若返回如下計(jì)算節(jié)點(diǎn)的狀態(tài)信息,則表示XCAT已能正??刂朴?jì)算節(jié)點(diǎn),否則應(yīng)根據(jù)錯(cuò)誤提示,重新配置XCAT。Bc1n1: onBc1n2: onBc1n3: onBc1n4: on.Bc1n12: onBc1n13: onBc1n14: on當(dāng)XCAT所有的配置完成以后,接下來要進(jìn)行計(jì)算節(jié)點(diǎn)的系統(tǒng)安裝,采用XCAT來安裝計(jì)算節(jié)點(diǎn)不僅能節(jié)省大量的時(shí)間,而且所有的計(jì)算節(jié)點(diǎn)的環(huán)境都是一樣的,XCAT安裝計(jì)算節(jié)點(diǎn)非常簡(jiǎn)單,只需要運(yùn)行幾個(gè)命令即可。剩下的事繳費(fèi)XCAT處理就可以了,首先要通過XCAT設(shè)置計(jì)算節(jié)點(diǎn)的啟動(dòng)順序,由于計(jì)算節(jié)點(diǎn)是采用網(wǎng)卡引
13、導(dǎo)安裝的,因此需要將網(wǎng)卡的啟動(dòng)順序設(shè)置在最前面,命令如下。#rbootseq compute n,c,f,h該命令的作用是設(shè)置計(jì)算節(jié)點(diǎn)的啟動(dòng)順序?yàn)閚etwork、cdrom、floppy、harddisk。接下來執(zhí)行節(jié)點(diǎn)的安裝命令。#nodeset blade install其中blade為計(jì)算節(jié)點(diǎn)所屬的組,安裝的目標(biāo)為blade組中所有的計(jì)算節(jié)點(diǎn),也可以用范圍來表示,如要安裝bc1n1至bc1n14的計(jì)算節(jié)點(diǎn),可以用命令nodeset bc1n1-bc1n14 install,執(zhí)行完nodeset命令后,XCAT中的nodeset表的狀態(tài)會(huì)發(fā)生改變,只要重啟計(jì)算節(jié)點(diǎn),從網(wǎng)卡啟動(dòng)計(jì)算節(jié)點(diǎn),就可
14、以開始計(jì)算節(jié)點(diǎn)的安裝,可以用tabdump nodeset命令來查看該狀態(tài),表中的內(nèi)容如下。#node,groups,status,appstatus,comments,disableunknown,compute,mm,maths,blade,all ,1bc1,mm,all,alive,bc1n8,compute,blade,all ,installing,bc1n4,compute,maths,blade,all ,installing,bc1n7,compute,blade,all ,installing,bc1n12,compute,blade,all ,installing,bc1
15、n2,compute,maths,blade,all ,installing,bc1n14,compute,blade,all ,installing,bc1n9,compute,blade,all ,installing,bc1n13,compute,blade,all ,installing,bc1n1,compute,blade,all ,installing,bc1n6,compute,blade,all ,installing,bc1n10,compute,blade,all ,installing,bc1n3,compute,maths,blade,all ,installing,
16、bc1n5,compute,maths,blade,all ,installing,bc1n11,compute,blade,all ,installing,然后重新啟動(dòng)所有的計(jì)算節(jié)點(diǎn),剩下的工作就是等待XCAT控制所有計(jì)算節(jié)點(diǎn)完成系統(tǒng)的安裝,重啟計(jì)算節(jié)點(diǎn)的命令如下。#rpower blade reset安裝完所有節(jié)點(diǎn)以后,需要配置管理節(jié)點(diǎn)上的資源,包括生成SSH密鑰、建立NFS服務(wù)等,具體步驟如下。生成root的SSH keys。#gensshkeys root在/opt/xcat/etc/下將生成一個(gè)gkh文件更新/etc/exports文件。#vi /etc/exports/opt/xc
17、at *(ro,no_root_squash,sync)/usr/local *(ro,no_root_squash,sync)/install *(ro,async,no_root_squash)/home *(rw,no_root_squash,sync)啟動(dòng)NFS服務(wù)或使用exportfs。#service nfs start或#exportfs-rvexporting *:/xcatdata/installexporting *:/xcatdata/localexporting *:/xcatdata/homeexporting *:/xcatdata/xcat安裝結(jié)束后,收集SSH
18、host keys。#makesshgkh compute測(cè)試psh,查看各節(jié)點(diǎn)時(shí)間是否正常。#psh compute date; date使用XCAT管理計(jì)算節(jié)點(diǎn)XCAT安裝配置完成計(jì)算節(jié)點(diǎn)的安裝后,需要添加集群的用戶,與單獨(dú)的服務(wù)器不同,這不僅需要在管理節(jié)點(diǎn)上建立集群用戶,管理節(jié)點(diǎn)上的用戶還必需在計(jì)算節(jié)點(diǎn)上存儲(chǔ)一份鏡像,以便于集群用戶能使用所有的節(jié)點(diǎn)。首先在管理節(jié)點(diǎn)添加集群用戶和用戶組。root# groupadd ibmroot# addclusteruserEnter username: hpcuserEnter group: hpcuserEnter UID (return for
19、next): 501Enter absolute home directory root: /homeEnter passed (blank for random): redbookChanging password for user ibm.passwd: all authentication tokens updated successfully.在集群管理節(jié)點(diǎn)上完成了用戶和組的建立,然后將所有集群用戶同步到所有計(jì)算機(jī)節(jié)點(diǎn)上,利用命令pushuser執(zhí)行。root# pushuser all hpcuser在沒有安裝XCAT的集群上,計(jì)算節(jié)點(diǎn)間的文件拷貝是比較費(fèi)力的,必須重復(fù)地使用scp命令拷貝文件到各個(gè)計(jì)算節(jié)點(diǎn)上,雖然可以使用腳本編程語言用循環(huán)實(shí)現(xiàn),但其工作量也不小,另外,有些需要在每個(gè)計(jì)算節(jié)點(diǎn)上依次執(zhí)行的命令,如果按照傳統(tǒng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年法學(xué)專業(yè)基礎(chǔ)理論及案例分析題庫
- 2026中國(guó)科學(xué)院機(jī)關(guān)招聘應(yīng)屆畢業(yè)生5人備考題庫完整參考答案詳解
- 2025云南紅河州開遠(yuǎn)市衛(wèi)生健康局招聘1人備考題庫有完整答案詳解
- 2026內(nèi)蒙古鄂爾多斯市東勝區(qū)天安職業(yè)培訓(xùn)學(xué)校招聘8人備考題庫有答案詳解
- 2026中國(guó)中元國(guó)際工程有限公司安全城市研究院黃曉家工作室招聘?jìng)淇碱}庫及一套答案詳解
- 2026上半年安徽事業(yè)單位聯(lián)考黃山市休寧縣招聘30人備考題庫參考答案詳解
- 2026山東事業(yè)單位統(tǒng)考省文物考古研究院招聘初級(jí)綜合類崗位2人備考題庫及完整答案詳解
- 2025江蘇常州經(jīng)濟(jì)開發(fā)區(qū)人民檢察院招聘3名司法警察輔助人員備考題庫及答案詳解(新)
- 2026交通運(yùn)輸部所屬事業(yè)單位第四批統(tǒng)考招聘?jìng)淇碱}庫及答案詳解1套
- 2026廣東南粵銀行總行部門分行相關(guān)崗位招聘?jìng)淇碱}庫及1套參考答案詳解
- 反詐宣傳講座課件
- 學(xué)生計(jì)算錯(cuò)誤原因分析及對(duì)策
- DB32T 4398-2022《建筑物掏土糾偏技術(shù)標(biāo)準(zhǔn)》
- (精確版)消防工程施工進(jìn)度表
- 送貨單格式模板
- 防止激情違紀(jì)和犯罪授課講義
- XX少兒棋院加盟協(xié)議
- 五年級(jí)數(shù)學(xué)應(yīng)用題專題訓(xùn)練50題
- 2021年四川省資陽市中考數(shù)學(xué)試卷
- 河南省鄭氏中原纖維素有限公司年產(chǎn) 0.2 萬噸預(yù)糊化淀粉、0.5 萬噸羧甲基纖維素鈉、1.3 萬噸羧甲基淀粉鈉項(xiàng)目環(huán)境影響報(bào)告
- 高處作業(yè)安全培訓(xùn)課件
評(píng)論
0/150
提交評(píng)論