浪潮天梭系統(tǒng)集群培訓(xùn)資料PPT學(xué)習(xí)課件_第1頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料PPT學(xué)習(xí)課件_第2頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料PPT學(xué)習(xí)課件_第3頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料PPT學(xué)習(xí)課件_第4頁(yè)
浪潮天梭系統(tǒng)集群培訓(xùn)資料PPT學(xué)習(xí)課件_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、浪潮天梭TS10K集群培訓(xùn),7/2/2020,Inspur group,一、什么是集群?,“聯(lián)結(jié)起來(lái)的計(jì)算機(jī)的集合,整個(gè)系統(tǒng)使用起來(lái)像一個(gè)單一的一體的計(jì)算資源” - Greg Pfister, In Search of clusters,二、為什么用集群?,通俗的說(shuō),就是單一計(jì)算節(jié)點(diǎn)的資源已經(jīng)無(wú)法滿足我們的計(jì)算需求,比如內(nèi)存的容量,cpu的計(jì)算能力。也許一個(gè)算例我們要計(jì)算數(shù)周甚至數(shù)月,這時(shí)候我們就需要用到集群來(lái)處理這些計(jì)算問(wèn)題。,三、集群有哪些部分組成?,計(jì)算節(jié)點(diǎn):承載集群的計(jì)算任務(wù) 管理節(jié)點(diǎn):用戶登錄、管理調(diào)度整個(gè)集群、任務(wù)提交等,提供對(duì)整個(gè)系統(tǒng)的監(jiān)控管理 存儲(chǔ)節(jié)點(diǎn):存儲(chǔ)大量的計(jì)算數(shù)據(jù),高可

2、用,高安全,硬件架構(gòu),網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)規(guī)劃,管理ip:00管理節(jié)點(diǎn) 31計(jì)算節(jié)點(diǎn) 235 io節(jié)點(diǎn) 計(jì)算 ip:10.10.10段,尾數(shù)同上 IPMI網(wǎng)絡(luò):00管理節(jié)點(diǎn) 01104 io節(jié)點(diǎn) 00 第一個(gè)刀箱,對(duì)應(yīng)101120,cu01cu20 00 第二個(gè)刀箱,對(duì)應(yīng)101121,cu21cu31,7/2/2020,Inspur group,需要的條件:,1、客戶端與集群連通 2、客戶端如果為linux可以直接ssh登錄到管理節(jié)點(diǎn);如果為window

3、s系統(tǒng),需要安裝相應(yīng)軟件 3、一個(gè)合法賬號(hào)! 4、相應(yīng)操作知識(shí)積累,并行環(huán)境搭建,Linux集群并行環(huán)境主要配置以下4個(gè)服務(wù) 1、rsh服務(wù) 通訊服務(wù) 2、ssh服務(wù) 通訊服務(wù) 3、nfs服務(wù) 目錄共享 4、nis服務(wù) 用戶同步,并行環(huán)境搭建-rsh服務(wù)配置,rsh服務(wù)配置 開(kāi)啟root用戶對(duì)所有節(jié)點(diǎn)的rsh權(quán)限 1、編輯/etc/hosts節(jié)點(diǎn)名稱解析,加入所有(包括本機(jī))節(jié)點(diǎn)的ip地址和對(duì)應(yīng)的計(jì)算機(jī)名; 此文件在一臺(tái)機(jī)器上編輯完畢可以拷貝到別的節(jié)點(diǎn)上使用;注意這一行不要?jiǎng)?,否則會(huì)影響到服務(wù)器的正常使用。 例如: 00 mu01 c

4、u01 0 cu10,并行環(huán)境搭建-rsh服務(wù)配置,2、編輯/root/.rhosts和/etc/hosts.equiv,加入所有節(jié)點(diǎn)的計(jì)算機(jī)名 例如: mu01 cu01 cu10 3、開(kāi)啟rsh服務(wù):setupsystem services*rsh*rlogin*rexec,并行環(huán)境搭建-rsh服務(wù)配置,4、編輯/etc/securetty,加入rsh,rexec,rlogin(在文件后面添加就可以) 5、重起服務(wù)service xinetd restart rsh的配置需要在所有節(jié)點(diǎn)上進(jìn)行。,并行環(huán)境搭建-ssh服務(wù)配置,1、在mu01上以root登錄,然后運(yùn)行ssh

5、-keygen t dsa,目的是簡(jiǎn)單的在 /root下創(chuàng)建目錄.ssh,當(dāng)提示輸入passphase時(shí)打入兩次回車。這將生成/root/.ssh/id_dsa和/root/.ssh/id_dsa.pub 2、在cu01上以root登錄,運(yùn)行ssh-keygen t dsa,然后在mu01上運(yùn)行scp /root/.ssh/ id_dsa.pub gpu01:/root/.ssh/authorized_keys,在cu01的/root/.ssh/目錄下運(yùn)行cat id_dsa.pub authorized_keys,再運(yùn)行scp authorized_keys gpu02:/root/.ssh

6、/,并行環(huán)境搭建-ssh服務(wù)配置,3、在cu02的/root/.ssh/目錄下運(yùn)行cat id_dsa.pub authorized_keys,再運(yùn)行scp authorized_keys cu03:/root/.ssh/ 4、重復(fù)以上步驟在后面結(jié)點(diǎn)上,在最后的計(jì)算節(jié)點(diǎn)上將生成一個(gè)完整的authorized_keys文件,然后把a(bǔ)uthorized_keys文件用scp命令拷貝到其余所有節(jié)點(diǎn)的/root/.ssh/目錄下,ssh配置完成。,并行環(huán)境搭建-nfs服務(wù)配置,server端配置 1、建立文件/etc/exports(若已存在該文件,則先刪除再重新建立) 2、vi /etc/expor

7、ts/,在文件內(nèi)添加上語(yǔ)句: /home *(rw,no_root_squash,sync) /opt*(rw,no_root_squash,sync) (目錄為需要共享的目錄,目錄和星號(hào)之間有空格。) 3、激活nfs chkconfig nfs on service nfs restart 此時(shí)可以到client上用showmount e IP(或者server的主機(jī)名)來(lái)掃描server端共享的目錄。若exports文件重新編輯了,可以運(yùn)行exportfs rv來(lái)更新一下,這樣client端就可以掛載修改后的目錄了。,并行環(huán)境搭建-nfs服務(wù)配置,client端配置 1、掃描可以使用的se

8、rver目錄:showmount e mu01 2、使用mount將遠(yuǎn)程主機(jī)分享的目錄掛載進(jìn)來(lái): mount t nfs vers=3 mu01:/opt /opt 此時(shí)可以通過(guò)df命令看掛載是否正常; 為了實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)掛載還可將 mount t nfs vers=3 mu01:/opt /opt 寫(xiě)入到/etc/rc.local中以使節(jié)點(diǎn)啟動(dòng)后自動(dòng)掛載目錄。,并行環(huán)境搭建-nis服務(wù)配置,server端配置 1、配置NIS域名 nisdomainname TS10K 把NISDOMAIN=TS10K添加到network里 實(shí)現(xiàn)開(kāi)機(jī)自動(dòng)配置域名 2、開(kāi)啟兩個(gè)服務(wù): service yppass

9、wdd start service ypserv start(需要先配置NIS域名才能啟動(dòng)成功) 可以使用rpcinfo u 本機(jī)名 ypserv 察看ypserv是否啟動(dòng),若成功啟動(dòng)會(huì)看到: program 100004 version 1 ready and waiting program 100004 version 2 ready and waiting,并行環(huán)境搭建-nis服務(wù)配置,若沒(méi)看到,則把ypserv重新啟動(dòng)一下即可。 回車后會(huì)顯示類似內(nèi)容:mu01 has been set up as a NIS server ,now you can run ypinit s mu01

10、on all slave server. 在server端重新建立新用戶后,需要到/var/yp 目錄下make一下,這樣client端才能使用新用戶登錄 3、數(shù)據(jù)初始化 cd /usr/lib64/yp ./ypinit m ctl+d來(lái)結(jié)束這個(gè)命令 再打入回車,并行環(huán)境搭建-nis服務(wù)配置,client端配置 1、設(shè)定NIS client setupauthentication configuration*use NIS 填寫(xiě):Domain:TS10K (NIS的域名) Server: mu01 (server端的名稱或者ip) 2、開(kāi)啟服務(wù) setupsystem services*yp

11、bind service ypbind restart 使用命令:ypcat passwd 可以發(fā)現(xiàn)在server端建立的帳戶名稱被列舉了出來(lái);若使用這些帳戶的話需要在本地/home目錄下建立其相對(duì)應(yīng)的用戶目錄。,編譯環(huán)境,集群中現(xiàn)存的編譯器 gcc icc ifort mpicc mpiicc等 調(diào)用集群內(nèi)部高速的IB計(jì)算網(wǎng)絡(luò),通常使用 mpirun -genv I_MPI_DEVICE rdssm np machinefile +執(zhí)行文件 rdssm即是mpirun編譯器調(diào)用IB協(xié)議的參數(shù)。 如果是ssm,則是使用以太網(wǎng)絡(luò)。,編譯軟件,安裝intel C編譯器,fortran編譯器,mkl

12、數(shù)學(xué)庫(kù)一體包。 安裝intel mpi編譯器。 安裝目錄:/opt/intel 計(jì)算節(jié)點(diǎn)掛載管理節(jié)點(diǎn)的nfs共享安裝路徑調(diào)用編譯軟件等。,編譯軟件-Intel 并行環(huán)境變量設(shè)置,在/.bashrc里加入如下三行 source /opt/intel/composer_xe_2015.1.133/bin/compilervars.sh intel64 #intel編譯器 source /opt/intel/mkl/bin/intel64/mklvars_intel64.sh #intel數(shù)學(xué)庫(kù) source /opt/intel/impi/44/bin64/mpivars.sh #i

13、ntel mpi 執(zhí)行source /.bashrc使編譯器環(huán)境變量生效。 可將它寫(xiě)進(jìn)/etc/bashrc里,新加用戶將其作為默認(rèn)編譯器,MPI程序的并行編譯,編譯方法: mpicc -o hello hello.c mpiicc o hello hello.c 執(zhí)行方法: ./hello 注:1,mpicc是調(diào)用gcc為底層 的編譯,mpiicc是調(diào)用icc為底層的編譯。 2,源代碼需支持并行編譯。,程序編譯步驟簡(jiǎn)介 下載源碼包(不是版本越新越好) 查看INSTALL文件或官方installation指導(dǎo)(查看依賴和參數(shù)) configure -prefix=path/to/your/so

14、ft (可選) make make install 依賴庫(kù) 1. 查看版本 2. 指定安裝路徑 3. 設(shè)置環(huán)境變量 寫(xiě)到 /.bash_profile (普通用戶) export PATH=$PATH:/path/to/your/bin export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/path/to/your/lib,軟件編譯,TSExa并行文件系統(tǒng),底層為lustre并行系統(tǒng),包含4臺(tái)2U機(jī)架式5270M4,其中兩臺(tái)io01,io02做為mds雙機(jī)互備節(jié)點(diǎn),另外兩臺(tái)io節(jié)點(diǎn)作為oss節(jié)點(diǎn),各自掛載一部分存儲(chǔ)空間分別為ost0,ost1,且為雙機(jī)互備。 Mdt

15、包含兩塊硬盤做raid1;ost包含7塊硬盤做raid5,剩下一塊全局熱備盤,共計(jì)17塊硬盤。 每個(gè)ost約22T空間,共約44T空間。,TSExa并行文件系統(tǒng),Io01與io02存在心跳,io03與io04之間存在心跳,當(dāng)一節(jié)點(diǎn)宕機(jī)時(shí),另一互備節(jié)點(diǎn)會(huì)接替其掛載資源并提供服務(wù)。 管理節(jié)點(diǎn)mu01,及31臺(tái)計(jì)算刀片為lustre的客戶端,掛載目錄為/lustre即為存儲(chǔ)空間,可用df h查看。 掛載指令mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustre,TSCE集群作業(yè)管理調(diào)度軟件,TSCE集群作業(yè)管理調(diào)度軟件常用作業(yè)指令 qnodes,pbsn

16、odes用于查看當(dāng)前可用節(jié)點(diǎn)與核心數(shù)。,TSCE集群作業(yè)管理調(diào)度軟件,qnodes與pbsnodes等效,通??梢詑nodes l all查看節(jié)點(diǎn)是否就位,qsub作業(yè)提交,用法:qsub test.pbs qstat查看作業(yè)狀態(tài)。 qstat an查看作業(yè)使用節(jié)點(diǎn)及核心情況,TSCE集群作業(yè)管理調(diào)度軟件,qdel刪除作業(yè),用法:qdel 作業(yè)號(hào) 幾種作業(yè)的狀態(tài)(S): Q 作業(yè)排隊(duì) R 作業(yè)執(zhí)行 C 作業(yè)清除 E 作業(yè)退出,TSCE集群作業(yè)管理調(diào)度軟件,PBS相關(guān)指令,管理節(jié)點(diǎn)服務(wù): pbs_server,作業(yè)管理服務(wù) maui,作業(yè)調(diào)度器 計(jì)算節(jié)點(diǎn)服務(wù): pbs_mom,作業(yè)調(diào)度子服務(wù),與

17、pbs_server相對(duì)應(yīng) service pbs_server status查看服務(wù)狀態(tài)。 每次重啟pbs_server服務(wù)時(shí),需對(duì)應(yīng)重啟pbs_mom服務(wù),最終保證qnodes下沒(méi)有down的節(jié)點(diǎn)。,所裝軟件版本,intel parallel 2015.1.133 /opt/intel intel 編譯器 Intel mpi 44 /opt/intel/impi/ intel并行mpi TSCE 3.3 /opt/tsce 浪潮作業(yè)調(diào)度軟件,集成torque ansys 14.0 /opt/soft/ansys 應(yīng)用軟件 pdsh 2.29 /opt/pdsh-2.2.29

18、并行批處理軟件 mpich 3.0.4 /opt/soft/mpich3.0.4 編譯器 所有節(jié)點(diǎn)操作系統(tǒng) RHEL 6.5,Vasp腳本,#PBS -N vasptest #PBS -l nodes=3:ppn=12 #PBS -l walltime=12:00:00 #PBS -q batch #PBS -V #PBS -S /bin/bash cd $PBS_O_WORKDIR EXEC=/opt/software/vasp5.3.5/vasp(具體目錄視情況而定),NP=cat $PBS_NODEFILE | wc -l NN=cat $PBS_NODEFILE | sort | un

19、iq | tee /tmp/nodes.$ | wc -l cat $PBS_NODEFILE /tmp/nodefile.$ mpirun -genv I_MPI_DEVICE rdssm -machinefile /tmp/nodefile.$ -n $NP $EXEC rm -f /tmp/nodefile.$,TSCE網(wǎng)頁(yè)管理界面,遠(yuǎn)端輸入登陸ip:8080/TSCE可調(diào)出TSCE的網(wǎng)頁(yè)管理界面,TSCE網(wǎng)頁(yè)管理界面,主界面,TSCE網(wǎng)頁(yè)管理界面,TSCE網(wǎng)頁(yè)最主要的功能集群監(jiān)控,7/2/2020,Inspur group,集群批處理軟件使用,pdsh是集群常用并行批處理軟件 root

20、mu01 test# pdsh w cu01-31 uptime allc串行處理,機(jī)器開(kāi)機(jī)說(shuō)明,1 將所有PDU加電,等待1分鐘,待設(shè)備完成加電自檢。 2 開(kāi)啟存儲(chǔ)陣列,需要先開(kāi)擴(kuò)展柜,再開(kāi)主柜,直接打開(kāi)電源即可。(若如掉電,存儲(chǔ)盡量保持開(kāi)機(jī)狀態(tài)) 3 開(kāi)啟管理節(jié)點(diǎn)mu01,約兩分鐘進(jìn)入系統(tǒng)。 4 開(kāi)啟TSExa系統(tǒng)元數(shù)據(jù)節(jié)點(diǎn),即 io01與io02,約兩分鐘進(jìn)入系統(tǒng),進(jìn)系統(tǒng)后,執(zhí)行crm_mon檢查互備是否正常,如果不正常需要重啟pacemaker和corosync服務(wù)。 5 開(kāi)啟oss節(jié)點(diǎn),打開(kāi)io03與io04,約兩分鐘進(jìn)入系統(tǒng),判斷互備是否正常。 6 待io節(jié)點(diǎn)都開(kāi)機(jī)后正常后,依次打

21、開(kāi)31個(gè)刀片計(jì)算節(jié)點(diǎn)。 7 mu01掛載并行文件系統(tǒng)。 常規(guī)檢查: rootmu01 #mount.lustre ibio01o2ib,ibio02o2ib:/lustre /lustre rootmu01 # allc uptime rootmu01 # allc “df h|grep /opt” rootmu01 #allc “df h|grep /home” rootmu01 #allc “ypcat passwd” rootmu01 #qnodes -l all,機(jī)器關(guān)機(jī)說(shuō)明,1先關(guān)閉cu計(jì)算節(jié)點(diǎn) 可以在mu01上用allc poweroff命令把31個(gè)計(jì)算節(jié)點(diǎn)關(guān)閉 2 再關(guān)閉管理節(jié)點(diǎn)

22、mu01,直接在mu01上運(yùn)行poweroff。 3 如果必要,關(guān)閉并行文件系統(tǒng),io01io04依次關(guān)閉(因?yàn)橐呀?jīng)關(guān)閉管理節(jié)點(diǎn),只能現(xiàn)場(chǎng)關(guān)閉) 4 最后關(guān)閉存儲(chǔ)510H及擴(kuò)展柜,只能現(xiàn)場(chǎng)關(guān)閉。 注:1,如果不能現(xiàn)場(chǎng)關(guān)閉存儲(chǔ)io節(jié)點(diǎn),可以在管理節(jié)點(diǎn)上先行卸載lustre掛載,然后關(guān)閉io節(jié)點(diǎn),再關(guān)閉自身,但存儲(chǔ)陣列510H不能命令行關(guān)閉。 2,如果關(guān)機(jī)出現(xiàn)不能正常關(guān)機(jī)卡在某一步,需手動(dòng)強(qiáng)制關(guān)機(jī),及長(zhǎng)按關(guān)機(jī)鍵數(shù)秒。,節(jié)點(diǎn)IPMI管理界面,此界面是集成在主板的硬件管理界面。 管理界面節(jié)點(diǎn)需管理節(jié)點(diǎn)firefox,輸入ip。 管理節(jié)點(diǎn)和io節(jié)點(diǎn)用戶名及密碼見(jiàn)銘牌 刀片的管理用戶名與密碼:root L

23、C6s5d?FW?,存儲(chǔ)掛載情況,查看用戶存儲(chǔ)空間 df -h 整個(gè)集群上存儲(chǔ)掛載情況為 計(jì)算節(jié)點(diǎn) rootcu01 # df h 除本地文件系統(tǒng)外,還包括nfs的mu01節(jié)點(diǎn)/opt與io01的/home 管理節(jié)點(diǎn)(mount) rootmu01 opt# df -h,新建一個(gè)用戶并提交作業(yè)流程解析,step1 在集群中添加新用戶,首先在管理節(jié)點(diǎn)mu01上添加新用戶 添加用戶命令:rootmu01 # /opt/ssh/adduser 新建用戶的設(shè)置初始密碼,用戶在拿到帳號(hào)后,第一時(shí)間,使用該賬號(hào)登錄到mu01,然后ssh到cu01輸入yppasswd來(lái)更改密碼。 新建地用戶已配置好基本的并

24、行環(huán)境。 Intel 編譯器環(huán)境變量寫(xiě)到/etc/bashrc里,這樣,每個(gè)存在用戶均調(diào)用該環(huán)境變量。,新建一個(gè)用戶并提交作業(yè)流程解析,step2 測(cè)試用戶 新用戶添加后,嘗試使用新用戶test登錄 rootmu01 # su - test testmu01 # ssh cu01 su - test (切換到test用戶) 執(zhí)行allc uptime,Inspur group,2020/7/2,Step3 提交作業(yè) 打開(kāi)ssh工具,新建一個(gè)用戶并提交作業(yè)流程解析,Inspur group,2020/7/2,新建一個(gè)用戶并提交作業(yè)流程解析,step4 打開(kāi)sftp工具上傳需要計(jì)算的文件到自身home下 執(zhí)行程序也要放到home下 注意環(huán)境變量設(shè)置 以上存

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論