《eradata基礎(chǔ)知識(shí)》PPT課件.ppt_第1頁(yè)
《eradata基礎(chǔ)知識(shí)》PPT課件.ppt_第2頁(yè)
《eradata基礎(chǔ)知識(shí)》PPT課件.ppt_第3頁(yè)
《eradata基礎(chǔ)知識(shí)》PPT課件.ppt_第4頁(yè)
《eradata基礎(chǔ)知識(shí)》PPT課件.ppt_第5頁(yè)
已閱讀5頁(yè),還剩33頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Teradata結(jié)構(gòu)概述 張曉軍,Teradata結(jié)構(gòu),Teradata在整體上是按Shared Nothing架構(gòu)體系進(jìn)行組織的 單機(jī)Teradata很少見(jiàn),即使是單機(jī)也被也是SMP結(jié)構(gòu),大多 是按多機(jī)系統(tǒng)的; 物理上Teradata包括3個(gè)部分: 處理節(jié)點(diǎn)(node)、用于節(jié)點(diǎn)間通信的內(nèi)部高速互聯(lián)(InterConnection)和數(shù)據(jù)存儲(chǔ)介質(zhì)(一般是磁盤(pán)陣列)。 每個(gè)節(jié)點(diǎn)都是SMP結(jié)構(gòu)的單機(jī),節(jié)點(diǎn)的物理和邏輯結(jié)構(gòu)如圖1所示:,Teradata結(jié)構(gòu),多個(gè)節(jié)點(diǎn)一起構(gòu)成MPP系統(tǒng),多個(gè)節(jié)點(diǎn)之間的內(nèi)部高速互聯(lián)時(shí)通過(guò)BYNET的硬件實(shí)現(xiàn),單個(gè)節(jié)點(diǎn)結(jié)構(gòu),單個(gè)節(jié)點(diǎn)自下而上包括: 1、操作系統(tǒng)OS; 2

2、、Teradata數(shù)據(jù)庫(kù)并行擴(kuò)展(PDE)及相關(guān)應(yīng)用程序; 其中PDE:parallel database extensions 管理和運(yùn)行虛處理器:PE和AMPs,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- PDE,PDE: 直接架構(gòu)在操作系統(tǒng)上的接口層,為td提供并行環(huán)境,保證這個(gè)環(huán)境的可運(yùn)行性和健壯性。 功能: 執(zhí)行虛力處理器,進(jìn)行Teradata并行任務(wù)調(diào)度、進(jìn)行操作系統(tǒng)內(nèi)核和td數(shù)據(jù)庫(kù)的運(yùn)行時(shí)故障處理。,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- 虛擬處理器VPROC,虛擬處理器: VPROC,virtual processors,是一些列軟件進(jìn)程,這些進(jìn)程駐留在節(jié)點(diǎn)上,依賴(lài)PDE環(huán)境調(diào)度。 功能:完成Teradata數(shù)據(jù)庫(kù)的主要工作:

3、解析引擎; 存取模塊處理器;,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- 虛擬處理器VPROC,解析引擎: PE:parsing engine; teradata數(shù)據(jù)庫(kù)應(yīng)用程序的sql請(qǐng)求和存取模塊處理器的通訊和交互。 功能:任務(wù)控制:session control; sql語(yǔ)句解析、優(yōu)化、查詢(xún)步驟的生成和分發(fā); 并行化預(yù)處理和返回查詢(xún)結(jié)果,一個(gè)節(jié)點(diǎn)上通常只有一個(gè)或2個(gè)PE在工作。,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- 存取模塊處理器AMP,存取模塊處理器: AMP:Access Module Processor; teradata數(shù)據(jù)庫(kù)關(guān)鍵進(jìn)程,處理所有與數(shù)據(jù)有關(guān)的文件系統(tǒng)的操作任務(wù)。 一個(gè)節(jié)點(diǎn)有多個(gè)AMP,每個(gè)AMP分別負(fù)責(zé)文件系統(tǒng)上不同

4、的、固定的數(shù)據(jù)存取操作,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- 虛擬磁盤(pán)VDISK,虛擬磁盤(pán): VDISK:Virtual Disk; 純粹的邏輯概念,不是軟件結(jié)構(gòu)的一部分; 典型的Teradata Mpp 系統(tǒng)的數(shù)據(jù)存儲(chǔ)都是以磁盤(pán)陣列(Disk Arrays)的形式實(shí)現(xiàn)的,在物理上是一個(gè)個(gè)存放于標(biāo)準(zhǔn)磁盤(pán)的陣列柜中的磁盤(pán)陣列模塊。 每個(gè)AMP在處理數(shù)據(jù)存儲(chǔ)時(shí),會(huì)根據(jù)一種哈希算法把不同的數(shù)據(jù)均勻的分散存儲(chǔ)到磁盤(pán)陣列中的不同磁盤(pán)上。所以在邏輯上,就把磁盤(pán)陣列中不同磁盤(pán)上存儲(chǔ)著的那些由同一個(gè)AMP負(fù)責(zé)存儲(chǔ)和維護(hù)的數(shù)據(jù)合并在一起,好比在一個(gè)磁盤(pán)上,就是VDISK的概念。,單個(gè)節(jié)點(diǎn)結(jié)構(gòu)- BYNET,BYNET: 在Terad

5、ata Mpp系統(tǒng)中,各個(gè)節(jié)點(diǎn)間(準(zhǔn)確的說(shuō)是各個(gè)AMP間)的內(nèi)部高速互聯(lián)時(shí)通過(guò)BYNET實(shí)現(xiàn)的,BYNET是Teradata系統(tǒng)內(nèi)部松散耦合的節(jié)點(diǎn)之間的相互聯(lián)系的通訊總線,實(shí)際上,遠(yuǎn)非如此簡(jiǎn)單。 BYNET是一組硬件和運(yùn)行在這些硬件上的一些處理通訊任務(wù)的軟件進(jìn)程的組合體,用于節(jié)點(diǎn)間的雙向廣播(bidirectional broadcast)、多路傳遞(multicast)和點(diǎn)對(duì)點(diǎn)通信(point-to-point communication),同時(shí),BYNET還實(shí)現(xiàn)SQL查詢(xún)過(guò)程中的合并功能,Teradata結(jié)構(gòu)補(bǔ)充說(shuō)明,Teradata結(jié)構(gòu)補(bǔ)充說(shuō)明,1:Teradata系統(tǒng)的主要組件 2:表

6、和AMP 3:線性增長(zhǎng)和擴(kuò)充性 4 :Teradata的并發(fā)操作 5 :Teradata功能概述 6 :Teradata的內(nèi)部對(duì)象,Teradata物理運(yùn)行原理,Teradata物理運(yùn)行實(shí)現(xiàn)原理,1:數(shù)據(jù)分布 2:哈?;?3:多列哈?;?4:主索引哈希映射 5:哈希圖 6:主哈希圖 7:數(shù)據(jù)分布-TeradataRDBMS for UNIX潛在問(wèn)題 8:哈希關(guān)系表達(dá)式Hash-Related Expressions 9:哈希函數(shù) 10:不平均數(shù)據(jù)分布的影響,11:數(shù)據(jù)分布:另外的問(wèn)題 12:歪斜的連接和聚類(lèi)處理 13:重新配Reconfiguration 14:使用主索引 15:Row ID

7、16:定位行 17:表ID Table ID 18:Master Index Foramt 19:Master Index,Teradata物理運(yùn)行實(shí)現(xiàn)原理,20:Cylinder Index設(shè)計(jì)規(guī)劃 21:Cylinder Index 22:General Block Layout物理塊設(shè)計(jì) 23:General Row Layout 24:AMP Read I/O 概要,Teradata常用名詞解釋,Teradata名詞解釋,DSS(Decision Support System):決策支持系統(tǒng) SMP(Symmetric Multi Processing):包含一個(gè)節(jié)點(diǎn),多個(gè)CPU一起工

8、作,單一操作系統(tǒng)。使用SystemConsole管理。 MPP(Massively Parallel Processing):包含多個(gè)節(jié)點(diǎn),也就是多個(gè)SMP通過(guò)BYNET連接、協(xié)同工作。使用AWS(Administration Workstation)管理。 BYNET(Banyan Network):一系列軟件和硬件的集成體,為節(jié)點(diǎn)之間提供高性能的網(wǎng)絡(luò)。 PEs(Parsing Engines):接受來(lái)自Client的SQL請(qǐng)求,并將其拆分成具體的步驟,發(fā)送給AMP,最后將結(jié)果返回給Client. vprocs=Virtual Processors vdisk=Virtual Disk,是虛

9、擬的邏輯空間,由1-64個(gè)物理分區(qū)pdisk構(gòu)成。 AMPs(Access Module Processors):接收來(lái)自PE的操作步驟,調(diào)用底層函數(shù)操作數(shù)據(jù)。每個(gè)AMP有自己的vdisk,只訪問(wèn)自己對(duì)應(yīng)vdisk上的數(shù)據(jù)。 PDE(Parallel Database Extensions):運(yùn)行在每個(gè)節(jié)點(diǎn)的操作系統(tǒng)之上的軟件層,用于支持平行環(huán)境。 SystemBus,支持PCI和MCA兩種總線模式,支持Lan、MainFrameChannel和Connections to the external disk array cabinets三種鏈接方式,個(gè)別型號(hào)還支持LPB(Local peri

10、pheral board)和Internal RAID disk arrays。,Teradata名詞解釋,Shared Nothing Architecture:一種分布式計(jì)算架構(gòu),每個(gè)組件間都是獨(dú)立、自給自足的。 Cliques:基于同一個(gè)磁盤(pán)隊(duì)列共享連接的一組節(jié)點(diǎn),Cliques中的每個(gè)節(jié)點(diǎn)都會(huì)該磁盤(pán)隊(duì)列進(jìn)行連接,由于是多個(gè)節(jié)點(diǎn)處理相同的磁盤(pán)隊(duì)列,從而具有很高的擴(kuò)展性和靈活性。當(dāng)一個(gè)階段出現(xiàn)故障時(shí),會(huì)自動(dòng)將處理遷移到其他節(jié)點(diǎn)上,起到了容錯(cuò),負(fù)載均衡,提高性能的作用。 TPA(Trusted Parallel Application):TeraDATA Database的組成部分,包含PE

11、、AMP、ChannelDriver和TeraDATA Gateway四部分。 CLIv2(Call Level Interface, Version 2):主要包含CLI(Call Level Interface),MTDB(Micro TeraDATA Director Program),MOSI(Micro Operating System Interface)三種組件。 User:是包含userid和密碼的database,可以包含其他數(shù)據(jù)庫(kù)對(duì)象。這與其他DB的定義稍有不同。 需要Perm Space的數(shù)據(jù)庫(kù)對(duì)象:Table和StroagedProcedure。 不需要Perm Spa

12、ce的數(shù)據(jù)庫(kù)對(duì)象:View,Trigger和Macro。 Spool Space:用于存放中間結(jié)果的空間,任何沒(méi)有被分配的PermSpace都可以作為SpoolSpace。創(chuàng)建User或者Database時(shí),可以不指定,則自動(dòng)從parentDB繼承過(guò)來(lái)。當(dāng)parentDB也沒(méi)有指定時(shí),db訪問(wèn)會(huì)提示“runaway transaction”錯(cuò)誤。 Data Dictionary:Database的元數(shù)據(jù),用于描述該DB目前的PermSpace和SpoolSpace設(shè)置和狀況、訪問(wèn)權(quán)限、所有關(guān)系以及所有DB對(duì)象的定義。,Teradata名詞解釋,RAID(Redundant Array of I

13、nspensive Disks):一直以來(lái),只知道這個(gè)詞是磁盤(pán)陣列,是一種磁盤(pán)級(jí)別的數(shù)據(jù)保護(hù)技術(shù),卻不知道他是英文縮寫(xiě)。包括6種級(jí)別,分別是 RAID0RAID5,這6個(gè)數(shù)字并不直接意味著優(yōu)勢(shì)的高低,僅僅是存儲(chǔ)方式上的不同。目前,TeraDATA支持RAID1和RAID5。在EMC系統(tǒng)中,RAID 5也稱(chēng)作RAID S。包括3種組件:SCSI Bus、Disk Array Controllers和Physical Disks。基于性能考慮,TeraDATA采用了雙重DiskArrayController機(jī)制,起到互為備份的作用。 RAID 0:這種方式比較好理解,就是單純的備份,磁盤(pán)0出問(wèn)題時(shí)

14、,就去讀磁盤(pán)1. RAID 5:采用異或XOR計(jì)算的方式,因?yàn)閄OR計(jì)算具有A XOR B XOR C = D - A = B XOR C XOR D - B = C XOR D XOR A .的特性。可以根據(jù)正常工作的磁盤(pán)上的數(shù)據(jù),推算出出現(xiàn)問(wèn)題的磁盤(pán)上的數(shù)據(jù)。 Fallback:是TeraDATA的一種處理AMP錯(cuò)誤的機(jī)制,采用AMP集群的方式實(shí)現(xiàn)。將當(dāng)前操作的每一行數(shù)據(jù)在同一集群中的另一個(gè)AMP上進(jìn)行備份的方式,當(dāng)該AMP出現(xiàn)問(wèn)題時(shí),自動(dòng)訪問(wèn)備份的AMP來(lái)滿足當(dāng)前的請(qǐng)求。 缺點(diǎn)就是:要求的存儲(chǔ)空間以及數(shù)據(jù)更新操作(INSERT、UPDATE、DELETE)的I/O讀寫(xiě)的代價(jià)都要加倍。 優(yōu)

15、點(diǎn)就是:RAID Disk基礎(chǔ)之上的又一層保護(hù),可以針對(duì)表進(jìn)行指定,在AMP脫機(jī)時(shí)允許訪問(wèn)數(shù)據(jù),以及在AMP脫機(jī)期間可以自動(dòng)回復(fù)變更的數(shù)據(jù)。,Teradata名詞解釋,Journals:包括RecoveryJournals和PermanentJournals. Recovery Journals:系統(tǒng)自動(dòng)維護(hù)的,不需要管理員參與,同時(shí),日志的產(chǎn)生會(huì)占一定的表空間。包括: Transient Journal:日常的事務(wù)執(zhí)行過(guò)程中,所有的反映的數(shù)據(jù)都被在TransientJournal中備份,當(dāng)事務(wù)commit后,自動(dòng)清除;當(dāng)事務(wù)中斷時(shí),通過(guò)rollback可以恢復(fù)數(shù)據(jù)到修改前的狀態(tài),然后清除。

16、Down-AMP Recovery Journal:顧名思義,當(dāng)AMP宕機(jī)時(shí),為了replacement而備份數(shù)據(jù)使用的日志。 Permanent Journals:是一種可選的額外數(shù)據(jù)保護(hù)機(jī)制,以表為單位進(jìn)行指定,可以對(duì)某個(gè)時(shí)間點(diǎn)進(jìn)行整表恢復(fù)。同時(shí),在此基礎(chǔ)之上,可以設(shè)置Fallback保護(hù)。 Lock:包括Exclusive、Write、Read和Access四種,從范圍上可分為DB層、表層和記錄行層。 Exclusive:只能指定DB或者Table,限制級(jí)別做高的Lock,通常是在DDL執(zhí)行的時(shí)候產(chǎn)生。 Write: Read: Access: Primary Index:包括Uniqu

17、e 和 Non-Unique兩種。這不同于以往的PrimaryKey概念,特性: 每個(gè)表只能有一個(gè)PI PI的值可以唯一,也可以不唯一 PI不可以修改,如果要修改,必須先將表刪掉,再重新創(chuàng)建,再導(dǎo)入數(shù)據(jù) PI的值可以為null,Unique場(chǎng)合,只能有1條記錄為null,否則必須是Non-Unique PI的值可以修改 PI定義最多不能超過(guò)64個(gè)字段 SQL: CREATE TABLE XXX (.) UNIQUE PRIMARY INDEX (.); 注:根據(jù)PI進(jìn)行檢索,是一個(gè)單AMP操作。 PPI(Partitioned Primary Index):俺的理解,簡(jiǎn)單點(diǎn)的解釋就是從另一個(gè)維

18、度建立索引,從而提高性能。,Teradata名詞解釋,SI(Secondary Index):也包括Unique 和 Non-Unique兩種。和PI類(lèi)似,特性: SI不是必須的 SI的值可以唯一,也可以不唯一 SI可以修改 SI的值可以為null,Unique場(chǎng)合,只能有1條記錄為null,否則必須是Non-Unique SI的值可以修改 SI定義最多不能超過(guò)64個(gè)字段 根據(jù)用途,可分為: Join Index:可以用于多表 Sparse Index:可以指定常量作為過(guò)濾條件 Hash Index:只用于單表,相對(duì)使用幾率較少。 Value-Ordered NUSI:具有排序功能,但是:排序

19、字段只能有一個(gè)、必須是數(shù)字類(lèi)型、長(zhǎng)度不能超過(guò)4個(gè)字節(jié)以及最多可以定義2個(gè)index,字段總數(shù)不能超過(guò)32個(gè)。 SI的存儲(chǔ):SI是存儲(chǔ)在Index Subtables中的,USI和NUSI略有不同, USI:由于表中的數(shù)據(jù)是根據(jù)PI的值進(jìn)行分配存儲(chǔ)的,因此,IndexSubtable的數(shù)據(jù)是與主表數(shù)據(jù)分離的,根據(jù)USI的Hash值分布。 NUSI:是與主表數(shù)據(jù)按照相同的規(guī)則分布存儲(chǔ)的,從而降低了對(duì)BYNET的使用率,但是,由于數(shù)據(jù)可能存儲(chǔ)在不同的AMP內(nèi),因此,基所有的AMP都處在激活狀態(tài)。 注:對(duì)于無(wú)索引檢索時(shí),可能會(huì)使用整表檢索。盡量避免使用不等號(hào)或者區(qū)間條件進(jìn)行檢索,因?yàn)榇藭r(shí),系統(tǒng)會(huì)使用整

20、表檢索進(jìn)行處理。,Teradata常用工具,Teradata常用工具,GUI操作界面,圖形化的操作界面 作業(yè)設(shè)置 作業(yè)監(jiān)控 日志檢查 作業(yè)執(zhí)行 功能設(shè)置,Teradata常用工具,Teradata常用工具,Teradata常用工具,Teradata-ETL,Teradata業(yè)務(wù)基礎(chǔ)-ETL,ETL作業(yè)的狀態(tài),關(guān)于作業(yè)的狀態(tài),ETL服務(wù)流程,分布式ETL服務(wù)架構(gòu),ETL_Automation邏輯架構(gòu),ETL REPOSITORY,D:ETL (主目錄) |-APP |-DATA |-complete |-fail |-message |-process |-queue |-receive,D:E

21、TL (主目錄) |-APP |-DATA |-complete |-fail |-message |-process |-queue |-receive,SERVER 1,SERVER 2,ETL_Automation 的特定概念,數(shù)據(jù)驅(qū)動(dòng) 控制文件 - 控制作業(yè)處理的文件 dir.job_source_nameYYYYMMDDetl_rcv 監(jiān)控并處理 Convert_Job_NameYYYYMMDD.diretl_master監(jiān)控并處理 數(shù)據(jù)文件 - 作業(yè)處理的數(shù)據(jù)文件,隨控制文件一起在處理時(shí)移動(dòng) 控制文件中包含數(shù)據(jù)文件的列表 如控制文件是空文件,則表明該作業(yè)無(wú)數(shù)據(jù)文件,ETL_Auto

22、mation客戶(hù)端,加載的管理和監(jiān)控 ETLAdmin - 加載管理、控制、監(jiān)視 ETLMonitor 加載監(jiān)視,ETL REPOSITORY,加載服務(wù)器,加載服務(wù)器,目前ETL狀況,SXMCC_BASS2的系統(tǒng)結(jié)構(gòu),SXMCC_BASS2的系統(tǒng)結(jié)構(gòu),短信發(fā)送,短信模塊介紹如下: 短信發(fā)送模塊需求: 可以配置; 短信發(fā)送功能實(shí)現(xiàn); 不形成騷擾(即:發(fā)送頻率,必須可以配置,以小時(shí)為單位,double類(lèi)型); 各要求詳細(xì)解釋?zhuān)?可以配置: 解釋?zhuān)?可以配置 從可以的內(nèi)容分為下一幾部分: (1)、接收短信的手機(jī)號(hào)碼;可以配置(輸入) 舉例:可以配置手機(jī)號(hào)碼:1234、23456等 (2)、要發(fā)送的模塊(如:session、ETL錯(cuò)誤);可以配置(點(diǎn)選) 舉例:對(duì)手機(jī)號(hào)碼1234的session pool錯(cuò)誤發(fā)送短信; 對(duì)手機(jī)號(hào)碼23456的ETL錯(cuò)誤發(fā)送短信; 注意:短信發(fā)送的模塊以綜合監(jiān)控的模塊基礎(chǔ)表為準(zhǔn) (3)、發(fā)送的時(shí)間段;(支持全天的0:0024:00 任意時(shí)間段) 舉例:對(duì)手機(jī)號(hào)碼

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論