版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
DataStage入門培訓(xùn)
AgendaDataStage介紹DataStage開發(fā)DataStage四個(gè)客戶端的使用DataStage常用組件使用DataStage常用命令練習(xí)DataStage介紹
AscentialPlatform
WhatisDataStage?DesignjobsforExtraction,Transformation,andLoading(ETL)Idealtoolfordataintegrationprojects–suchas,datawarehouses,datamarts,andsystemmigrationsImport,export,create,andmanagedmetadataforusewithinjobsSchedule,run,andmonitorjobsallwithinDataStageAdministeryourDataStagedevelopmentandexecutionenvironmentsDataStage開發(fā)
DataStageServerandClients
DataStageServerandClientsAdministrator AdministersDataStageprojectsandconductshousekeepingontheserverDesigner CreatesDataStagejobsthatarecompiledintoexecutableprogramsDirector UsedtorunandmonitortheDataStagejobsManager AllowsyoutoviewandeditthecontentsoftherepositoryDataStage
Administrator
DataStageAdministratorInDataStagealldevelopmentworkisdonewithinaproject.ProjectsarecreatedduringinstallationandafterinstallationusingAdministrator.Eachprojectisassociatedwithadirectory.Thedirectorystorestheobjects(jobs,metadata,customroutines,etc.)createdintheproject.Beforeyoucanworkinaprojectyoumustattachtoit(openit).YoucansetthedefaultpropertiesofaprojectusingDataStageAdministrator
DataStageAdministratorUsetheAdministratortospecifygeneralserverdefaults,addanddeleteprojects,andtosetprojectproperties. UsetheAdministratorProjectPropertieswindowto: ·
SetjobmonitoringlimitsandotherDirectordefaultsontheGeneraltab. ·
SetusergroupprivilegesonthePermissionstab. ·
Enableordisableserver-sidetracingontheTracingtab. ·
SpecifyausernameandpasswordforschedulingjobsontheScheduletab. ·
SpecifyhashedreadandwritecachesizesontheTunablestabDataStage
Manager
DataStageManagerDataStageManagermanagestwodifferenttypesofobjects: ·
Metadatadescribingsourcesandtargets: -
CalledtabledefinitionsinManager.Thesearenottobeconfusedwithrelationaltables.DataStagetabledefinitionsareusedtodescribetheformatandcolumndefinitionsofanytypeofsource:sequential,relational,hashedfile,etc. -
TabledefinitionscanbecreatedinManagerorDesignerandtheycanalsobeimportedfromthesourcesortargetstheydescribe.
DataStageManager ·
DataStagecomponents -
EveryobjectinDataStage(jobs,routines,tabledefinitions,etc.)isstoredintheDataStagerepository.Manageristheinterfacetothisrepository. -
DataStagecomponents,includingwholeprojects,canbeexportedfromandimportedintoManager.
DataStageManagerAnyobjectinManagercanbeexportedtoafileCanexportwholeprojectsUseforbackupSometimesusedforversioncontrolCanbeusedtomoveDataStageobjectsfromoneprojecttoanotherUsetoshareDataStagejobsandprojectswithotherdevelopers
DataStageManagerImportProcedureInManager,click“Import>DataStageComponents”SelectDataStageobjectsforimport
DataStageManagerExportProcedureInManager,click“Export>DataStageComponents”SelectDataStageobjectsforexportSpecifiedtypeofexport:DSX,XMLSpecifyonclientmachineDataStage
Director
DataStageDirectorCanschedule,validating,andrunjobsCanbeinvokedfromDataStageManagerorDesignerClearjoblogSetDirectoroptionsRowlimitsAbortafterxwarnings
DirectorLogViewClicktheLogbuttoninthetoolbartoviewthejoblog.Thejoblogrecordseventsthatoccurduringtheexecutionofajob.Theseeventsincludecontrolevents,suchasthestarting,finishing,andabortingofajob;informationalmessages;warningmessages;errormessages;andprogram-generatedmessages.
DataStageDirectorDataStage
Desinger
WhatIsaJob?ExecutableDataStageprogramCreatedinDataStageDesigner,butcanusecomponentsfromManagerBuiltusingagraphicaluserinterfaceCompilesintoOrchestrateshelllanguage(OSH)
CreateNewJobSeveraltypesofDataStagejobs:Parallel–thiscoursewillconcentrateonparalleljobs.JobSequence–usedtocreatejobsthatcontrolexecutionofotherjobs.
CreateNewJob
ComponentsIntroduceSequentialfile
功能特點(diǎn):適用于一般順序文件(定長或不定長),可識(shí)別文本文件或IBM大機(jī)ebcdic文件。 使用要點(diǎn):
按照命名規(guī)范命名
點(diǎn)住文件,雙擊鼠標(biāo),在general說明此文件內(nèi)容,格式,存儲(chǔ)目錄等修改文件屬性,文件名稱,reject方式
Sequentialfile
Sequentialfile修改文件格式,比如記錄結(jié)束符是什么,字段分隔符,字符串是用什么區(qū)別等
Sequentialfile
Sequentialfile輸入此文件字段內(nèi)容
Annotation功能特點(diǎn):一般用于注釋,可利用其背景顏色在job中分顏色區(qū)別不同功能塊
Annotation
CopyStage功能說明:CopyStage可以有一個(gè)輸入,多個(gè)輸出。它可以在輸出時(shí)改變字段的順序,但是不能改變字段類型。
CopyStage
FilterStage功能說明:FilterStage只有一個(gè)輸入,可以有多個(gè)輸出。根據(jù)不同的篩選條件,可以將數(shù)據(jù)輸出到不同的outputlink
FilterStage
SortStage功能說明:只能有一個(gè)輸入及一個(gè)輸出,按照指定的Key值進(jìn)行排列??梢赃x擇升序還是降序,是否去除重復(fù)的數(shù)據(jù)等等
SortStage
SortStage Option具體說明:AllowDuplicates:是否去除重復(fù)數(shù)據(jù)。為False時(shí),只選取一條數(shù)據(jù),當(dāng)StableSort為True時(shí),選取第一條數(shù)據(jù)。當(dāng)SortUnility為UNIX時(shí)此選項(xiàng)無效。SortUtility:選擇排序時(shí)執(zhí)行應(yīng)用程序,可以選擇DataStage內(nèi)建的命令或者Unix的Sort命令
OutputStatistics:是否輸出排序統(tǒng)計(jì)信息到j(luò)ob日志
StableSort:是否對(duì)數(shù)據(jù)進(jìn)行二次整理
SortStageCreateClusterKeyChangeColumn:是否為每條記錄創(chuàng)建一個(gè)新的字段:clusterKeyChange。當(dāng)SortKeyMode為Don’tSort(PreviouslySorted)或Don’tSort(PreviouslyGrouped)時(shí),對(duì)于第一條記錄該字段被設(shè)置為1,其余的記錄設(shè)置為0。CreateKeyChangeColumn:是否為每一條記錄創(chuàng)建一個(gè)新的字段KeyChange
RemoveDuplicatesStage功能說明:輸入根據(jù)關(guān)鍵字分好類的有序數(shù)據(jù),去除所有記錄中關(guān)鍵字重復(fù)的記錄,通常與sortstage配合使用
RemoveDuplicatesStage
TansformerStage功能說明:一個(gè)功能極為強(qiáng)大的Stage。有一個(gè)inputlink,多個(gè)outputlink,可以將字段進(jìn)行轉(zhuǎn)換,也可以通過條件來指定數(shù)據(jù)輸出到那個(gè)outputlink。在開發(fā)過程中可以使用拖拽
TansformerStage
TansformerStageConstraint及Derivation的區(qū)別:Constraint通過限定條件使符合條件的數(shù)據(jù)輸出到這個(gè)outputlink。Derivation通過定義表達(dá)式來轉(zhuǎn)換字段值。在Constraint及Derivation中可以使用Jobparameters及StageVariables。注意:TransformerStage功能強(qiáng)大,但在運(yùn)行過程中是以犧牲速度為代價(jià)的。在只有簡單的變換,拷貝等操作時(shí),最好用ModifyStage,CopyStage,F(xiàn)ilterStage等來替換TransformerStage
LookUpStage功能說明:LookUpStage把數(shù)據(jù)讀入內(nèi)存執(zhí)行查詢操作,將匹配的字段輸出,或者在在符合條件的記錄中修改或加入新的字段。
LookUpStage
JoinStage功能說明:將多個(gè)表連接后輸出
AggregatorStage功能說明:將輸入的數(shù)據(jù)分組,計(jì)算各組數(shù)據(jù)的總和或者按組進(jìn)行其他的操作,最后將結(jié)果數(shù)據(jù)輸出到其他的stage
AggregatorStage
AggregatorStage
ChangeCaptureStage功能特點(diǎn):ChangeCaptureStage有兩個(gè)輸入,分別標(biāo)記為beforelink及afterlink。輸出的數(shù)據(jù)表示beforelink和afterlink的區(qū)別,我們稱作changeset。ChangeCaptureStage可以和ChangeApplyStage配合使用來計(jì)算afterset
ChangeCaptureStage
ChangeCaptureStagekey及value的說明
key值是比較的關(guān)鍵值,value是當(dāng)key值相同是作進(jìn)一步比較用的。changemode選項(xiàng)說明:Allkeys,ExplicitValues需要指定value,其余字段為keyExplicitKeys&Valueskey及value都需要指定ExplicitKeys,AllValues需要指定key,其余的字段為value
FunnelStage功能說明:將多個(gè)字段相同的數(shù)據(jù)文件合并為一個(gè)單獨(dú)的文件輸出
FunnelStage
FunnelStage合并策略說明ContinuousFunnel:從每一個(gè)inputlink中循環(huán)取一條記錄SortFunnel:按照Key值排序合并輸出Sequence:先輸出第一個(gè)inputlink的數(shù)據(jù),輸出完畢后再輸出第二個(gè)inputlink的數(shù)據(jù),依此類推,直到結(jié)束。(此時(shí)可以通過調(diào)整linkOrdering調(diào)整輸出順序)DataStage
常用命令介紹
dsjob執(zhí)行Job dsjob-run[-mode<NORMAL|RESET|VALIDATE>]指定狀態(tài),默認(rèn)為NORMAL[-param<name>=<value>]指定參數(shù)運(yùn)行,不指定使用默認(rèn)值
[-warn<n>]限制warning的日志行數(shù)
[-rows<n>]限制日志行數(shù)
[-wait]等待作業(yè)運(yùn)行完
[-opmetadata<TRUE|FALSE>]產(chǎn)生metadata[-disableprjhandler][-disablejobhandler][-jobstatus]等待作業(yè)返回運(yùn)行狀態(tài)
[-userstatus]等待作業(yè)返回用戶定義的狀態(tài)
[-local]使用本地腳本調(diào)起job,環(huán)境變量使用腳本里面定義的環(huán)境變量。
[-useid]是否使用jobid(使用dsjob-jobid定義別名)
<project><job|jobid>
dsjob停止Job dsjob-stop[-useid]<project><job|jobid>
如果為作業(yè)定了了別名(使用dsjob-jobid),就使用-useid告訴系統(tǒng)后面跟的是作業(yè)的別名。列出全部工程
dsjob–lprojects列出project下的全部Job dsjob–ljobsproject
dsjob列出某個(gè)Job的實(shí)例調(diào)用情況
dsjob–linvocationsprojectjob列出某個(gè)Job的所有stage dsjob-lstages[-useid]<project><job|jobid>列出沒個(gè)Stage的LINK信息
dsjob-llinks[-useid]<project><job|jobid><stage>列出工程信息
dsjob-projectinfo<project>列出Job信息
dsjob-jobinfo[-useid]<project><job|jobid>列出某個(gè)Stage信息
dsjob-stageinfo[-useid]<project><job|jobid><stage>
dsadmindsadmin dsadmin主要用于創(chuàng)建、刪除Project、設(shè)置環(huán)境變量等等
dsadmin
dsadmin[-file<file><server>|[-se
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026河南開封某縣城投公司社會(huì)招聘5人備考題庫及完整答案詳解一套
- 2025北京對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)政府管理學(xué)院非事業(yè)編人員招聘1人備考題庫及答案詳解(易錯(cuò)題)
- 2025山東青島上合臨空控股發(fā)展集團(tuán)有限公司社會(huì)招聘8人備考題庫及一套答案詳解
- 2025廣東佛山市順德區(qū)北滘鎮(zhèn)莘村初級(jí)中學(xué)招聘臨聘教師備考題庫及一套答案詳解
- 2026廣東東莞市謝崗鎮(zhèn)社區(qū)衛(wèi)生服務(wù)中心招聘納入崗位管理編制外人員7人備考題庫附答案詳解
- 2025安徽皖新融資租賃有限公司服務(wù)人員第二批次招聘2人備考題庫及答案詳解(考點(diǎn)梳理)
- 2026云南業(yè)圖人工智能數(shù)據(jù)標(biāo)注基地“AI人工智能訓(xùn)練師”招聘15人備考題庫(第三期)帶答案詳解
- 2026年舟山市普陀區(qū)桃花鎮(zhèn)村工作人員招聘4人備考題庫及一套參考答案詳解
- 2025中國海洋大學(xué)材料科學(xué)與工程學(xué)院實(shí)驗(yàn)技術(shù)人員招聘1人備考題庫及完整答案詳解1套
- 村委會(huì)書記培訓(xùn)課件
- 線纜及線束組件檢驗(yàn)標(biāo)準(zhǔn)
- 人工智能在金融策略中的應(yīng)用
- 口述史研究活動(dòng)方案
- 加工中心點(diǎn)檢表
- 水庫清淤工程可行性研究報(bào)告
- THBFIA 0004-2020 紅棗制品標(biāo)準(zhǔn)
- GB/T 25630-2010透平壓縮機(jī)性能試驗(yàn)規(guī)程
- GB/T 19610-2004卷煙通風(fēng)的測定定義和測量原理
- 精排版《化工原理》講稿(全)
- 市場營銷學(xué)-第12章-服務(wù)市場營銷課件
評(píng)論
0/150
提交評(píng)論