“1+X”(高級(jí))03-大數(shù)據(jù)系統(tǒng)上云_第1頁(yè)
“1+X”(高級(jí))03-大數(shù)據(jù)系統(tǒng)上云_第2頁(yè)
“1+X”(高級(jí))03-大數(shù)據(jù)系統(tǒng)上云_第3頁(yè)
“1+X”(高級(jí))03-大數(shù)據(jù)系統(tǒng)上云_第4頁(yè)
“1+X”(高級(jí))03-大數(shù)據(jù)系統(tǒng)上云_第5頁(yè)
已閱讀5頁(yè),還剩38頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)系統(tǒng)上云課程目錄大數(shù)據(jù)上云概述1.1大數(shù)據(jù)上云的優(yōu)勢(shì)1.2常見的大數(shù)據(jù)上云方案2.大數(shù)據(jù)上云流程3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題大數(shù)據(jù)上云優(yōu)勢(shì)開箱即用開通即使用,快速產(chǎn)生業(yè)務(wù)價(jià)值彈性伸縮分布式部署,根據(jù)需要自由伸縮,秒級(jí)資源擴(kuò)展免運(yùn)維減少人力投入,降低企業(yè)的運(yùn)維成本,集中精力于發(fā)展業(yè)務(wù)開發(fā)效率提供了便捷、易用的管理工具,提升了開發(fā)效率數(shù)據(jù)應(yīng)用生態(tài)為企業(yè)提供了如推薦引擎等應(yīng)用產(chǎn)品,具備完整的應(yīng)用生態(tài)。大數(shù)據(jù)上云工具(一)批量加載工具數(shù)據(jù)集成:數(shù)加提供的官方同步工具,分為界面向?qū)J胶湍_本模式兩種開發(fā)模式。如果您是離線數(shù)據(jù)加工場(chǎng)景,那么優(yōu)先推薦選擇它。它可以完成阿里云云上數(shù)據(jù)到MaxCompute的大部分離線場(chǎng)景。DataX(開源):阿里開源的離線數(shù)據(jù)同步工具,可以理解它是數(shù)據(jù)集成(DI)的單機(jī)版實(shí)現(xiàn),它與數(shù)據(jù)集成所支持的數(shù)據(jù)源是基本相同的。但有些時(shí)候因?yàn)榫W(wǎng)絡(luò)、安全或者自定義需求等情況,無(wú)法用數(shù)據(jù)集成(DI)來(lái)完成企業(yè)的需求,此時(shí)可以考慮使用DataX來(lái)完成。Tunnel命令(MaxCompute命令行工具):它適用于原始數(shù)據(jù)存在在文件,臨時(shí)或一次性上傳一些數(shù)據(jù)到MaxCompute。TunnelSDK:在上述工具均無(wú)法滿足需求時(shí),可以通過(guò)自己調(diào)用TunnelSDK實(shí)現(xiàn)更加靈活自由的數(shù)據(jù)上傳需求。大數(shù)據(jù)上云工具(二)實(shí)時(shí)采集工具Logstash/Flume/Flunted:為3個(gè)開源的數(shù)據(jù)采集工具,阿里云分別為其提供了寫入DataHub的插件,可以實(shí)現(xiàn)數(shù)據(jù)采集后輸出到DataHub。適用于大部分文件類數(shù)據(jù)采集類需求,如行為日志,系統(tǒng)日志等。DTS(數(shù)據(jù)傳輸服務(wù)):是阿里云提供的云上數(shù)據(jù)的實(shí)時(shí)傳輸服務(wù),適用于采集RDS(MySQL)的實(shí)時(shí)更新數(shù)據(jù),并將其傳輸給DataHub或MaxCompute。如果你有云上RDS(MySQL)數(shù)據(jù)需要上傳到大數(shù)據(jù)平臺(tái),那么可以選擇它。不過(guò)它采集的是binlog信息,到MaxCompute后還需對(duì)數(shù)據(jù)做合并和預(yù)處理。OGG(OracleGoldenGate):主要適用于源庫(kù)為Oracle,可以通過(guò)其采集實(shí)時(shí)更新數(shù)據(jù)到DataHub中。一般在公共云上比較少見,但在專有云即線下機(jī)房比較常見。課程目錄大數(shù)據(jù)上云概述1.1大數(shù)據(jù)上云的優(yōu)勢(shì)1.2常見的大數(shù)據(jù)上云方案2.大數(shù)據(jù)上云流程3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題大數(shù)據(jù)系統(tǒng)上云方案–概述大數(shù)據(jù)系統(tǒng)上云,概括講,就是將已有非云上大數(shù)據(jù)系統(tǒng)(通常在企業(yè)內(nèi)網(wǎng))遷移到云上,系統(tǒng)的數(shù)據(jù)存儲(chǔ)和系統(tǒng)功能使用云平臺(tái)提供的產(chǎn)品和技術(shù)來(lái)實(shí)現(xiàn)。上云產(chǎn)品選型數(shù)據(jù)遷移數(shù)據(jù)接口遷移數(shù)據(jù)處理遷移應(yīng)用遷移管理工具遷移例如:阿里云大數(shù)據(jù)平臺(tái)大數(shù)據(jù)系統(tǒng)上云方案–產(chǎn)品選型大數(shù)據(jù)系統(tǒng)上云首先是產(chǎn)品選型,評(píng)估已有系統(tǒng)在數(shù)據(jù)存儲(chǔ)容、計(jì)算、接口功能、應(yīng)用功能、管理功能等方面的需求,選擇匹配的云產(chǎn)品。如下為阿里云產(chǎn)品的常見選型方案:MaxComputeADB實(shí)時(shí)計(jì)算OSSDataWorks存儲(chǔ)計(jì)算接口應(yīng)用管理結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)離線批量計(jì)算交互式分析實(shí)時(shí)流式計(jì)算離線批量接口實(shí)時(shí)接口圖形化報(bào)表大屏服務(wù)接口用戶權(quán)限元數(shù)據(jù)數(shù)據(jù)質(zhì)量運(yùn)維運(yùn)維、調(diào)度等工具QuickBIDataVDataHub、DTS大數(shù)據(jù)系統(tǒng)上云方案–數(shù)據(jù)遷移數(shù)據(jù)遷移,將已有大數(shù)據(jù)系統(tǒng)歷史數(shù)據(jù)遷移到云平臺(tái)存儲(chǔ)。已有大數(shù)據(jù)系統(tǒng)數(shù)據(jù)存儲(chǔ)目標(biāo)存儲(chǔ)遷移工具直接抽取加載數(shù)據(jù)文件(csv、txt)抽取工具加載工具方案1方案2注意:字段類型兼容、物理模型變化(如分區(qū))、一次遷移還是分批遷移、遷移后數(shù)據(jù)校驗(yàn)等大數(shù)據(jù)系統(tǒng)上云方案–數(shù)據(jù)接口遷移系統(tǒng)上云后,與源系統(tǒng)的數(shù)據(jù)接口將面臨網(wǎng)絡(luò)環(huán)境的變化、接口實(shí)現(xiàn)方式和工具的變化。通常通過(guò)在企業(yè)內(nèi)網(wǎng)增加同時(shí)能夠連接內(nèi)外網(wǎng)的服務(wù)器作為數(shù)據(jù)傳輸?shù)闹修D(zhuǎn)。云上大數(shù)據(jù)系統(tǒng)企業(yè)內(nèi)網(wǎng)各業(yè)務(wù)系統(tǒng)中轉(zhuǎn)服務(wù)器(數(shù)據(jù)集成資源組)MaxComputeDataWorks數(shù)據(jù)集成數(shù)據(jù)數(shù)據(jù)控制大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)加工處理,需要使用云產(chǎn)品提供的相關(guān)技術(shù)和工具來(lái)改造或重構(gòu)實(shí)現(xiàn)。阿里云的離線和實(shí)時(shí)計(jì)算產(chǎn)品提供了數(shù)據(jù)處理編程框架和開發(fā)環(huán)境實(shí)現(xiàn)數(shù)據(jù)加工處理功能。MaxComputeSQLUDF編程框架MapReduce編程框架Graph編程框架RESTfulAPIJavaSDKPython

SDKDataWorksDataStudio離線計(jì)算MaxCompute實(shí)時(shí)計(jì)算RealtimeComputeFlinkSQLFlinkDatastreamRESTfulAPI(OpenAPI)DataWorksStreamStudio大數(shù)據(jù)系統(tǒng)上云方案–數(shù)據(jù)處理大數(shù)據(jù)系統(tǒng)上云方案–應(yīng)用系統(tǒng)遷移大數(shù)據(jù)系統(tǒng)的應(yīng)用為數(shù)據(jù)應(yīng)用,即從大數(shù)據(jù)平臺(tái)獲取數(shù)據(jù)進(jìn)行展現(xiàn)、分析、挖掘、對(duì)外提供數(shù)據(jù)服務(wù)接口等。整體可有兩種方式:使用云上工具產(chǎn)品重構(gòu)應(yīng)用;沿用原有應(yīng)用工具軟件,云上提供數(shù)據(jù)接口。QuickBIDataV機(jī)器學(xué)習(xí)PAIDataWorks數(shù)據(jù)服務(wù)原有各類應(yīng)用重構(gòu)X√應(yīng)用數(shù)據(jù)庫(kù)DataWorks數(shù)據(jù)服務(wù)原有各類應(yīng)用工具軟件MaxCompute也可混合使用,比如QuickBI可以與原有BI工具頁(yè)面互相嵌入JDBCRESTful大數(shù)據(jù)系統(tǒng)上云方案–管理工具遷移大數(shù)據(jù)系統(tǒng)運(yùn)行還需要一系列管理工具,提供如離線調(diào)度、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、運(yùn)維、用戶權(quán)限管理等功能。系統(tǒng)上云后,通常使用云上相應(yīng)產(chǎn)品來(lái)實(shí)現(xiàn),但需要進(jìn)行元數(shù)據(jù)遷移和配置重構(gòu)工作。DataWorks離線調(diào)度原有各類管理工具遷移、重構(gòu)X√DataWorks數(shù)據(jù)地圖DataWorks用戶和權(quán)限D(zhuǎn)ataWorks數(shù)據(jù)質(zhì)量管理DataWorks運(yùn)維中心項(xiàng)目背景隨著公司業(yè)務(wù)的不斷發(fā)展,業(yè)務(wù)與產(chǎn)品的復(fù)雜程度越來(lái)越高,根據(jù)公司關(guān)于營(yíng)業(yè)廳前臺(tái)提升服務(wù)總體要求。由于系統(tǒng)架構(gòu)陳舊、運(yùn)維復(fù)雜等痛點(diǎn),導(dǎo)致短信積壓以及需求上線時(shí)間過(guò)長(zhǎng)等問(wèn)題,已制約業(yè)務(wù)持續(xù)發(fā)展。應(yīng)用小機(jī)部署,擴(kuò)容困難技術(shù)架構(gòu)陳舊,數(shù)據(jù)庫(kù)有單點(diǎn)故障風(fēng)險(xiǎn),影響短信處理配置能力不足,短信菜單等配置信息,無(wú)法實(shí)時(shí)刷新,業(yè)務(wù)上線時(shí)間過(guò)長(zhǎng)云化改造目標(biāo):1、應(yīng)用容器化改造,分布式部署,實(shí)現(xiàn)應(yīng)用快速擴(kuò)縮容。2、技術(shù)架構(gòu)重構(gòu),數(shù)據(jù)庫(kù)解耦,避免短信積壓;中心化服務(wù)改造,實(shí)現(xiàn)服務(wù)標(biāo)準(zhǔn)化3、配置能力提升,實(shí)現(xiàn),縮短新業(yè)務(wù)上線時(shí)間。省短信網(wǎng)關(guān)smsrecv1

Kafka集群sms-up-topiclog-topicBUSIsmsrecv2smsrecv3......SEND......LOG......sms-down-topicRDBRedis集群省短信網(wǎng)關(guān)文件Hadoop業(yè)務(wù)痛點(diǎn)1:業(yè)務(wù)痛點(diǎn)2:業(yè)務(wù)痛點(diǎn)3:行業(yè)案例–運(yùn)營(yíng)商系統(tǒng)上云13面向不同主體角色,在平臺(tái)上構(gòu)建各類應(yīng)用,滿足不同管理機(jī)構(gòu)與用戶的共性需求與個(gè)性化需求標(biāo)準(zhǔn)化前端應(yīng)用為各渠道用戶提供基線應(yīng)用負(fù)責(zé)應(yīng)用提供的主體承擔(dān)相應(yīng)安全職責(zé)能力共享平臺(tái):負(fù)責(zé)對(duì)外提供標(biāo)準(zhǔn)化能力A-PaaS:基于分布式架構(gòu)之上構(gòu)建的核心能力中心,提供業(yè)務(wù)能力和數(shù)據(jù)I-PaaS:創(chuàng)新合作;

高性能、高可靠、高擴(kuò)展、分布式;O-PaaS:提供研發(fā)、測(cè)試、發(fā)布、運(yùn)營(yíng)保障工具和手段,統(tǒng)一數(shù)據(jù)共享、統(tǒng)一資源調(diào)度、統(tǒng)一安全管控、統(tǒng)一運(yùn)營(yíng)監(jiān)控,負(fù)責(zé)平臺(tái)提供的主體承擔(dān)相應(yīng)安全職責(zé)物理機(jī)+虛機(jī)+容器化,網(wǎng)絡(luò)+安全云化,按需申請(qǐng),即訂即用SaaSA-PaaSI-PaaS業(yè)務(wù)中心層功能服務(wù)/對(duì)象服務(wù)層APIHub開放運(yùn)營(yíng)流程/服務(wù)編排RestAPI第三方能力開放接口自有應(yīng)用客戶自服務(wù)門戶營(yíng)業(yè)廳門戶合作伙伴門戶管理員門戶O-PaaS單點(diǎn)登錄/認(rèn)證統(tǒng)一接口集成統(tǒng)一運(yùn)營(yíng)監(jiān)控統(tǒng)一安全管控……IaaS云主機(jī)ECS負(fù)載均衡SLB虛擬網(wǎng)絡(luò)VPC…云存儲(chǔ)基礎(chǔ)技術(shù)組件分布式服務(wù)框架分布式消息框架流程引擎……日志調(diào)用鏈服務(wù)能力集成框架RDSEDASOTSDRDS……參與人服務(wù)產(chǎn)商品服務(wù)訂單服務(wù)工單服務(wù)賬務(wù)服務(wù)…開放平臺(tái)新媒體業(yè)務(wù)在線業(yè)務(wù)平臺(tái)第三方應(yīng)用…參與人子系統(tǒng)訂單/工單子系統(tǒng)產(chǎn)商品子系統(tǒng)規(guī)則子系統(tǒng)營(yíng)銷子系統(tǒng)實(shí)時(shí)事件子系統(tǒng)會(huì)員子系統(tǒng)賬務(wù)子系統(tǒng)SKU/打包子系統(tǒng)客戶洞察子系統(tǒng)行業(yè)案例–銀行大數(shù)據(jù)系統(tǒng)上云14行業(yè)上云方案-購(gòu)物平臺(tái)大數(shù)據(jù)系統(tǒng)上云供應(yīng)鏈平臺(tái)(商流)結(jié)算平臺(tái)(資金流)履約平臺(tái)(物流)交易平臺(tái)(信息流)打造四大核心能力客戶策略運(yùn)營(yíng)多角色協(xié)同數(shù)據(jù)智能分析全鏈路跟蹤運(yùn)營(yíng)效率集約商業(yè)模式創(chuàng)新核心能力共享能力對(duì)外輸出商品保險(xiǎn)旅游家裝汽車海淘全媒體賦能作為購(gòu)物公司,面對(duì)業(yè)務(wù)規(guī)模和業(yè)務(wù)種類的快速增長(zhǎng),以及業(yè)務(wù)模式變化,通過(guò)重構(gòu)數(shù)字化IT系統(tǒng),建立4個(gè)應(yīng)用平臺(tái),4個(gè)管理平臺(tái)即12個(gè)能力業(yè)務(wù)中臺(tái),實(shí)現(xiàn)靈活敏捷支撐基于全媒體多渠道的零售、采購(gòu)管理、企業(yè)管理三類業(yè)務(wù)。15課程目錄1.大數(shù)據(jù)上云概述2.大數(shù)據(jù)上云流程2.1客戶調(diào)研2.2資源評(píng)估2.3數(shù)據(jù)遷移上云2.4業(yè)務(wù)邏輯遷移上云2.5系統(tǒng)校驗(yàn)3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題大數(shù)據(jù)上云流程-概述客戶調(diào)研現(xiàn)狀調(diào)研資源評(píng)估存儲(chǔ)資源計(jì)算資源網(wǎng)絡(luò)資源人員數(shù)據(jù)上云數(shù)據(jù)表結(jié)構(gòu)存量數(shù)據(jù)增量數(shù)據(jù)邏輯上云SQLUDF內(nèi)置函數(shù)系統(tǒng)校驗(yàn)數(shù)據(jù)核驗(yàn)邏輯核驗(yàn)業(yè)務(wù)核驗(yàn)課程目錄1.大數(shù)據(jù)上云概述2.大數(shù)據(jù)上云流程2.1客戶調(diào)研2.2資源評(píng)估2.3數(shù)據(jù)遷移上云2.4業(yè)務(wù)邏輯遷移上云2.5系統(tǒng)校驗(yàn)3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題客戶調(diào)研(一)客戶調(diào)研(二)課程目錄1.大數(shù)據(jù)上云概述2.大數(shù)據(jù)上云流程2.1客戶調(diào)研2.2資源評(píng)估2.3數(shù)據(jù)遷移上云2.4業(yè)務(wù)邏輯遷移上云2.5系統(tǒng)校驗(yàn)3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題資源評(píng)估-存儲(chǔ)資源評(píng)估存儲(chǔ)資源存儲(chǔ)空間=原始數(shù)據(jù)量*壓縮比*膨脹系數(shù)壓縮比:MaxComput采用列式壓縮,壓縮比根據(jù)實(shí)際數(shù)據(jù)有所變化,通常能壓縮到原文件大小的1/5

。建議傳幾個(gè)數(shù)據(jù)量較大的表,作為樣例,評(píng)估壓縮比。膨脹系數(shù):數(shù)據(jù)的處理過(guò)程中還會(huì)產(chǎn)生一系列衍生數(shù)據(jù),比如數(shù)據(jù)清洗、匯總的中間結(jié)果以及最終的結(jié)果等。因此,有一定的膨脹系數(shù),一般取1~3。資源評(píng)估-計(jì)算資源評(píng)估計(jì)算資源MaxCompute分按量計(jì)費(fèi)和包年包月兩種計(jì)算計(jì)費(fèi)方式:包年包月:此方式僅在阿里云大數(shù)據(jù)計(jì)算服務(wù)提供,包括SQL、MapReduce等計(jì)算任務(wù)。按量計(jì)費(fèi):按量計(jì)費(fèi)方式針對(duì)SQL任務(wù)、MapReduce任務(wù)等計(jì)算任務(wù)進(jìn)行計(jì)費(fèi)。對(duì)于剛開始上云的企業(yè),建議先開通按量計(jì)費(fèi),然后將數(shù)據(jù)進(jìn)行POC測(cè)試(即針對(duì)客戶具體應(yīng)用的驗(yàn)證性測(cè)試),計(jì)算自己的任務(wù)大概需要消耗多少Worker,通過(guò)Worker數(shù)推算CU數(shù)量,這樣就能大概估算出最終需要購(gòu)買資源的數(shù)量。資源評(píng)估-網(wǎng)絡(luò)資源評(píng)估網(wǎng)絡(luò)資源在從企業(yè)IDC機(jī)房向云上同步數(shù)據(jù)時(shí),網(wǎng)絡(luò)帶寬是一個(gè)常見的瓶頸,可以分兩個(gè)階段對(duì)所需網(wǎng)絡(luò)帶寬進(jìn)行評(píng)估:1、數(shù)據(jù)初始化:初始數(shù)據(jù)上云遷移的帶寬資源,能否滿足業(yè)務(wù)要求。初始化同步速度=初始化總數(shù)據(jù)量/業(yè)務(wù)期望初始化時(shí)間2、每日增量:現(xiàn)有網(wǎng)絡(luò)帶寬資源與初始化同步速度、每日同步速度對(duì)比,看能否滿足業(yè)務(wù)要求。

每日同步速度根據(jù)=每日增量數(shù)據(jù)量/業(yè)務(wù)期望每日同步時(shí)間資源評(píng)估-人力資源評(píng)估人員數(shù)據(jù)上云涉及人員包括數(shù)據(jù)開發(fā)人員、運(yùn)維人員、業(yè)務(wù)人員。各方職責(zé)分別如下:數(shù)據(jù)開發(fā)人員:一般指整個(gè)數(shù)據(jù)團(tuán)隊(duì),該團(tuán)隊(duì)負(fù)責(zé)協(xié)調(diào)各方人員,確定整體上云方案及架構(gòu),并負(fù)責(zé)最終上云具體實(shí)施。運(yùn)維人員:主要負(fù)責(zé)保障硬件、網(wǎng)絡(luò)等資源,如網(wǎng)絡(luò)如何打通、帶寬如何提高、專線如何接入等。業(yè)務(wù)人員:負(fù)責(zé)整體業(yè)務(wù)邏輯遷移中對(duì)具體業(yè)務(wù)邏輯問(wèn)題支持。課程目錄1.大數(shù)據(jù)上云概述2.大數(shù)據(jù)上云流程2.1客戶調(diào)研2.2資源評(píng)估2.3數(shù)據(jù)遷移上云2.4業(yè)務(wù)邏輯遷移上云2.5系統(tǒng)校驗(yàn)3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題數(shù)據(jù)上云-表結(jié)構(gòu)遷移數(shù)據(jù)上云到MaxCompute時(shí),第一步就是考慮如何將原有的表結(jié)構(gòu)類型轉(zhuǎn)換為MaxCompute的表結(jié)構(gòu)類型。建議的方式是將源庫(kù)表的表結(jié)構(gòu)腳本導(dǎo)出,批量編輯修改為MaxCompute所需的語(yǔ)法。MaxComputeSQL:采用的是類似于SQL的語(yǔ)法。它的語(yǔ)法是標(biāo)準(zhǔn)語(yǔ)法ANSISQL92的一個(gè)子集,并有自己的擴(kuò)展。但不能因此簡(jiǎn)單地把MaxCompute等價(jià)成一個(gè)數(shù)據(jù)庫(kù),它在很多方面并不具備數(shù)據(jù)庫(kù)的特征,如事務(wù)、主鍵約束、索引等。SQL語(yǔ)法差異:與Hive、MySQL、Oracle、SQLServer的SQL語(yǔ)法,是有差異的,遷移的時(shí)候,需要注意改造。數(shù)據(jù)類型差異:MaxCompute2.0推出了兼容開源主流產(chǎn)品的2.0數(shù)據(jù)類型和Hive兼容數(shù)據(jù)類型兩個(gè)數(shù)據(jù)類型版本。加上原有的1.0數(shù)據(jù)類型版本,目前Maxompute一共支持3個(gè)數(shù)據(jù)類型版本。數(shù)據(jù)上云-存量數(shù)據(jù)上云數(shù)據(jù)上云時(shí),第一批需要遷移的就是存量數(shù)據(jù)。存量數(shù)據(jù)是指源庫(kù)或源端已經(jīng)存在的歷史數(shù)據(jù),需要評(píng)估這部分?jǐn)?shù)據(jù)是一次性、還是分多次遷移到云上,各方面的性能能否滿足要求。1)數(shù)據(jù)源讀取性能能否滿足要求?需要找業(yè)務(wù)系統(tǒng)支持人員來(lái)調(diào)整性能參數(shù)等來(lái)提高其讀取速度。2)帶寬能否滿足要求?存量數(shù)據(jù)往往體量較大,能否在指定時(shí)間內(nèi)完成數(shù)據(jù)遷移是個(gè)重要的問(wèn)題。3)同步機(jī)器資源是否足夠?數(shù)據(jù)接收端的性能是否滿足要求,不滿足的,需要及時(shí)擴(kuò)容。4)同步工具的性能能否滿足需要?同步工具能否支持住規(guī)定的流量。5)MaxCompute寫入性能是否夠用?開通的產(chǎn)品規(guī)格是否能夠確保完成數(shù)據(jù)上云。性能評(píng)估內(nèi)容數(shù)據(jù)上云-增量數(shù)據(jù)更新(批量)增量數(shù)據(jù)更新(批量)指的是日常定時(shí)同步任務(wù),定時(shí)從源庫(kù)抽取最新更新數(shù)據(jù)到MaxCompute中。最常見的場(chǎng)景就是T+1,即每天晚上定時(shí)同步當(dāng)天的數(shù)據(jù)到MaxCompute中。增量更新策略1)生產(chǎn)系統(tǒng)有時(shí)間戳字段:以日期為篩選條件,批量更新。2)如果沒(méi)有時(shí)間戳字段,則考慮下兩種方式:a)源表數(shù)據(jù)量不大:可以每日全量更新。b)源表數(shù)據(jù)量較大:使用數(shù)據(jù)庫(kù)的同步機(jī)制,如MySQL的binLog??蛻鬒DCHadoop集群數(shù)據(jù)集成數(shù)據(jù)集成存量數(shù)據(jù)初始每日增量數(shù)據(jù)更新MaxCompute目標(biāo)表每日增量分區(qū)表每日增量分區(qū)表每日增量分區(qū)表初次存量阿里云數(shù)據(jù)上云-增量數(shù)據(jù)更新(實(shí)時(shí))增量數(shù)據(jù)更新(實(shí)時(shí))一般適用于實(shí)時(shí)/流式業(yè)務(wù)場(chǎng)景,要求業(yè)務(wù)數(shù)據(jù)實(shí)時(shí)歸檔到MaxCompute或者實(shí)時(shí)進(jìn)行流計(jì)算處理,此時(shí)可以選擇實(shí)時(shí)數(shù)據(jù)采集的方式,可供選擇的實(shí)時(shí)采集工具也比較多,如Logstash、Fluentd、Flume、DTS、OGG等。1)如果源數(shù)據(jù)為文件/日志格式,建議采用Logstash/Flume/Fluentd的方式。2)如果源數(shù)據(jù)為Oracle數(shù)據(jù)庫(kù),建議采用OGG。3)如果源數(shù)據(jù)為阿里云RDS,建議采用DTS。4)如果有自定義的需求,或上述工具均無(wú)法支持的場(chǎng)景,可以使用DataHubSDK完成更加靈活的數(shù)據(jù)上傳。工具選擇業(yè)務(wù)系統(tǒng)MaxComputeLogstat/Flume/Fluentd等歷史數(shù)據(jù)臨時(shí)層匯總數(shù)據(jù)實(shí)時(shí)消費(fèi)LogsFileOracleMySQL…歸檔StreamCompute專線或公網(wǎng)DataHub合并課程目錄1.大數(shù)據(jù)上云概述2.大數(shù)據(jù)上云流程2.1客戶調(diào)研2.2資源評(píng)估2.3數(shù)據(jù)遷移上云2.4業(yè)務(wù)邏輯遷移上云2.5系統(tǒng)校驗(yàn)3.傳統(tǒng)大數(shù)據(jù)系統(tǒng)上云案例4.本章小結(jié)5.本章習(xí)題業(yè)務(wù)邏輯上云-SQL遷移重點(diǎn)從如下幾個(gè)方面進(jìn)行SQL的遷移MaxComputeSQL采用的是類似于SQL的語(yǔ)法。它的語(yǔ)法是標(biāo)準(zhǔn)語(yǔ)法ANSISQL92的一個(gè)子集,并有自己的擴(kuò)展。但不能因此簡(jiǎn)單地把MaxCompute等價(jià)成一個(gè)數(shù)據(jù)庫(kù),它在很多方面并不具備數(shù)據(jù)庫(kù)的特征,如事務(wù)、主鍵約束、索引等,更多差異請(qǐng)參見與其他SQL語(yǔ)法的差異。目前在MaxCompute中允許的最大SQL長(zhǎng)度是2MB。數(shù)據(jù)類型DDL語(yǔ)法差異對(duì)比DML語(yǔ)法差異對(duì)比SCRIPTING語(yǔ)法差異對(duì)比業(yè)務(wù)邏輯上云-內(nèi)置函數(shù)遷移/document_detail/96342.html?spm=a2c4g.11174283.6.712.4485590eWFVpCG不同數(shù)據(jù)庫(kù)的內(nèi)置函數(shù)也是有很大差異的,但大部分除了名字不同之外,一些通用的函數(shù)功能是一致的。日期函數(shù)數(shù)學(xué)函數(shù)窗口函數(shù)聚合函數(shù)字符串函數(shù)其他函數(shù)自定義函數(shù)分類自定義函數(shù)差異詳情業(yè)務(wù)邏輯上云-UDF遷移UDF全稱為UserDefinedFunction,即用戶自定義函數(shù)。UDF廣義的說(shuō)法代表了自定義標(biāo)量函數(shù)、自定義聚合函數(shù)及自定義表函數(shù)三種類型的自定義函數(shù)的集合。狹義的說(shuō)法僅代表用戶自定義標(biāo)量函數(shù)。傳統(tǒng)RDBMS中自定義函數(shù)的遷移傳統(tǒng)RDBMS(如Oracle、MySQL)中的自定義函數(shù)的開發(fā)語(yǔ)言為SQL,遷移時(shí)需參考MaxComputeUDF開發(fā)說(shuō)明,使用Java或Python重新實(shí)現(xiàn)其業(yè)務(wù)邏輯。HiveUDF的遷移Hive的UDF與MaxComputeUDF的開發(fā)語(yǔ)言相同,實(shí)現(xiàn)方式也極其類似,遷移過(guò)程相對(duì)容易,但需要注意以下兩點(diǎn):1)需要將HiveUDF代碼中引用的接口改為MaxCompute的接口。2)如果HiveUDF中使用了一些本地文件或HDFS文件,那么需要將這類文件上傳到MaxCompute中作為資源來(lái)保存和訪問(wèn)。課程目錄1.大數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論