阿里云云原生一體化數(shù)倉(cāng)新能力解讀_第1頁(yè)
阿里云云原生一體化數(shù)倉(cāng)新能力解讀_第2頁(yè)
阿里云云原生一體化數(shù)倉(cāng)新能力解讀_第3頁(yè)
阿里云云原生一體化數(shù)倉(cāng)新能力解讀_第4頁(yè)
阿里云云原生一體化數(shù)倉(cāng)新能力解讀_第5頁(yè)
已閱讀5頁(yè),還剩159頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

云原生一體化數(shù)倉(cāng)是阿里云整合自研大數(shù)據(jù)產(chǎn)品云原生大數(shù)計(jì)算服務(wù)一、離線(xiàn)實(shí)時(shí)一體化新能力解讀 5二、分析服務(wù)一體化新能力解讀 三、數(shù)據(jù)建模新能力解讀 四、數(shù)據(jù)治理新能力解讀 41五、湖倉(cāng)一體新能力解讀 六、數(shù)據(jù)安全新能力解讀 持高吞吐數(shù)據(jù)的寫(xiě)入,支持批量數(shù)據(jù)通道和流式數(shù)據(jù)通道。在數(shù)據(jù)寫(xiě)入之前比如至毫秒級(jí),單個(gè)作業(yè)吞吐量可達(dá)到百萬(wàn)級(jí)。在數(shù)據(jù)共享互通方面,是做到了好的數(shù)據(jù)。這個(gè)示例可以表明,交易訂單數(shù)據(jù)可以實(shí)時(shí)或者近實(shí)時(shí)寫(xiě)入商家用戶(hù)下單總數(shù)業(yè)務(wù)在線(xiàn)化、運(yùn)營(yíng)精細(xì)化驅(qū)動(dòng)數(shù)據(jù)實(shí)時(shí)化隨著互聯(lián)網(wǎng)的發(fā)展,業(yè)務(wù)對(duì)于在線(xiàn)化、運(yùn)營(yíng)精細(xì)化的需求日益強(qiáng)烈,領(lǐng)導(dǎo)駕駛艙、實(shí)時(shí)大屏等,起到了越來(lái)越重要的作用。對(duì)于ToB業(yè)務(wù),需要支持?jǐn)?shù)據(jù)決策,將數(shù)據(jù)分析的能力賦予業(yè)務(wù),同時(shí)要提供實(shí)時(shí)的精細(xì)化運(yùn)營(yíng)的能力;對(duì)于ToC的業(yè)務(wù),核心是需要提高在線(xiàn)轉(zhuǎn)化的效率,那么就產(chǎn)生了實(shí)時(shí)數(shù)據(jù)中臺(tái),實(shí)時(shí)用戶(hù)畫(huà)像,個(gè)性化推薦和實(shí)時(shí)風(fēng)控的需求。批流多路、混合負(fù)載的實(shí)時(shí)數(shù)倉(cāng)場(chǎng)景這是一個(gè)常見(jiàn)的業(yè)務(wù)需求架構(gòu)。日志系統(tǒng)的數(shù)據(jù)和交易系統(tǒng)的數(shù)據(jù)實(shí)時(shí)地寫(xiě)入數(shù)倉(cāng)。對(duì)于寫(xiě)入的數(shù)據(jù),會(huì)經(jīng)過(guò)兩條鏈路,一條鏈路會(huì)生成明細(xì)數(shù)據(jù),由前端BI系統(tǒng)在線(xiàn)Ad-hoc的查詢(xún)。同時(shí)也可以持續(xù)的被Dashboad實(shí)時(shí)的展示出來(lái)。同時(shí)這些明細(xì)數(shù)據(jù)也會(huì)進(jìn)行實(shí)時(shí)聚合,形成聚合數(shù)據(jù),比如頁(yè)面流量明細(xì),用戶(hù)點(diǎn)擊明細(xì)會(huì)被聚合成5分鐘的商品瀏覽記錄,7天的瀏覽記錄,30天的流轉(zhuǎn)記錄等,這些數(shù)據(jù)對(duì)推薦系統(tǒng)提供在線(xiàn)服務(wù),同時(shí)這個(gè)過(guò)程中還會(huì)與維表數(shù)據(jù)關(guān)聯(lián),例如用戶(hù)的特征,商品特征等,關(guān)聯(lián)后進(jìn)行聚合以服務(wù)于在線(xiàn)系統(tǒng)。傳統(tǒng)Lambda架構(gòu)“紛繁蕪雜”,數(shù)倉(cāng)建設(shè)之痛為了滿(mǎn)足業(yè)務(wù)這樣的需求,一般會(huì)使用Lambda架構(gòu)搭建數(shù)倉(cāng),客戶(hù)實(shí)時(shí)的寫(xiě)入例如Clickhouse或者Druid這樣的OLAP系統(tǒng),同時(shí)對(duì)于在線(xiàn)服務(wù),使用Hbase、Redis這樣的系統(tǒng)支撐,最后,對(duì)于離線(xiàn)服務(wù)將其歸檔到Hive和MaxCompute這類(lèi)離線(xiàn)數(shù)倉(cāng)中,有時(shí)業(yè)務(wù)需要離在線(xiàn)一體化的分析,會(huì)用到Presto來(lái)加速查詢(xún)這些離線(xiàn)數(shù)據(jù)和在線(xiàn)數(shù)據(jù),然后作為統(tǒng)一出口,再提供給報(bào)表和Dashboard去使用。上文提到過(guò)可能還會(huì)有一些實(shí)時(shí)聚合的需求,以及維表的需求,這些維表往往會(huì)存在HBase里面,同時(shí)跟交易數(shù)據(jù)實(shí)時(shí)聚合后,變成上文提到的如5日sku的瀏覽量或者是7日頁(yè)面流量數(shù)據(jù)等,再寫(xiě)回HBase或者Redis,實(shí)時(shí)的面對(duì)如API服務(wù),或者手機(jī)App服務(wù)。那會(huì)發(fā)現(xiàn)在整條鏈路里面會(huì)有很多線(xiàn),自然會(huì)形成一些問(wèn)題,比如架構(gòu)復(fù)雜,數(shù)據(jù)同步難,資源消耗大,數(shù)據(jù)孤島等等一系列的問(wèn)題。不難發(fā)現(xiàn),在這種架構(gòu)中,數(shù)據(jù)多次被搬遷,導(dǎo)致加工鏈路長(zhǎng),數(shù)據(jù)不一致,且隨著組件增加,開(kāi)發(fā)難度,架構(gòu)復(fù)雜性,運(yùn)維難度隨之而增加。每種技術(shù)僅解決一種問(wèn)題在這個(gè)架構(gòu)下,每種技術(shù)分別解決了什么問(wèn)題。大概可以將這些技術(shù)分為三類(lèi),可以想一下整個(gè)場(chǎng)景的業(yè)務(wù)要求,例如適合聚合計(jì)算,高吞吐,高可用等。第一類(lèi)是事務(wù)數(shù)據(jù)庫(kù),一般事務(wù)數(shù)據(jù)庫(kù)是按照行存儲(chǔ)的,對(duì)于交易型的數(shù)據(jù)有很好的更新能力,但是對(duì)于千萬(wàn)級(jí)及以上的統(tǒng)計(jì)型的查詢(xún),消耗時(shí)非常大的,所以一般也不用事務(wù)型數(shù)據(jù)庫(kù)做分析。第二類(lèi)是OLAP系統(tǒng),這一類(lèi)技術(shù)會(huì)對(duì)分析場(chǎng)景做很多優(yōu)化,例如列存技術(shù),分布式技術(shù),索引技術(shù)等等,這類(lèi)技術(shù)查詢(xún)都很快,但是往往在更新上稍顯不足。第三類(lèi)在大數(shù)據(jù)分析場(chǎng)景中也很常見(jiàn),定義為serving的系統(tǒng),需要提供在線(xiàn)服務(wù),需要有高吞吐和超快的查詢(xún)響應(yīng),但是犧牲了靈活性,例如文檔數(shù)據(jù)庫(kù),或者KV查詢(xún)的數(shù)據(jù)庫(kù),對(duì)于Key/Value的查詢(xún)和更新的效率都非常高?,F(xiàn)有的架構(gòu),就是根據(jù)業(yè)務(wù)特征,將不同業(yè)務(wù)拆分到不同系統(tǒng)存儲(chǔ),數(shù)據(jù)在各個(gè)系統(tǒng)中交換,每一次的數(shù)據(jù)交換就帶來(lái)了數(shù)據(jù)搬遷的成本,數(shù)據(jù)不一致的可能性和數(shù)據(jù)開(kāi)發(fā)的復(fù)雜性。所以大家自然而然的在很多領(lǐng)域做創(chuàng)新,第一類(lèi)就是在TP和AP領(lǐng)域做創(chuàng)新,在混合負(fù)載的場(chǎng)景下,使用一種技術(shù)解決TP和AP的負(fù)載,一個(gè)系統(tǒng)既支持事務(wù)又支持分析,這個(gè)狀態(tài)非常的理想,希望這個(gè)系統(tǒng)能夠真正的落地,但現(xiàn)在看來(lái)這個(gè)系統(tǒng)還有些過(guò)于理想。因?yàn)橐С质聞?wù),會(huì)帶來(lái)更多鎖的開(kāi)銷(xiāo),那么在整個(gè)并發(fā)查詢(xún)和更新上會(huì)有更高的代價(jià),和更多的負(fù)其實(shí)從下圖左側(cè)也可以有一些創(chuàng)新,左側(cè)最明顯的是不支持事務(wù)。如果不需要那么多事務(wù),那么更有可能支持更高的查詢(xún)性能、提供更強(qiáng)的寫(xiě)入和更新能力,可能下圖左側(cè)的技術(shù),更加能覆蓋以上提到的分析和服務(wù)一體化場(chǎng)景。解決問(wèn)題的方案:分析、服務(wù)一體化Hologres就是符合上圖左側(cè)所說(shuō)的分析和服務(wù)一體化的一個(gè)產(chǎn)品。一套系統(tǒng)支持多個(gè)場(chǎng)景,OLAP的分析可以、點(diǎn)查可以、在線(xiàn)服務(wù)也可以,同時(shí)支持離線(xiàn)數(shù)據(jù)導(dǎo)入和實(shí)時(shí)數(shù)據(jù)更新,真正意義上做到分析服務(wù)一體化。分析服務(wù)一體化產(chǎn)品能力需求其實(shí)產(chǎn)品的能力也是和需求相關(guān)的,在OLAP分析場(chǎng)景,Hologres提供了高性能的實(shí)時(shí)寫(xiě)入與更新能力,寫(xiě)入即可查,使用了列存、壓縮、索引等技術(shù),以支撐高性能的查詢(xún)分析。同時(shí)還支持了基于主鍵的全量更新和局部更新場(chǎng)景,這種能力在實(shí)時(shí)場(chǎng)景下尤為重要,實(shí)時(shí)場(chǎng)景下數(shù)據(jù)通常來(lái)源于OLTP交易系統(tǒng),事務(wù)型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常都是有主鍵的,同時(shí)主鍵的設(shè)置也能有效的避免臟數(shù)據(jù)的重復(fù)寫(xiě)入,所以現(xiàn)在主鍵更新能力在實(shí)時(shí)場(chǎng)景下也越發(fā)重要。同時(shí)在線(xiàn)上服務(wù)場(chǎng)景,Hologres支持了行存,能夠提供上萬(wàn)乃至千萬(wàn)級(jí)別QPS的Key/Value點(diǎn)查能力,能夠?qū)τ谛写鏀?shù)據(jù)支持多副本高可用能力,保證服務(wù)的高可用。由于服務(wù)場(chǎng)景是非常敏感的,需要更強(qiáng)的資源隔離保證服務(wù)的穩(wěn)定性,所以Hologres現(xiàn)在提供了讀寫(xiě)分離的架構(gòu),避免了高吞吐寫(xiě)入對(duì)于讀的影響。最后,在數(shù)據(jù)湖分析的場(chǎng)景中,可以對(duì)于MaxCompute數(shù)據(jù)進(jìn)行離線(xiàn)加速,無(wú)需數(shù)據(jù)搬遷即可分析MaxCompute中的數(shù)據(jù),并且能夠支持每秒百萬(wàn)行數(shù)據(jù)的極速同步,減少離線(xiàn)重刷等場(chǎng)景的數(shù)據(jù)延遲。Hologres技術(shù)特點(diǎn)為什么Hologres能做到這些呢,其實(shí)沒(méi)有那么多神秘的地方,還是得益于IT技術(shù)的發(fā)展,網(wǎng)絡(luò)帶寬越來(lái)越大,現(xiàn)在存儲(chǔ)計(jì)算分離的架構(gòu),使用了阿里云自研的分布式文件系統(tǒng)盤(pán)古,這樣就能將整個(gè)系統(tǒng)做的更輕,做到多副本和高可用。在發(fā)生意外的時(shí)候,可以快速的從盤(pán)古上將數(shù)據(jù)加載回來(lái),快速恢復(fù)服務(wù)。下一步是對(duì)于存儲(chǔ)的,對(duì)于數(shù)據(jù)更新場(chǎng)景,過(guò)去很多系統(tǒng)都是根據(jù)掃描場(chǎng)景設(shè)計(jì)的,所以對(duì)于快速更新不太適合,Hologres底層存儲(chǔ)使用了SSD存儲(chǔ)介質(zhì),這樣的介質(zhì)隨機(jī)讀寫(xiě)能力更強(qiáng),讓架構(gòu)設(shè)計(jì)時(shí)就可以?huà)侀_(kāi)傳統(tǒng)針對(duì)掃描場(chǎng)景的系統(tǒng)設(shè)計(jì),有行存有列存,來(lái)應(yīng)對(duì)不同的場(chǎng)景。第三個(gè)是CPU多核化,隨著現(xiàn)在CPU的核越來(lái)越多,那么提升CPU的利用率,發(fā)揮并行計(jì)算的能力,就可以更有效的提升性能,Hologres本身使用C++進(jìn)行開(kāi)發(fā),使用了全異步執(zhí)行引擎,最大程度的利用了多核性能。從行存、列存到行列共存此前的版本中,Hologres支持行存,數(shù)據(jù)按行存儲(chǔ),行存更加適合Key/Value點(diǎn)查場(chǎng)景,用于支撐高QPS的查詢(xún)場(chǎng)景。同時(shí)也支持了列存,列存是將數(shù)據(jù)按列存儲(chǔ),更加適合OLAP場(chǎng)景。但現(xiàn)實(shí)場(chǎng)景會(huì)更加復(fù)雜,一張表生成后很難絕對(duì)的只支持一種場(chǎng)景,因此Hologres推出了行列共存表,一張表在后端同時(shí)存儲(chǔ)一張行存表也存儲(chǔ)一張列存表,Hologres內(nèi)部保證讀寫(xiě)一致性,優(yōu)化器會(huì)根據(jù)查詢(xún)特征,對(duì)于適合的場(chǎng)景使用最適合的存儲(chǔ)進(jìn)行回答查詢(xún)。這樣同時(shí)兼顧了行存和列存的優(yōu)勢(shì)場(chǎng)景。資源隔離,高可用,統(tǒng)一存儲(chǔ)為了提高可用性,和提供更強(qiáng)資源隔離的能力,Hologres現(xiàn)在不僅支持同一實(shí)例內(nèi)線(xiàn)程級(jí)別的資源組隔離,還能支持共享存儲(chǔ)的高可用模式,多個(gè)實(shí)例共享一份存儲(chǔ)。對(duì)于讀寫(xiě)的主實(shí)例,提供高性能寫(xiě)入能力,進(jìn)行加工負(fù)載。同時(shí)配置多個(gè)只讀從實(shí)例,用于滿(mǎn)足不同負(fù)載需求,例如一個(gè)只讀從實(shí)例提供在線(xiàn)OLAP分析,一個(gè)只讀從實(shí)例支持點(diǎn)查分析。互相之間互不影響,實(shí)現(xiàn)高可用和資源隔離。分析服務(wù)一體產(chǎn)品新能力解讀這里算是一個(gè)預(yù)告,Hologres在即將發(fā)布的1.3版本中,進(jìn)一步的提供了更多能力,在數(shù)據(jù)湖離線(xiàn)加速的場(chǎng)景,支持了讀取OSS上的Hudi和Delta格式數(shù)據(jù),同時(shí)支持MaxCompute的TransactionalTable離線(xiàn)加速。數(shù)據(jù)寫(xiě)入場(chǎng)景上,進(jìn)一步擴(kuò)展了FixedPlan支持的場(chǎng)景,支持了更新部分列,寫(xiě)入分區(qū)父表等場(chǎng)景。在數(shù)據(jù)查詢(xún)上支持實(shí)時(shí)物化視圖,用來(lái)加速實(shí)時(shí)聚合查詢(xún)場(chǎng)景。同時(shí)支持JSONB的列存優(yōu)化,通過(guò)采用列式存儲(chǔ),提高存儲(chǔ)效率和查詢(xún)效率。針對(duì)很多用戶(hù)日常使用的分區(qū)表場(chǎng)景,支持自動(dòng)創(chuàng)建和刪除分區(qū)子表,便于用戶(hù)更加便捷的管理分區(qū)表。同時(shí)還有很多針對(duì)查詢(xún)的優(yōu)化。最后在生態(tài)兼容上,支持了Oracle擴(kuò)展包,兼容了數(shù)百個(gè)兼容函數(shù)。同時(shí)PostGIS支持下推到Hologres原生的引擎,提升了查詢(xún)效率。當(dāng)然作為一個(gè)大數(shù)據(jù)產(chǎn)品,通常要用于對(duì)接BI系統(tǒng),Hologres在最新版本對(duì)于Tableau官方測(cè)試集的通過(guò)率達(dá)高了99%以上。冷熱分層,成本優(yōu)化針對(duì)幾個(gè)較為重要的功能,在此也做一些展開(kāi)。在1.3中,為了進(jìn)一步幫助客戶(hù)優(yōu)化成本,提供了冷熱分層存儲(chǔ)。在業(yè)務(wù)中,對(duì)于分區(qū)表數(shù)據(jù),通常業(yè)務(wù)會(huì)高頻訪(fǎng)問(wèn)近期的分區(qū)數(shù)據(jù),這樣需要高頻訪(fǎng)問(wèn)的數(shù)據(jù),使用SSD的存儲(chǔ)介質(zhì)中,以滿(mǎn)足高性能訪(fǎng)問(wèn)的需求。隨著時(shí)間的推移,熱數(shù)據(jù)會(huì)漸漸的變?yōu)樵L(fǎng)問(wèn)頻次較低的冷數(shù)據(jù),此時(shí)系統(tǒng)可以根據(jù)用戶(hù)設(shè)置的策略,將系統(tǒng)轉(zhuǎn)到HDD存儲(chǔ)介質(zhì)中,以?xún)?yōu)化存儲(chǔ)成本。FixedPlan場(chǎng)景拓展,提升寫(xiě)入性能FixedPlan是Hologres獨(dú)有的執(zhí)行引擎優(yōu)化方式,傳統(tǒng)的SQL執(zhí)行要經(jīng)過(guò)優(yōu)化器、協(xié)調(diào)器、查詢(xún)引擎、存儲(chǔ)引擎等多個(gè)組件,例如下圖示例SQL,如果沒(méi)有走FixedPlan,那么其執(zhí)行計(jì)劃如下圖所示,整個(gè)過(guò)程需要經(jīng)過(guò)優(yōu)化器、協(xié)調(diào)器、查詢(xún)引擎、存儲(chǔ)引擎等多個(gè)組件。而FixedPlan選擇了短路徑(Short-Cut)優(yōu)化執(zhí)行SQL,繞過(guò)了優(yōu)化器、協(xié)調(diào)器、部分查詢(xún)引擎的開(kāi)銷(xiāo)。通過(guò)FixedFrontEnd直接對(duì)接FixedQueryEngine,實(shí)現(xiàn)SQL執(zhí)行效率的成倍提升,是支持高吞吐實(shí)時(shí)寫(xiě)入,高并發(fā)查詢(xún)的關(guān)鍵優(yōu)化方法。如果使用了FixedPlan,對(duì)應(yīng)的執(zhí)行計(jì)劃就如圖所示。下圖有一個(gè)對(duì)比,對(duì)于數(shù)據(jù)更新場(chǎng)景,可以看出,無(wú)論是行存、列存、行列共存,使用了FixedPlan之后,RPS有20倍以上的提升。下圖橙色為使用了FixedPlan之后支持實(shí)時(shí)物化視圖,優(yōu)化聚合查詢(xún)場(chǎng)景Hologres在新版本中支持了實(shí)時(shí)物化視圖。物化視圖是一個(gè)通用概念,一般數(shù)據(jù)庫(kù)需要定期刷新物化視圖,存在一定的數(shù)據(jù)滯后性。Hologres物化視圖無(wú)需手動(dòng)刷新,數(shù)據(jù)在寫(xiě)入時(shí)即預(yù)計(jì)算,進(jìn)入物化視圖。例如一個(gè)簡(jiǎn)單的業(yè)務(wù)場(chǎng)景,某客戶(hù)有100多家門(mén)店,客戶(hù)想實(shí)時(shí)查看各個(gè)門(mén)店?duì)I業(yè)收入情況,以便實(shí)時(shí)調(diào)整經(jīng)營(yíng)策略??蛻?hù)的明細(xì)表如下圖所示,存儲(chǔ)了訂單明細(xì)數(shù)據(jù),其中有訂單號(hào),客戶(hù)號(hào),門(mén)店ID,訂單日期,訂單金額。創(chuàng)建物化視圖后,在數(shù)據(jù)寫(xiě)入明細(xì)表后,Hologres會(huì)實(shí)時(shí)進(jìn)行物化。當(dāng)客戶(hù)寫(xiě)SQL時(shí),系統(tǒng)可以自動(dòng)改寫(xiě)SQL,使SQL支持查詢(xún)物化視圖數(shù)據(jù),以提升查詢(xún)性能。JSON列式存儲(chǔ),提升半結(jié)構(gòu)化數(shù)據(jù)查詢(xún)和存儲(chǔ)效率最后一個(gè)大功能是JSON列式存儲(chǔ),是指使用列存存儲(chǔ)JSON數(shù)據(jù),由于列存壓縮效率很高,可以有效提升數(shù)據(jù)存儲(chǔ)效率,節(jié)省存儲(chǔ)空間。例如一個(gè)常見(jiàn)場(chǎng)景,對(duì)于某視頻網(wǎng)站廠(chǎng)商,希望查詢(xún)男性用戶(hù)的用戶(hù)數(shù)量和平均年齡。數(shù)據(jù)按照如下JSON類(lèi)型存儲(chǔ)。此時(shí)對(duì)應(yīng)SQL如下圖所示。需要查詢(xún)結(jié)果時(shí),要掃描所有JSON數(shù)據(jù),把所有數(shù)據(jù)都讀取出來(lái),再匯總,才能得到最終結(jié)果。如果開(kāi)啟了列式存儲(chǔ),那么存儲(chǔ)模式會(huì)如下圖所示,Hologres會(huì)將其按照列存儲(chǔ)模式將其存儲(chǔ)到盤(pán)古上,此時(shí)如果需要查詢(xún)男性用戶(hù)的用戶(hù)數(shù)量和平均年齡,只需要掃描2列數(shù)據(jù),可以明顯的提升查詢(xún)效率。分析服務(wù)一體化架構(gòu)升級(jí)案例分享一個(gè)實(shí)際的優(yōu)化案例:一家頭部物流公司的實(shí)時(shí)數(shù)倉(cāng)架構(gòu)的升級(jí)歷程。物流公司對(duì)實(shí)時(shí)決策和實(shí)時(shí)分析有很強(qiáng)的需求,也會(huì)有定期營(yíng)銷(xiāo)大促的流量高峰,系統(tǒng)負(fù)載波動(dòng)比較大,同時(shí)還需要直接支持很多2c場(chǎng)景,對(duì)服務(wù)響應(yīng)能力要求很高。在架構(gòu)升級(jí)之前,該企業(yè)多采用一些傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)架構(gòu),來(lái)支撐在線(xiàn)業(yè)務(wù)的實(shí)時(shí)查詢(xún)、實(shí)時(shí)監(jiān)控,包括刷新每個(gè)包裹的物流狀態(tài)等場(chǎng)景。但這樣的架構(gòu)存在實(shí)時(shí)性不足問(wèn)題。訂單數(shù)據(jù)更新效率低,更新鏈路也很長(zhǎng),無(wú)法滿(mǎn)足實(shí)時(shí)監(jiān)控需求,也會(huì)降低物流配送效率。同時(shí)多個(gè)指標(biāo)之間往往需要很復(fù)雜的關(guān)聯(lián)計(jì)算,查詢(xún)效率比較慢,無(wú)法滿(mǎn)足業(yè)務(wù)實(shí)時(shí)決策的需求。架構(gòu)的另一個(gè)痛點(diǎn)就是穩(wěn)定性不足,多個(gè)業(yè)務(wù)高并發(fā)查詢(xún)時(shí),整體延遲會(huì)增加,影響業(yè)務(wù)穩(wěn)定性。雙11期間需要承擔(dān)的流量會(huì)數(shù)倍于日常的流量,原有的系統(tǒng)也無(wú)法承受突然的流量增加,會(huì)導(dǎo)致需要很多額外的人工運(yùn)維。Flink+Hologres替代原有的數(shù)倉(cāng)架構(gòu)。對(duì)于高頻訪(fǎng)問(wèn)的服務(wù)性數(shù)據(jù),使用Flink從DataHub中消費(fèi)數(shù)據(jù),把計(jì)算結(jié)果直接存儲(chǔ)在Hologres中;對(duì)于一些復(fù)雜查詢(xún)的分析型數(shù)據(jù),通過(guò)DataWorks讀取上游RDSbinlog,在Hologres中進(jìn)行ODS\DWD\DWS等數(shù)據(jù)的分層建設(shè),從而將最終的匯總數(shù)據(jù)對(duì)接上層應(yīng)用,實(shí)現(xiàn)了高并發(fā)快速查詢(xún)。該方案采用了分析服務(wù)一體化的混合模式,既發(fā)揮了Flink流計(jì)算能力進(jìn)行業(yè)務(wù)的預(yù)加工,也充分利用了Hologres強(qiáng)大的復(fù)雜多維查詢(xún)能力,成功替代了傳統(tǒng)的OLAP系統(tǒng)、RDS系統(tǒng)等數(shù)據(jù)庫(kù)軟件,簡(jiǎn)化了數(shù)據(jù)架構(gòu)。升級(jí)之后,系統(tǒng)的穩(wěn)定性得到極大改善,無(wú)論是實(shí)時(shí)數(shù)據(jù)寫(xiě)入還是數(shù)據(jù)讀取,都體現(xiàn)了極強(qiáng)的穩(wěn)定性。整個(gè)雙11期間真正做到了零故障率,滿(mǎn)足了實(shí)時(shí)業(yè)務(wù)需求,支撐了比如實(shí)時(shí)攬件、庫(kù)內(nèi)操作中轉(zhuǎn)調(diào)撥等實(shí)時(shí)大屏,為運(yùn)營(yíng)提供了強(qiáng)有力的實(shí)時(shí)數(shù)據(jù)支撐。整體實(shí)效性也得到了顯著提升,為用戶(hù)帶來(lái)了良好的物流體驗(yàn),提升了公司服務(wù)水平。此外,針對(duì)雙11的流量高峰期比日常流量高出上千倍,通過(guò)Hologres云原生彈性能力,實(shí)現(xiàn)了資源的動(dòng)態(tài)擴(kuò)縮容,滿(mǎn)足了對(duì)資源的不同需求,也降低了運(yùn)維成本。2009年,DataWorks就已經(jīng)在阿里巴巴集團(tuán)立項(xiàng),支撐阿里巴巴數(shù)據(jù)中臺(tái)建設(shè),一路見(jiàn)證阿里巴巴大數(shù)據(jù)建設(shè)之路。2020年之前,DataWorks支持的是開(kāi)發(fā)視角、自底向上、小步快跑,快速滿(mǎn)足業(yè)務(wù)需求為首要目標(biāo)的數(shù)倉(cāng)構(gòu)建模式,然而隨著內(nèi)部數(shù)據(jù)模型越來(lái)越多,線(xiàn)下評(píng)審流程越來(lái)越復(fù)雜,淘寶、天貓、盒馬、菜鳥(niǎo)等多個(gè)數(shù)倉(cāng)團(tuán)隊(duì)開(kāi)始和DataWorks合作,構(gòu)建DataWorks智能數(shù)據(jù)建模產(chǎn)品,支持業(yè)務(wù)視角自頂向下的規(guī)范化數(shù)倉(cāng)建設(shè),也可以支持傳統(tǒng)的開(kāi)發(fā)視角、自底向上的數(shù)倉(cāng)構(gòu)建模式,真正做到規(guī)范化、可持續(xù)發(fā)展地構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。2021年云棲大會(huì),DataWorks智能數(shù)據(jù)建模正式發(fā)布,在阿里巴巴集團(tuán)內(nèi)各個(gè)業(yè)務(wù)團(tuán)隊(duì)投入生產(chǎn),并在阿里云上服務(wù)世界500強(qiáng)億滋中國(guó)等眾多客戶(hù)。在智能數(shù)據(jù)建模產(chǎn)品正式發(fā)布之前的這十多年時(shí)間里,阿里巴巴的各個(gè)數(shù)倉(cāng)團(tuán)隊(duì)實(shí)際上并不是不需要進(jìn)行數(shù)據(jù)建模,而是采用線(xiàn)下Excel建模評(píng)審的方式在開(kāi)展這一項(xiàng)工作,流程本身非常規(guī)范,模型的上線(xiàn)及變更有著非常嚴(yán)格的評(píng)審流程,但即使如此,線(xiàn)下建模還是有它的弊端存在。線(xiàn)下建模的弊端主要體現(xiàn)在三大方面:規(guī)范定義、模型設(shè)計(jì)、數(shù)據(jù)開(kāi)發(fā)。從規(guī)范定義方面來(lái)講,存在的主要問(wèn)題是:數(shù)倉(cāng)規(guī)范與模型設(shè)計(jì)分離,符合規(guī)范的模型設(shè)計(jì)對(duì)建模師本身的要求非常高,既要能把業(yè)務(wù)需求高度抽象進(jìn)行模型設(shè)計(jì),還需要牢記規(guī)范的點(diǎn)點(diǎn)滴滴。數(shù)據(jù)指標(biāo)定義效率低,且指標(biāo)的數(shù)據(jù)加工邏輯分離,過(guò)去傳統(tǒng)的單個(gè)創(chuàng)建指標(biāo)效率相對(duì)低下,且無(wú)法保證指標(biāo)的唯一性,指標(biāo)的加工邏輯和指標(biāo)定義本身也存在脫節(jié)的情況,最終導(dǎo)致指標(biāo)真實(shí)口徑無(wú)法統(tǒng)一,進(jìn)而帶來(lái)了大量的針對(duì)指標(biāo)結(jié)果數(shù)據(jù)不一致的對(duì)焦工作。應(yīng)用層缺少規(guī)范,大多數(shù)應(yīng)用層的建設(shè)都面臨需求多變、需求開(kāi)發(fā)時(shí)間緊、任務(wù)重的特點(diǎn),也對(duì)應(yīng)用層模型規(guī)范的管理帶來(lái)了非常高的挑戰(zhàn)。既要能夠滿(mǎn)足業(yè)務(wù)需求,又要能夠符合規(guī)范,其實(shí)很難再短時(shí)間內(nèi)完成這些工作。從模型設(shè)計(jì)方面來(lái)講,存在的主要問(wèn)題是:純?nèi)斯さ哪P驮O(shè)計(jì)效率低下,比如要在Excel里做模型設(shè)計(jì),并且需求在Excel里做維護(hù)。從數(shù)據(jù)開(kāi)發(fā)方面來(lái)講,存在的主要問(wèn)題是:模型設(shè)計(jì)和物理表開(kāi)發(fā)分離,模型設(shè)計(jì)是模型設(shè)計(jì),物理表開(kāi)發(fā)是物理表開(kāi)發(fā),很有可能會(huì)造成物理表開(kāi)發(fā)邏輯與模型設(shè)計(jì)理念存在或多或少的差異情況。此外,本地建模,還會(huì)存在著一些隱藏問(wèn)題,如文件管理混亂、硬件設(shè)備故障、工作交接難等問(wèn)題。數(shù)據(jù)建模作為數(shù)倉(cāng)規(guī)范,最大的受益者是企業(yè)自身,但企業(yè)價(jià)值需要通過(guò)一線(xiàn)研發(fā)人員的工作得以體現(xiàn)。對(duì)于一線(xiàn)研發(fā)同學(xué)來(lái)講,智能數(shù)據(jù)建模能為大家?guī)?lái)最大的好處是提效,相比傳統(tǒng)的純開(kāi)發(fā)或者線(xiàn)下建模線(xiàn)上開(kāi)發(fā)的工作方式來(lái)說(shuō),智能數(shù)據(jù)建模能為大家?guī)?lái)更加更加高效的建模和研發(fā)方式。由此,幫助企業(yè)做好企業(yè)數(shù)據(jù)體系的規(guī)范化建設(shè),讓數(shù)倉(cāng)規(guī)范真正能落到實(shí)處。企業(yè)數(shù)倉(cāng)規(guī)范真正做好以后,能為企業(yè)沉淀大量體系化的核心數(shù)據(jù)資產(chǎn),同時(shí),也能順其自然地為企業(yè)節(jié)省大量存儲(chǔ)和計(jì)算成本。眾所周知,維度建模和范式建模都是目前大家所熟知的建模方法論,兩種建模方法論,各有各的優(yōu)勢(shì),也有各自的劣勢(shì),這里不對(duì)兩種方法論進(jìn)行展開(kāi)介紹。阿里巴巴集團(tuán)大多數(shù)數(shù)倉(cāng)團(tuán)隊(duì)面向的業(yè)務(wù)又多具備高速發(fā)展、變化迅速、海量數(shù)據(jù)的業(yè)務(wù)特點(diǎn),故以維度建模為主。智能數(shù)據(jù)建模產(chǎn)品由于它是生于阿里,長(zhǎng)于阿里,所以也是基于維度建模方法論進(jìn)行的產(chǎn)品建設(shè),但也不是說(shuō)智能數(shù)據(jù)建模完全不體現(xiàn)模型關(guān)系,DataWorks智能數(shù)據(jù)建模產(chǎn)品也會(huì)提供關(guān)系設(shè)計(jì)及展示相關(guān)的產(chǎn)品功能。其中ODS,又稱(chēng)為貼源層。ODS主要是用戶(hù)存儲(chǔ)業(yè)務(wù)系統(tǒng)同步的業(yè)務(wù)數(shù)據(jù)。一般情況下,不會(huì)對(duì)ODS層的數(shù)據(jù)做過(guò)多加工,以便于后續(xù)在ADS和CDM數(shù)據(jù)出錯(cuò)時(shí)溯源。換句話(huà)說(shuō),ODS不是數(shù)倉(cāng)同學(xué)設(shè)計(jì)出來(lái)的,是對(duì)業(yè)務(wù)系統(tǒng)數(shù)據(jù)的直接同步。數(shù)倉(cāng)建設(shè)最最重要的公共層CDM層,CDM層需要對(duì)業(yè)務(wù)進(jìn)行高度抽象,需要具備通用性、易用性、復(fù)用性,因此,公共層的建設(shè)對(duì)數(shù)倉(cāng)同學(xué)的要求是非常高,既精通建模方法,同時(shí)也對(duì)業(yè)務(wù)情況了如指掌。CDM層再進(jìn)行細(xì)分,一般會(huì)分為DIM層-維度表,DWD層-明細(xì)數(shù)據(jù)表,DWS層-輕度匯總層。數(shù)倉(cāng)建設(shè)最難管但管好了效果非常明顯的是應(yīng)用層ADS層,ADS層主要面向業(yè)務(wù)進(jìn)行模型設(shè)計(jì)。因此,大家一定要先了解清楚模型的主要應(yīng)用場(chǎng)景,是普通的報(bào)表分析,還是數(shù)據(jù)產(chǎn)品的調(diào)用等等,不同的應(yīng)用場(chǎng)景,模型設(shè)計(jì)需要考慮的因素也不一樣。如果規(guī)范化ADS層,需要建設(shè)的表會(huì)減少,通過(guò)統(tǒng)一邏輯去查詢(xún),會(huì)使計(jì)算和存儲(chǔ)成本降低。?業(yè)務(wù)分類(lèi):業(yè)務(wù)板塊是某一大類(lèi)業(yè)務(wù)的指標(biāo)和維度的集合,如電商,文?數(shù)據(jù)域:數(shù)據(jù)域是指一個(gè)或多個(gè)業(yè)務(wù)過(guò)程或者維度的集合,如交易域,?業(yè)務(wù)過(guò)程:業(yè)務(wù)過(guò)程指企業(yè)的業(yè)務(wù)活動(dòng)事件,如下單,支付。?數(shù)據(jù)集市:面向某個(gè)應(yīng)用場(chǎng)景或者產(chǎn)品的數(shù)據(jù)組織,一般會(huì)依賴(lài)數(shù)據(jù)公共層。?主題域:將數(shù)據(jù)集市按照分析視角進(jìn)行切分,比如在電商行業(yè),通常分?維度:維度是用于分析數(shù)據(jù)的一個(gè)角度,一方面對(duì)維度進(jìn)行可控管理,另一方面指導(dǎo)維度表的設(shè)計(jì),如地理維度,時(shí)間維度。?維度屬性:維度屬性隸屬于一個(gè)維度,用來(lái)描述維度的屬性,如地理維度中的國(guó)家名稱(chēng),省份名稱(chēng)。?時(shí)間周期:時(shí)間周期是用來(lái)明確數(shù)據(jù)統(tǒng)計(jì)的時(shí)間范圍或者時(shí)間點(diǎn),如最近30天,自然周。?修飾詞:修飾詞是對(duì)指標(biāo)統(tǒng)計(jì)業(yè)務(wù)范圍的劃定,指除了統(tǒng)計(jì)維度外指標(biāo)的業(yè)務(wù)場(chǎng)景的限定抽象,如PC端,無(wú)線(xiàn)端。?原子指標(biāo):原子指標(biāo)是一般不可再細(xì)分的度量,原子指標(biāo)命名=業(yè)務(wù)過(guò)程+度量。如支付金額,訪(fǎng)問(wèn)人數(shù)。?派生指標(biāo):派生指標(biāo)直接用于匯總表的字段,派生指標(biāo)由原子指標(biāo)、時(shí)間周期、修飾詞(可選)組成,如最近1天海外買(mǎi)家支付金額。DataWorks智能數(shù)據(jù)建模產(chǎn)品分為四大板塊,分別是數(shù)倉(cāng)規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)、維度建模和數(shù)據(jù)指標(biāo)。其中數(shù)倉(cāng)規(guī)劃、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)指標(biāo)最終都為維度建模服務(wù)。數(shù)倉(cāng)規(guī)劃是數(shù)倉(cāng)的頂層設(shè)計(jì),包含分層劃域、維度管理、建??臻g。從產(chǎn)品定義來(lái)講,這些內(nèi)部并不復(fù)雜。難點(diǎn)在于數(shù)倉(cāng)怎么根據(jù)業(yè)務(wù)場(chǎng)景來(lái)劃分。建議先用思維導(dǎo)圖畫(huà)好,有了一個(gè)大概雛形之后,再錄入產(chǎn)品。其中一個(gè)重點(diǎn)功能是可視化表名檢查器配置,檢查器用于規(guī)范目標(biāo)分層中表的命名,將同一分層中表名稱(chēng)的命名格式統(tǒng)一,便于通過(guò)表名稱(chēng),即可了解到該表所屬的業(yè)務(wù)類(lèi)型、作用功能、數(shù)據(jù)粒度等信息。同時(shí),可以幫助減少后期的運(yùn)維成本。系統(tǒng)默認(rèn)創(chuàng)建的數(shù)倉(cāng)分層和自定義新建的數(shù)倉(cāng)分層均可以配置數(shù)倉(cāng)分層檢查器。對(duì)于建模同學(xué)來(lái)講,建模效率會(huì)提升且產(chǎn)出的內(nèi)容符合規(guī)范。數(shù)據(jù)標(biāo)準(zhǔn)包含數(shù)據(jù)標(biāo)準(zhǔn)、標(biāo)準(zhǔn)代碼、度量單位、命名詞典。數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)準(zhǔn)代碼設(shè)置好之后,可以和模型字段做關(guān)聯(lián),關(guān)聯(lián)之后模型字段名稱(chēng)、值等都需要符合標(biāo)準(zhǔn)的設(shè)置。數(shù)據(jù)指標(biāo)包含派生指標(biāo)、原子指標(biāo)、修飾詞、時(shí)間周期。這里重點(diǎn)需要說(shuō)明批量創(chuàng)建指標(biāo),勾選構(gòu)成派生指標(biāo)的原子指標(biāo)、修飾詞、時(shí)間周期,就可以生成一系列派生指標(biāo),用于模型設(shè)計(jì)。指標(biāo)創(chuàng)建好后有兩個(gè)作用,一是可以把指標(biāo)批量導(dǎo)入到模型里面,作為模型的字段存在。另一個(gè)是模型字段已經(jīng)存在,需要跟指標(biāo)做關(guān)聯(lián)。這樣在物化之后可以找到指標(biāo)對(duì)應(yīng)的是哪個(gè)模型。維度建模支持正向建模和逆向建模。逆向建模解決的是已有數(shù)倉(cāng)冷啟動(dòng)的問(wèn)題,主要用于將其他建模工具生成的模型反向建模至DataWorks的維度建模中。例如,當(dāng)已通過(guò)其他建模工具生成模型,此時(shí),想更換為DataWorks的智能建模進(jìn)行后續(xù)建模工作,則可以使用逆向建模功能。該功能無(wú)需再次執(zhí)行建模操作,即可快速將已有模型反向建模至DataWorks的維度建模中,節(jié)省了大量的時(shí)間成本。正向建模支持可視化建模、Excel導(dǎo)入、多語(yǔ)言建模??梢暬n?lèi)似網(wǎng)頁(yè)版Excel的方式,把模型字段信息統(tǒng)一管理。在這個(gè)過(guò)程中,可以復(fù)用已經(jīng)存在的物理表表結(jié)構(gòu),提升建模效率。多語(yǔ)言建模支持DDL、建議先用可視化建模,如果需要修改字段,可以用DDL或者FML方式做字段的修改。在建模過(guò)程中,設(shè)置某一字段為主鍵字段,非空字段,或者關(guān)聯(lián)了數(shù)據(jù)標(biāo)準(zhǔn)里的標(biāo)準(zhǔn)代碼,DataWorks智能數(shù)據(jù)建??梢砸绘I自動(dòng)生成質(zhì)量規(guī)則。當(dāng)把模型發(fā)布到引擎中比如MaxCompute生成環(huán)境,可以自動(dòng)生成一段數(shù)據(jù)開(kāi)發(fā)的簡(jiǎn)代碼。數(shù)倉(cāng)規(guī)劃的整體架構(gòu)如下圖,首先中間部分業(yè)務(wù)分類(lèi),比如阿里的業(yè)務(wù)分為天貓、淘寶、菜鳥(niǎo)等等。也可以根據(jù)各個(gè)數(shù)倉(cāng)團(tuán)隊(duì)面向的業(yè)務(wù)來(lái)劃分。數(shù)據(jù)域,維度表只需要分到數(shù)據(jù)域就可以。明細(xì)表需要細(xì)化到數(shù)據(jù)域和業(yè)務(wù)過(guò)程。輕度匯總層只需要指定到數(shù)據(jù)域就可以。在應(yīng)用層這一部分主要是ADS層,在實(shí)際工作中可能不止有ADS層還會(huì)有DIM層。產(chǎn)品側(cè)是支持大家靈活設(shè)置,如果有需要可以自行創(chuàng)建。ADS層需要指定到具體的數(shù)據(jù)集市和主題域。這是模型在分層化域時(shí)需要考慮到的一整套體系。如果數(shù)倉(cāng)團(tuán)隊(duì)負(fù)責(zé)多個(gè)業(yè)務(wù),多個(gè)工作空間,需要復(fù)用同一套數(shù)倉(cāng)規(guī)范,可以使用建??臻g功能。建??臻g是當(dāng)需要管理多個(gè)DataWorks工作空間且需要復(fù)用一套數(shù)倉(cāng)規(guī)劃時(shí),面對(duì)跨多個(gè)工作空間的復(fù)雜數(shù)據(jù)體系,可以通過(guò)設(shè)計(jì)空間來(lái)共享一套數(shù)據(jù)建模工具,針對(duì)整個(gè)數(shù)據(jù)體系進(jìn)行統(tǒng)一的數(shù)倉(cāng)規(guī)劃、維度建模及指標(biāo)定義等工作。逆向建模如下圖所示,可以選擇表所在項(xiàng)目空間,表名匹配規(guī)則需要指定是模糊匹配還是精準(zhǔn)匹配,在指定表命名規(guī)范后,會(huì)根據(jù)這些關(guān)鍵詞來(lái)檢測(cè)表,匹配規(guī)范,最終成功生成模型。正向建模支持創(chuàng)建維度表、明細(xì)表、匯總表等?;拘畔姹局饕欠謱踊蛞约氨砻淖詣?dòng)生成。字段管理部分可以從數(shù)據(jù)指標(biāo)導(dǎo)入派生指標(biāo),從表/視圖導(dǎo)入,可以基于已有的物理表或視圖把表結(jié)構(gòu)同步,其中字段可以自定義設(shè)置,不關(guān)注字段可以隱藏起來(lái),本質(zhì)上是一個(gè)Excel操作。當(dāng)模型已保存后需要修改可點(diǎn)擊代碼模式進(jìn)行修改。簡(jiǎn)代碼支持根據(jù)建模信息自動(dòng)生成ETL簡(jiǎn)代碼,代碼中模型信息包含:?模型分層化域基礎(chǔ)信息;?模型字段中英文;?建模依賴(lài)的物理表表名及字段名;?模型的關(guān)聯(lián)表,關(guān)聯(lián)表字段信息等。數(shù)據(jù)開(kāi)發(fā)同學(xué)只要基于此代碼進(jìn)行casewhen,where條件等業(yè)務(wù)信息的補(bǔ)充即可。下圖左側(cè)為篩選原子指標(biāo)、修飾詞、時(shí)間周期。右側(cè)為在批量選擇完后,會(huì)自動(dòng)生成能夠生成的指標(biāo),黃色代表指標(biāo)沒(méi)有生成,綠色代表指標(biāo)已生數(shù)據(jù)標(biāo)準(zhǔn)會(huì)支持字段標(biāo)準(zhǔn),會(huì)對(duì)日常用到的一些詞語(yǔ),做一個(gè)標(biāo)準(zhǔn)定義。標(biāo)準(zhǔn)代碼是對(duì)字段值有要求。數(shù)據(jù)標(biāo)準(zhǔn)還有度量單位和命名詞典。當(dāng)這些內(nèi)部定義好之后,維度建模過(guò)程中都可以做關(guān)聯(lián),如果是關(guān)聯(lián)了標(biāo)準(zhǔn)代碼,可以自動(dòng)生成質(zhì)量規(guī)則。阿里云DataWorks:一站式大數(shù)據(jù)開(kāi)發(fā)與治理平臺(tái)架構(gòu)大圖等。企業(yè)數(shù)據(jù)治理實(shí)施的典型痛點(diǎn)?數(shù)據(jù)治理入手難o開(kāi)展數(shù)據(jù)治理工作,通常會(huì)參考DAMA或者DCMM理論體系,可以發(fā)現(xiàn)數(shù)據(jù)治理涵蓋內(nèi)容極為廣泛。從哪里優(yōu)先入手,以什么樣的路徑來(lái)推進(jìn),這是企業(yè)進(jìn)行數(shù)據(jù)治理工作首先要回答的問(wèn)題。數(shù)據(jù)治理的目標(biāo)和執(zhí)行路徑不清晰,是第一個(gè)典型痛點(diǎn)。?數(shù)據(jù)治理落地難o無(wú)論是企業(yè)內(nèi)部自發(fā)地開(kāi)展、還是請(qǐng)專(zhuān)業(yè)的咨詢(xún)機(jī)構(gòu),構(gòu)建出數(shù)據(jù)治理咨詢(xún)方案、產(chǎn)出一系列的規(guī)范和管理辦法后,往往只能停留于紙面,沒(méi)有恰當(dāng)?shù)闹卫砥脚_(tái)工具來(lái)支撐落地,這是會(huì)面臨的第二個(gè)典型挑戰(zhàn)。?數(shù)據(jù)治理成效的可視化不足o如何客觀地評(píng)估治理、將治理成效量化、可視化。當(dāng)這個(gè)工作沒(méi)有做好時(shí),治理的推進(jìn)難度會(huì)顯著加大。?數(shù)據(jù)治理工作不可持續(xù)o數(shù)據(jù)治理的工作容易陷入“運(yùn)動(dòng)式治理”,通過(guò)集中的突擊、在一段時(shí)間內(nèi)看到一定的效果。但如果不融入到日常的數(shù)據(jù)開(kāi)發(fā)生產(chǎn)鏈路中去,這項(xiàng)工作就不持續(xù),不能長(zhǎng)久地、從根本性地解決治理的問(wèn)題。阿里巴巴實(shí)踐的數(shù)據(jù)治理體系在數(shù)據(jù)質(zhì)量管理、元數(shù)據(jù)管理、數(shù)據(jù)安全管理等細(xì)分領(lǐng)域的工作完成之外,阿里巴巴集團(tuán)創(chuàng)新地構(gòu)建了如下一套全集團(tuán)通用的數(shù)據(jù)治理體系,從計(jì)算、存儲(chǔ)、質(zhì)量、安全、模型和成本等多個(gè)維度進(jìn)行治理切入,采用統(tǒng)一的方法和策略,構(gòu)建量化的評(píng)估模型,并使用統(tǒng)一的治理平臺(tái)工具來(lái)承接落地,取得了顯著的成效。這套體系同,有幾個(gè)關(guān)鍵要點(diǎn):?首先,明確治理的核心對(duì)象是與ETL作業(yè)中相關(guān)任務(wù)和表。數(shù)據(jù)治理是治理客觀的對(duì)象,不是治理人。但治理實(shí)施的一個(gè)關(guān)鍵前提,是對(duì)任務(wù)和表這些基本對(duì)象的確定歸屬,梳理并定義清楚對(duì)象的具體負(fù)責(zé)人,來(lái)確保治理問(wèn)題有著落、有跟進(jìn)。通過(guò)具體到人,進(jìn)而匯聚到部門(mén)、到全集團(tuán)整體。?其次,數(shù)據(jù)治理采取的實(shí)施路徑是“現(xiàn)狀分析->問(wèn)題定位->優(yōu)化治理->效果評(píng)估”,構(gòu)建一個(gè)閉環(huán)流程。?最后,數(shù)據(jù)治理的核心,要落在量化上:將問(wèn)題量化、將成效量化。并基于局部的明細(xì)給出全局的決策建議,比如為全集團(tuán)的資源調(diào)配、各部門(mén)的預(yù)算制定、成本優(yōu)化目標(biāo)設(shè)定等,提供參考。并且,這些量化的評(píng)估和治理問(wèn)題的發(fā)現(xiàn)、修復(fù),都會(huì)通過(guò)一個(gè)統(tǒng)一的平臺(tái)工具來(lái)承接。這套在阿里巴巴內(nèi)部多年實(shí)踐證明行之有效的方法和能力,現(xiàn)在以產(chǎn)品化的方式正式對(duì)云上客戶(hù)提供服務(wù),這就是DataWorks數(shù)據(jù)治理中心這一全新產(chǎn)品模塊。數(shù)據(jù)治理中心基于治理問(wèn)題驅(qū)動(dòng),構(gòu)建了一個(gè)治理量化評(píng)估-問(wèn)題發(fā)現(xiàn)/預(yù)防-治理問(wèn)題的優(yōu)化處理的閉環(huán)提升機(jī)制?;谑虑邦A(yù)防、事后整治相結(jié)合的方式,提供了幾大核心產(chǎn)品功能。這里要說(shuō)明下,這個(gè)“事前”、“事后”的“事”,定義為數(shù)據(jù)平臺(tái)中,ETL作業(yè)的正式數(shù)據(jù)生產(chǎn)這一個(gè)環(huán)節(jié)。?數(shù)據(jù)治理中心通過(guò)檢查項(xiàng)的功能,可以做到在任務(wù)的提交、發(fā)布等關(guān)鍵環(huán)節(jié),對(duì)于SQL代碼的質(zhì)量、性能消耗等進(jìn)行自動(dòng)掃描和檢查卡點(diǎn),來(lái)預(yù)防新問(wèn)題的引入。這個(gè)有點(diǎn)類(lèi)似于編譯和優(yōu)化的提示。?當(dāng)前面臨的一個(gè)現(xiàn)實(shí)問(wèn)題是數(shù)倉(cāng)、數(shù)據(jù)中臺(tái)的建設(shè)可能已經(jīng)進(jìn)行了較長(zhǎng)時(shí)間,會(huì)存在許多存量的問(wèn)題需要優(yōu)化治理。數(shù)據(jù)治理中心的治理項(xiàng)功能,就是為此而設(shè)計(jì),可以發(fā)現(xiàn)系統(tǒng)中存量需要優(yōu)化的問(wèn)題,并給出對(duì)應(yīng)的解決辦法。與檢查項(xiàng)一樣,這也是一種全自動(dòng)的方式。?數(shù)據(jù)治理中心最具特色的,或者說(shuō)是阿里巴巴內(nèi)部數(shù)據(jù)治理實(shí)踐的特色,是這套量化評(píng)估機(jī)制。基于治理“健康分”的概念,從“計(jì)算”、“存儲(chǔ)”、“質(zhì)量”、“安全”和“研發(fā)”五個(gè)基礎(chǔ)維度進(jìn)行量化評(píng)估,進(jìn)而給出整體的治理健康度評(píng)估。便于治理實(shí)施前了解現(xiàn)狀、同時(shí)也會(huì)數(shù)據(jù)治理實(shí)施后的成效提供客觀評(píng)估。?此外,數(shù)據(jù)治理中心在成本優(yōu)化治理方面,也提供了資源使用分析等一系列的產(chǎn)品能力,可以清晰了解單個(gè)任務(wù)、單張表粒度的資源消耗、費(fèi)用預(yù)估以及資源異動(dòng)情況,幫助公司有針對(duì)性地進(jìn)行計(jì)算和存儲(chǔ)的優(yōu)化治理,來(lái)達(dá)成降本增效的目標(biāo)。DataWorks數(shù)據(jù)治理中心產(chǎn)品架構(gòu)全圖數(shù)據(jù)治理中心本質(zhì)上是一款由(元)數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)應(yīng)用產(chǎn)品,大致可以分為數(shù)據(jù)層、應(yīng)用層和管理運(yùn)營(yíng)層。?數(shù)據(jù)層:是整個(gè)產(chǎn)品模塊的關(guān)鍵基礎(chǔ),數(shù)據(jù)治理中心匯聚了任務(wù)、表、模型、數(shù)據(jù)服務(wù)API等一系列對(duì)象的元數(shù)據(jù)信息,并構(gòu)建用以分析洞察的元數(shù)倉(cāng),來(lái)支撐上層的治理應(yīng)用。?治理應(yīng)用層:數(shù)據(jù)治理中心的主體功能所在。基于內(nèi)置的方案模板,提供用于事前問(wèn)題自動(dòng)預(yù)防、事后存量問(wèn)題的自動(dòng)發(fā)現(xiàn),以及對(duì)應(yīng)的優(yōu)化處理指南等系列功能。資源使用分析是面向成本治理構(gòu)建的產(chǎn)品能力,包含資源明細(xì)和異動(dòng)分析等,以及規(guī)劃中的資源智能優(yōu)化建議。對(duì)象360用于匯聚展示對(duì)象的全景信息,尤其是需要治理優(yōu)化的問(wèn)題,并全生命周期追蹤對(duì)象的事件變化情況等。標(biāo)簽體系作為額外的支撐體系,便于有效的對(duì)任務(wù)進(jìn)行類(lèi)型打標(biāo)區(qū)分,然后進(jìn)行集中式的治理。場(chǎng)景化治理是基于PDCA理念構(gòu)建,來(lái)幫助按照業(yè)務(wù)需要,靈活圈選需要治理的對(duì)象、評(píng)估現(xiàn)狀、設(shè)定治理目標(biāo),并有效監(jiān)督治理實(shí)施進(jìn)度,最終來(lái)達(dá)成治理落地。?管理運(yùn)營(yíng)層:數(shù)據(jù)治理中心核心服務(wù)于數(shù)據(jù)治理管理員以及數(shù)據(jù)治理具體參與的一線(xiàn)同學(xué)兩類(lèi)用戶(hù)群體。在管理運(yùn)營(yíng)層,提供了治理評(píng)估報(bào)告、治理健康分、治理排行榜和治理運(yùn)營(yíng)推送等一系列功能。DataWorks數(shù)據(jù)治理中心概要使用路徑數(shù)據(jù)治理中心的使用,概要可以分為現(xiàn)狀評(píng)估、治理實(shí)施和治理運(yùn)營(yíng)&成效查看三個(gè)環(huán)節(jié):數(shù)據(jù)治理中心提供了內(nèi)置的模板功能,將在阿里巴巴內(nèi)部的實(shí)踐和服務(wù)外部客戶(hù)過(guò)程沉淀下來(lái)的最佳實(shí)踐,以模板的方式封裝,提供開(kāi)箱即用的能力。選定模板、開(kāi)啟產(chǎn)品模塊后,即可使用數(shù)十種豐富的治理項(xiàng)和檢查項(xiàng),并查看整體的治理評(píng)估報(bào)告,也就是治理的健康分評(píng)估。開(kāi)啟產(chǎn)品模塊之后,可以看到治理的評(píng)估報(bào)告。數(shù)據(jù)治理中心會(huì)提供租戶(hù)全局、單個(gè)工作空間以及具體個(gè)人三個(gè)視角的報(bào)告,覆蓋研發(fā)、質(zhì)量、安全、計(jì)算和存儲(chǔ)五個(gè)維度,給出量化的具體評(píng)估。最關(guān)鍵的一點(diǎn),對(duì)于不同的工作空間、不同的個(gè)體,這個(gè)評(píng)估模型采用的是同一套標(biāo)準(zhǔn),保證評(píng)估的客觀一致性。這份報(bào)告,可以作為治理工作正式開(kāi)始實(shí)施前的一個(gè)基礎(chǔ)參照。數(shù)據(jù)治理健康分評(píng)估模型數(shù)據(jù)治理健康分基于治理項(xiàng)發(fā)現(xiàn)的問(wèn)題、按照定義的模型計(jì)算得出。采用的扣分邏輯為滿(mǎn)分100分,通過(guò)內(nèi)置的算法模型,按需要治理問(wèn)題減掉扣分后得到健康分。數(shù)據(jù)治理中心細(xì)分了研發(fā)、質(zhì)量、存儲(chǔ)、安全、計(jì)算和存儲(chǔ)五個(gè)維度的單項(xiàng)健康分,并綜合后計(jì)算得出整體健康分。這個(gè)邏輯可能看起來(lái)并不復(fù)雜,復(fù)雜的在于底層元數(shù)據(jù)獲取、加工構(gòu)建、治理問(wèn)題洞察。需要使用到檢查項(xiàng)和治理項(xiàng),檢查項(xiàng)面向事前治理問(wèn)題預(yù)防,它會(huì)侵入日常任務(wù)的提交、發(fā)布等環(huán)節(jié),如果檢測(cè)不通過(guò)會(huì)阻塞流程,這個(gè)功能是默認(rèn)是不開(kāi)啟的,需要按需開(kāi)啟,并可以控制特定的工作空間啟用特定的檢查項(xiàng)。治理項(xiàng)面向事后治理問(wèn)題發(fā)現(xiàn),這個(gè)功能不需額外設(shè)置、啟用模板后即可生效。治理問(wèn)題的處理優(yōu)化-自動(dòng)預(yù)防(檢查項(xiàng))檢查項(xiàng)開(kāi)啟后,可以作用在某一個(gè)具體空間,在任務(wù)提交或發(fā)布環(huán)節(jié),能夠自動(dòng)觸發(fā)掃描。當(dāng)前數(shù)據(jù)治理中心內(nèi)置模板提供數(shù)十種檢查項(xiàng),開(kāi)箱即用,其余檢查項(xiàng)也在隨著在阿里巴巴集團(tuán)內(nèi)部沉淀,以及依據(jù)客戶(hù)的反饋,在逐步豐富中?;贒ataWorks開(kāi)放平臺(tái)自定義拓展檢查項(xiàng)如果系統(tǒng)內(nèi)置的檢查項(xiàng)不能完全滿(mǎn)足個(gè)性化的需要,數(shù)據(jù)治理中心提供了基于DataWorks的開(kāi)發(fā)平臺(tái)來(lái)靈活的擴(kuò)展的機(jī)制。檢查項(xiàng)的擴(kuò)展核心需要使用開(kāi)放事件、擴(kuò)展點(diǎn)和擴(kuò)展程序的功能。基于這套機(jī)制,可以自定義開(kāi)發(fā)個(gè)性化的檢查器,然后注冊(cè)到數(shù)據(jù)治理中心,和內(nèi)置的檢查器進(jìn)行統(tǒng)一的納管和使用。治理問(wèn)題的處理優(yōu)化-自動(dòng)發(fā)現(xiàn)(治理項(xiàng))事后治理使用到的是“治理項(xiàng)”的能力,治理項(xiàng)和檢查項(xiàng)不同,治理項(xiàng)在模板啟用后是自動(dòng)開(kāi)啟的。系統(tǒng)會(huì)自動(dòng)掃描出需要治理優(yōu)化的問(wèn)題,并提供相應(yīng)的處理指南、指導(dǎo)對(duì)問(wèn)題進(jìn)行優(yōu)化。與檢查項(xiàng)類(lèi)似,數(shù)據(jù)治理中心,通過(guò)模板的方式,在存儲(chǔ)、計(jì)算、安全、質(zhì)量和研發(fā)五個(gè)維度,共內(nèi)置了43個(gè)治理項(xiàng),這些都是阿里巴巴內(nèi)部實(shí)踐和客戶(hù)需求沉淀而來(lái),開(kāi)箱即用。在阿里巴巴內(nèi)部數(shù)據(jù)治理的演進(jìn)中,能看到三個(gè)明顯的方向,分別從組織、平臺(tái)、業(yè)務(wù)三個(gè)方向來(lái)描述。首先,數(shù)據(jù)治理不單純是大數(shù)據(jù)團(tuán)隊(duì)一直在搞技術(shù)、建平臺(tái),它更多的是一個(gè)組織協(xié)同的問(wèn)題,會(huì)跨越過(guò)原先單技術(shù)團(tuán)隊(duì),到影響到公司整體的架構(gòu)設(shè)計(jì),如下圖左側(cè),有數(shù)據(jù)平臺(tái)團(tuán)隊(duì),有業(yè)務(wù)團(tuán)隊(duì),還有財(cái)務(wù)、風(fēng)控等協(xié)同團(tuán)隊(duì)。涉及到跨團(tuán)隊(duì),對(duì)于整個(gè)組織來(lái)說(shuō),一個(gè)很頭疼的問(wèn)題就是如何來(lái)衡量效果?如何更好地發(fā)揮組織的主動(dòng)性?在企業(yè)內(nèi)部做治理,經(jīng)常會(huì)發(fā)現(xiàn),有一個(gè)很好的規(guī)范,但是沒(méi)有平臺(tái)來(lái)落地。在阿里巴巴內(nèi)部,這是設(shè)計(jì)治理健康分一個(gè)很大的出發(fā)點(diǎn)。對(duì)于某個(gè)BU來(lái)說(shuō),比如今年的目標(biāo)之一,就是把健康分從70分提升到80分,可以從計(jì)算、存儲(chǔ)、研發(fā)、治理、安全等各個(gè)方面入手,有什么需求可以提給數(shù)據(jù)平臺(tái)團(tuán)隊(duì),將這些能力都沉淀到平臺(tái)上,目標(biāo)大家一起來(lái)共背。通過(guò)這種方式,各個(gè)團(tuán)隊(duì)就會(huì)有一個(gè)統(tǒng)一的考核指標(biāo)來(lái)指引進(jìn)行數(shù)據(jù)治理的工作。在長(zhǎng)效推進(jìn)上,會(huì)啟動(dòng)各類(lèi)的數(shù)據(jù)治理戰(zhàn)役,各個(gè)業(yè)務(wù)團(tuán)隊(duì)之間的治理成效比武等等長(zhǎng)效的運(yùn)營(yíng)工作,也可以通過(guò)健康分做不斷地延展,達(dá)到組織數(shù)據(jù)的協(xié)同目的,發(fā)揮數(shù)據(jù)治理組織的主動(dòng)性。就具體數(shù)據(jù)治理成效而言,作為承接,數(shù)據(jù)治理中心會(huì)將存儲(chǔ)的節(jié)約、計(jì)算的節(jié)約,風(fēng)險(xiǎn)的預(yù)防、問(wèn)題的修復(fù)等,清晰地量化統(tǒng)計(jì)展示,以及與之對(duì)應(yīng)的健康分提升等,這些具體的治理效果,給清晰地展示出來(lái)。數(shù)據(jù)治理中心也著眼于將數(shù)據(jù)治理從小部分人的工作轉(zhuǎn)變?yōu)橛辛己萌罕娀A(chǔ)和參與度的普遍性工作。數(shù)據(jù)治理排行榜可以讓治理參與同學(xué)清楚感知其所處的位置,讓優(yōu)秀的得到表?yè)P(yáng),不足的得到鼓勵(lì);同時(shí)面向治理管理員和普通同學(xué)提供不同的視角,讓其清晰了解治理健康度水平和需要優(yōu)化的問(wèn)題,有的放矢地進(jìn)行優(yōu)化治理??匆粋€(gè)成本優(yōu)化治理的具體的案例。這個(gè)案例中,客戶(hù)使用DataWorks+MaxCompute產(chǎn)品組合來(lái)構(gòu)建離線(xiàn)數(shù)倉(cāng),MaxComputes使用后付費(fèi)模式,隨著業(yè)務(wù)高速發(fā)展,費(fèi)用出現(xiàn)一定程度的不可預(yù)估。客戶(hù)提出的成本優(yōu)化治理訴求是在支持業(yè)務(wù)發(fā)展的大前提下降低整體成本30%,并且對(duì)SLA有高保障要求,進(jìn)行成本優(yōu)化治理時(shí)不能降低對(duì)業(yè)務(wù)數(shù)據(jù)產(chǎn)出時(shí)間的承諾。數(shù)據(jù)治理中心采取了三大類(lèi)的優(yōu)化治理措施,達(dá)成了整體成本下降了35%+、數(shù)據(jù)生產(chǎn)的SLA依舊保持穩(wěn)中有措施一:針對(duì)存量問(wèn)題優(yōu)化治理,下線(xiàn)任務(wù)和表,減少資源浪費(fèi)1)利用資源使用概覽功能,查看計(jì)算/存儲(chǔ)/調(diào)度/同步資源消耗異動(dòng),針對(duì)性?xún)?yōu)化。2)利用資源使用明細(xì)功能,根據(jù)作業(yè)SLA容忍度以及消耗CU倒排進(jìn)行調(diào)度錯(cuò)峰。3)利用任360功能,查看特定任務(wù)可優(yōu)化治理的具體問(wèn)題并進(jìn)行處理。4)利用治理工作臺(tái)功能,檢查可優(yōu)化治理的任務(wù)的全貌并參照處理指南進(jìn)行優(yōu)化。成本優(yōu)化,可以重點(diǎn)關(guān)注數(shù)據(jù)治理中心提供的如下檢查項(xiàng)和治理項(xiàng):?檢查項(xiàng):分區(qū)表查詢(xún)必須帶分區(qū)。?檢查項(xiàng):禁止簡(jiǎn)單加治工。?治理項(xiàng):持續(xù)導(dǎo)入一致。?治理項(xiàng):導(dǎo)入為空。?治理項(xiàng):同源導(dǎo)入。?治理項(xiàng):連續(xù)出錯(cuò)節(jié)點(diǎn)。?治理項(xiàng):空跑節(jié)點(diǎn)。?治理項(xiàng):無(wú)人訪(fǎng)問(wèn)葉子節(jié)點(diǎn)。?治理項(xiàng):SELECT無(wú)效調(diào)度。?治理項(xiàng):暴力掃描。?治理項(xiàng):輸入為空。?治理項(xiàng):輸出為空。?治理項(xiàng):未設(shè)置生命周期。?治理項(xiàng):長(zhǎng)時(shí)間未訪(fǎng)問(wèn)表。措施二:MaxCompute項(xiàng)目后付費(fèi)轉(zhuǎn)預(yù)付費(fèi),使用二級(jí)Quota實(shí)現(xiàn)MaxCompute的資源有“后付費(fèi)”和“預(yù)付費(fèi)”兩種付費(fèi)模式。其中“后付費(fèi)”模式以其靈活的資源分配策略、能及時(shí)滿(mǎn)足大任務(wù)對(duì)資源使用訴求的高保障、加速任務(wù)產(chǎn)出時(shí)間,被廣泛使用;但是“后付費(fèi)”模式存在一個(gè)問(wèn)題就是無(wú)法從全局對(duì)費(fèi)用進(jìn)行提前規(guī)劃和整體控制,容易出現(xiàn)預(yù)期之外大額賬單。對(duì)照而言,“預(yù)付費(fèi)”模式支持購(gòu)買(mǎi)固定額度的資源,更便于整體控制預(yù)算。所以當(dāng)前有較多的從“后付費(fèi)”轉(zhuǎn)“預(yù)付費(fèi)”的訴求,來(lái)實(shí)現(xiàn)對(duì)整體預(yù)算可控和成本的精細(xì)化優(yōu)化。后付費(fèi)轉(zhuǎn)預(yù)付費(fèi),是一把雙刃劍。畢竟預(yù)付費(fèi)模式,購(gòu)買(mǎi)的額度是有上限的,可能會(huì)影響任務(wù)的產(chǎn)出完成時(shí)間。轉(zhuǎn)換前,需要事前了解項(xiàng)目特性,比如是否有資源突發(fā)使用的情況,資源使用的高峰值和低峰值為多少,要進(jìn)行全面的摸底。數(shù)據(jù)治理中心提供了后付費(fèi)模式下,將資源使用折算成預(yù)付費(fèi)模式的CU消耗趨勢(shì)值,可以作為轉(zhuǎn)換購(gòu)買(mǎi)CU值的參照,經(jīng)驗(yàn)值建議為趨勢(shì)圖峰值的1.2倍到1.5倍。如果期望轉(zhuǎn)換但又沒(méi)有把握購(gòu)買(mǎi)多少CU合適,也可以聯(lián)系阿里同學(xué)協(xié)助進(jìn)行容量評(píng)估。后付費(fèi)轉(zhuǎn)預(yù)付費(fèi)后,充分使用MaxCompute二級(jí)Quota組功能,能有效地幫助進(jìn)行資源的優(yōu)化調(diào)配,有三點(diǎn)實(shí)踐經(jīng)驗(yàn)分享:1)強(qiáng)隔離:設(shè)置資源組的最小保障量=最大保障量;確保資源的分配。比如下圖中的“算法組”。這個(gè)適合在夜間作業(yè)高峰時(shí)段,對(duì)于需要強(qiáng)保障的項(xiàng)目進(jìn)行設(shè)置。2)資源傾斜:如果設(shè)置min<max,則該Quota組空閑時(shí),其它Quota組可以占用資源。這種方式可以提供較好的靈活彈性。3)使用Quota組分時(shí)的功能:通過(guò)分時(shí)設(shè)置,可以有效平衡在夜間高峰生產(chǎn)作業(yè)的資源分配和白天分析查詢(xún)項(xiàng)目的資源訴求,從而降低整體此外,有兩點(diǎn)需要特別注意:1)需要梳理作業(yè)優(yōu)先級(jí)、對(duì)高優(yōu)作業(yè)配置DataWorks基線(xiàn)監(jiān)控,來(lái)保障資源優(yōu)先分配;如果系統(tǒng)推測(cè)關(guān)鍵任務(wù)預(yù)計(jì)會(huì)出現(xiàn)產(chǎn)出延遲,可以提前發(fā)送告警通知,為處置留出足夠的提前量。2)轉(zhuǎn)預(yù)付費(fèi)后,MCQA查詢(xún)加速資源需重新規(guī)劃,如果有使用這個(gè)功能,需要特別留意。措施三:面向補(bǔ)數(shù)據(jù)場(chǎng)景,靈活使用usequota特性,讓資源消耗可控補(bǔ)數(shù)據(jù),也就是回刷數(shù)據(jù)的功能,在算法實(shí)驗(yàn)場(chǎng)景下使用非常多。通常如果一個(gè)模型驗(yàn)證效果很好,算法同學(xué)往往需要回刷一個(gè)禮拜、一個(gè)月、甚至半年的數(shù)據(jù)。算法作業(yè)有個(gè)典型特點(diǎn)的掃描數(shù)據(jù)量極大,但對(duì)于完成時(shí)間的SLA要求相對(duì)不高,比如一天之內(nèi)可以完成即可,如果使用后付費(fèi)模式,按照掃描數(shù)據(jù)量正比的方式收取費(fèi)用,會(huì)帶來(lái)非常高的成本開(kāi)銷(xiāo)。上圖左側(cè)示意了這種情況,周期調(diào)度任務(wù)的費(fèi)用,拆分開(kāi)來(lái)看是相對(duì)平穩(wěn)可控的,但是補(bǔ)數(shù)據(jù)費(fèi)用的不確定性,帶來(lái)了整體成本的一定程度的不可控。針對(duì)這種場(chǎng)景,MaxCompute提供了usequota的新特性,將作業(yè)指向一個(gè)特定的預(yù)付費(fèi)Quota組,限定一個(gè)較低的CU上線(xiàn),既能保障任務(wù)的運(yùn)行完成,又可以有效地控制費(fèi)用。針對(duì)周期調(diào)度任務(wù),原則上不建議使用usequota,這種方式對(duì)于SLA會(huì)帶來(lái)較大的影響,需要仔細(xì)評(píng)估后再使用這種方式。至少配置上基線(xiàn)監(jiān)控,以便能提前預(yù)知任務(wù)產(chǎn)出出現(xiàn)延遲的情況。數(shù)據(jù)治理立足降本增效的核心訴求,圍繞治理問(wèn)題的自動(dòng)預(yù)防和治理演進(jìn),提升治理問(wèn)題的處理效率。功能建設(shè)?基于阿里內(nèi)部和DataWorks客戶(hù)最佳實(shí)踐,持續(xù)豐富內(nèi)置的治理項(xiàng)和檢查項(xiàng),讓治理問(wèn)題得以更全面地發(fā)現(xiàn)和預(yù)防。?為任務(wù)下線(xiàn)、表刪除等治理操作提供優(yōu)雅處理方案,解決治理風(fēng)險(xiǎn)顧慮,提升問(wèn)題優(yōu)化治理效率和處置完成率。?持續(xù)夯實(shí)資源使用分析洞察功能,切實(shí)幫助控制不合理的資源使用花?拓展支持的引擎類(lèi)型,從只支持MaxCompute,到支持EMRHive、Hologres等更多引擎類(lèi)型。?提供面向不同行業(yè)的最佳實(shí)踐和行業(yè)模板。?對(duì)外部數(shù)據(jù)庫(kù)生態(tài)聯(lián)邦查詢(xún)?對(duì)非結(jié)構(gòu)化數(shù)據(jù)的管理和處理?對(duì)Hadoop資源池的云上擴(kuò)展速的試錯(cuò)。在不對(duì)本身集群資源做調(diào)整的情況下,直接將需要的算力放到Serverless數(shù)據(jù)湖ETL/交互式分析IDCHadoop的云上彈性資源池多聯(lián)邦查詢(xún)通過(guò)MaxCompute做多聯(lián)邦查詢(xún),通過(guò)在統(tǒng)一的開(kāi)發(fā)界面,能夠Join以MaxCompute映射Hologres外部數(shù)據(jù)源為例,展示MaxCompute如何通過(guò)外部Schema去映射外部數(shù)據(jù)庫(kù)數(shù)據(jù)源。Demo請(qǐng)點(diǎn)擊查看視頻。MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的數(shù)據(jù)倉(cāng)庫(kù)和支持全部數(shù)據(jù)湖能力的大數(shù)據(jù)平臺(tái),支持超大規(guī)模、serverless和完善的多租戶(hù)能力,內(nèi)建企業(yè)級(jí)安全能力和管理功能,支持?jǐn)?shù)據(jù)保護(hù)和安全共享,數(shù)據(jù)/生態(tài)開(kāi)放,可以滿(mǎn)足數(shù)據(jù)倉(cāng)庫(kù)/BI、數(shù)據(jù)湖非結(jié)構(gòu)化數(shù)據(jù)處理和分析、湖倉(cāng)一體聯(lián)邦計(jì)算、機(jī)器學(xué)習(xí)等多業(yè)務(wù)場(chǎng)景需求。阿里云MaxCompute提供了全托管的服務(wù),用戶(hù)開(kāi)箱即用,只需要關(guān)注自己的業(yè)務(wù)和資源使用,真正做到Paas平臺(tái)Saas模式使用。MaxCompute是一個(gè)真正的云原生多租戶(hù)平臺(tái),可以做到較低的資源成本,讓用戶(hù)獲得更低的TCO。租戶(hù)之間可以方便的共享數(shù)據(jù),而不必在多個(gè)Hadoop實(shí)例之間開(kāi)接口。從接入和使用角度看,簡(jiǎn)單易用,支持多引擎,可上可下。很多使用MaxCompute的客戶(hù)反饋,不是業(yè)務(wù)不能遷移,只是再也沒(méi)有其他更好用更經(jīng)濟(jì)的選擇了。從數(shù)倉(cāng)管理能力上看,MaxCompute提供統(tǒng)一元數(shù)據(jù)、統(tǒng)一的賬號(hào)和權(quán)限體系,完善的企業(yè)級(jí)安全能力。從資源使用角度上看,自適應(yīng)的按需彈性資源,避免資源浪費(fèi)或不足,節(jié)省成本又滿(mǎn)足需求。業(yè)務(wù)負(fù)載隔離,消除業(yè)務(wù)間資源爭(zhēng)搶。從規(guī)模和數(shù)據(jù)存儲(chǔ)角度看,支持TB到EB級(jí)的大規(guī)模部署應(yīng)用和擴(kuò)展。連接廣泛外部數(shù)據(jù)源,支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理,支持聯(lián)邦計(jì)算。MaxCompute積累了阿里多年雙11自動(dòng)優(yōu)化和穩(wěn)定可靠能力,這一點(diǎn)是任何Hadoop商業(yè)版產(chǎn)品所不具備的,MaxCompute憑借先發(fā)優(yōu)勢(shì)和阿里持續(xù)自身業(yè)務(wù)錘煉,讓產(chǎn)品非常成熟穩(wěn)定。MaxCompute是基于大數(shù)據(jù)技術(shù)的數(shù)倉(cāng),采用了自研的分布式存儲(chǔ)引擎pangu、分布式資源管理調(diào)度器Fuxi,和分布式高性能SQL引擎,與開(kāi)源的HDFS、Yarn、Hive+SparkSQL關(guān)系對(duì)等,但能力全面領(lǐng)先開(kāi)源。MaxCompute的存儲(chǔ)包括數(shù)倉(cāng)schemaonwrite模式所需的庫(kù)表,也包括最近開(kāi)放的volume非結(jié)構(gòu)化存儲(chǔ)。MaxCompute采用了大數(shù)據(jù)存算分離的架構(gòu),可以在大規(guī)模場(chǎng)景下進(jìn)一步的降低成本,降低客戶(hù)TCO。MaxCompute提供了沙箱運(yùn)行環(huán)境,讓用戶(hù)的UDF和業(yè)務(wù)代碼更安全也更靈活的運(yùn)行在多租環(huán)境中,免去了在數(shù)據(jù)外部由用戶(hù)管理私有代碼的麻煩和限制。MaxCompute通過(guò)Tunnel服務(wù),收斂了數(shù)據(jù)入倉(cāng)的通道,對(duì)外只暴漏Tunnelendpoint,讓數(shù)據(jù)出入倉(cāng)更安全,同時(shí)檢查文件格式、收集元數(shù)據(jù),用于后續(xù)讀寫(xiě)優(yōu)化,以極小的代價(jià)獲得相比Hive近一個(gè)數(shù)量級(jí)的性能領(lǐng)先差異,這正是數(shù)倉(cāng)模式的優(yōu)勢(shì)所在。MaxCompute還提供了web控制速遷移到MaxCompute,Lemming提供邊緣端的采集、計(jì)算和云邊協(xié)同計(jì)算。MaxCompute對(duì)接OSS數(shù)據(jù)湖對(duì)象存儲(chǔ),通過(guò)DLF獲取湖上元數(shù)據(jù),可以做到湖倉(cāng)一體聯(lián)邦,這時(shí)MaxCompute是倉(cāng),OSS是湖。對(duì)接客戶(hù)的Hadoop系統(tǒng),通過(guò)自動(dòng)獲取hms中元數(shù)據(jù),自動(dòng)映射Hivedatabase為MaxCompute項(xiàng)目的externalproject,免去建外表即可直接將倉(cāng)內(nèi)數(shù)據(jù)與Hive、HDFS數(shù)據(jù)關(guān)聯(lián)計(jì)算,這時(shí)MaxComMaxCompute周邊的二方生態(tài)和三方生態(tài)也構(gòu)成了完整的數(shù)據(jù)鏈路和大數(shù)據(jù)解決方案。MaxCompute可以通過(guò)DataWorks數(shù)據(jù)集成獲取批加載的數(shù)據(jù),還可以直接對(duì)接Flink、Kafka、Datahub等消息隊(duì)列或流式數(shù)據(jù),讀,基于數(shù)倉(cāng)模型直接獲得交互式分析的高并發(fā)、低延時(shí)能力。MaxCompute的黃金搭檔DataWorks是一套與MaxCompute一起發(fā)展起來(lái)的開(kāi)發(fā)治理工具,有了DataWorks可以更好的發(fā)揮MaxCompute的能力和優(yōu)勢(shì)。學(xué)習(xí)、檢索、數(shù)據(jù)集市分析、日志處理等能力。并支持QuickBI、DataV等報(bào)表、dashboard、大屏應(yīng)用。數(shù)據(jù)中臺(tái)治理工具Dataphin、DataQ都將基于MaxCompute的多年阿里最佳實(shí)踐,產(chǎn)品化賦能客戶(hù)。更有Tableau、帆軟等三方生態(tài)工具已經(jīng)與MaxCompute互認(rèn),給用戶(hù)更多選擇??梢詮乃膫€(gè)方面預(yù)設(shè)數(shù)據(jù)安全問(wèn)題,下面對(duì)MaxCompute數(shù)據(jù)安全能力的解讀會(huì)對(duì)應(yīng)到這些問(wèn)題上,解決企業(yè)數(shù)據(jù)安全的問(wèn)題,保障數(shù)據(jù)安全。whatwherewhowhether從哪里可以訪(fǎng)問(wèn)數(shù)據(jù)?是否有泄露風(fēng)險(xiǎn)?數(shù)據(jù)能下載到哪里?是否有丟失風(fēng)險(xiǎn)?按照防數(shù)據(jù)濫用、防數(shù)據(jù)泄露、防數(shù)據(jù)丟失這個(gè)三個(gè)點(diǎn),看下MaxCompute的安全體系核心功能。先從MaxCompute的數(shù)據(jù)安全核心能力開(kāi)始。防數(shù)據(jù)濫用包含:細(xì)粒度的權(quán)限管理(ACL/Policy/Role)、LabelSecurity分級(jí)管理。防數(shù)據(jù)泄露包含:認(rèn)證、租戶(hù)隔離、項(xiàng)目空間保護(hù)、網(wǎng)絡(luò)隔離。MaxCompute和DataWorks關(guān)系,以及MaxCompute隔離機(jī)制在當(dāng)前云上體系中,用戶(hù)需在阿里云注冊(cè)一個(gè)主賬號(hào),才可以申請(qǐng)開(kāi)通MaxCompute的付費(fèi)模式有兩種,按量付費(fèi)(后付費(fèi)共享資源)和包年包工作空間,DataWorks可以理解為一站式開(kāi)發(fā)治理工具,包含數(shù)據(jù)采集、腳本開(kāi)發(fā)、調(diào)度、數(shù)據(jù)服務(wù)等。個(gè)工作空間可以幫忙兩個(gè)項(xiàng)目,也就是兩個(gè)MaxComputeProject,一個(gè)開(kāi)發(fā)環(huán)境一個(gè)生產(chǎn)環(huán)境,這兩個(gè)Project是隔離的,防止生產(chǎn)環(huán)境中關(guān)鍵敏感數(shù)據(jù)的泄露。MaxCompute訪(fǎng)問(wèn)與控制當(dāng)前MaxCompute訪(fǎng)問(wèn)認(rèn)證鑒權(quán)經(jīng)過(guò)以下步驟,身份認(rèn)證用于身份識(shí)別;請(qǐng)求源檢查(ip白名單)用戶(hù)檢查是否設(shè)置網(wǎng)絡(luò)隔離;項(xiàng)目空間狀態(tài)檢查,檢查項(xiàng)目空間是否開(kāi)啟項(xiàng)目保護(hù)等安全設(shè)置;檢查MaxCompute項(xiàng)目的labelsecurity|rle|policy|acl等權(quán)限管理規(guī)則。接下來(lái)就按照這個(gè)順序講一下MaxCompute的安全機(jī)制,到權(quán)限管理部分再詳細(xì)展開(kāi)講一下權(quán)限體認(rèn)證流程?每個(gè)阿里云賬號(hào)都需要?jiǎng)?chuàng)建相應(yīng)的訪(fǎng)問(wèn)密鑰AccessKey,主要用于在阿里云各產(chǎn)品間互相認(rèn)證使用權(quán)限。?用戶(hù)可以在云控制臺(tái)中自行創(chuàng)建AccessKey(AK)。AccessKey由AccessKeyId和AccessKeySecret組成,其中AccessKeyId是公開(kāi)的,用于標(biāo)識(shí)用戶(hù)身份,AccessKeySecret是秘密的,用于用戶(hù)身份的鑒別。AccessKey可以更換。?當(dāng)用戶(hù)向MaxCompute發(fā)送請(qǐng)求時(shí),首先需要將發(fā)送的MaxCompute指定的格式生成簽名字符串,然后使用AccessKeySecret對(duì)簽名字符串進(jìn)行加密以生成請(qǐng)求簽名。MaxCompute收到用戶(hù)請(qǐng)求后,通過(guò)AccessKeyId找到對(duì)應(yīng)的AccessKeySecret,以同樣的方法提取簽名字符串和驗(yàn)證碼,如果計(jì)算出來(lái)的驗(yàn)證碼和提供的一致即認(rèn)為該請(qǐng)求是有效的;否則,MaxCompute將拒絕處理這次請(qǐng)求,并返回HTTP當(dāng)用戶(hù)真正發(fā)生請(qǐng)求時(shí),會(huì)把(Accessld、請(qǐng)求時(shí)間、請(qǐng)求參數(shù))+簽名以固定的格式發(fā)送到MaxCompute前端,MaxCompute前端包含HttpServer和Tunnel(數(shù)據(jù)上傳下載通道)。這個(gè)過(guò)程需要檢查用戶(hù)請(qǐng)求是否過(guò)期。當(dāng)MaxCompute拿到用戶(hù)請(qǐng)求的AK信息,跟AK服務(wù)上的AK信息做對(duì)比,如果AK信息一致,則代表用戶(hù)請(qǐng)求有效。MaxCompute的數(shù)據(jù)資源及計(jì)算資源的訪(fǎng)問(wèn)入口都需經(jīng)過(guò)身份驗(yàn)證。用戶(hù)認(rèn)證檢查請(qǐng)求Request發(fā)送者的真實(shí)身份:正確驗(yàn)證消息發(fā)送方的真實(shí)身份,正確驗(yàn)證接收到的消息在途中是否被篡改。云賬號(hào)認(rèn)證使用消息簽名機(jī)制,可以保證消息在傳輸過(guò)程中的完整性Integrity和真實(shí)性Authenticity。是阿里云提供的資源訪(fǎng)問(wèn)控制服務(wù)。通過(guò)RAM,主賬號(hào)可以創(chuàng)建出子賬號(hào),子賬號(hào)從屬于主賬號(hào),所有資源都屬于主賬號(hào),主賬號(hào)可以將所屬資源的訪(fǎng)問(wèn)權(quán)限授予給子賬號(hào)。?用戶(hù)對(duì)MaxCompute資源訪(fǎng)問(wèn)分為兩種,即用戶(hù)主賬號(hào)訪(fǎng)問(wèn)和用戶(hù)子賬號(hào)訪(fǎng)問(wèn)。主賬號(hào)是阿里云的一個(gè)賬號(hào)主體,主賬號(hào)下可以包含不同的子賬號(hào)以便用戶(hù)可以靈活使用。MaxCompute支持主子賬號(hào)的權(quán)限訪(fǎng)問(wèn)策略。?當(dāng)用戶(hù)使用主賬號(hào)訪(fǎng)問(wèn)時(shí),MaxCompute會(huì)校驗(yàn)該主賬號(hào)是否為對(duì)應(yīng)資源的所有者,只有對(duì)應(yīng)資源的所有者才具備訪(fǎng)問(wèn)該資源的權(quán)限。?當(dāng)用戶(hù)使用子賬號(hào)訪(fǎng)問(wèn)時(shí),此時(shí)會(huì)觸發(fā)子賬號(hào)授權(quán)策略。MaxCompute會(huì)校驗(yàn)該子賬號(hào)是否被對(duì)應(yīng)主賬號(hào)授予了訪(fǎng)問(wèn)該資源的權(quán)限,同時(shí)也會(huì)校驗(yàn)該子賬號(hào)對(duì)應(yīng)的主賬號(hào)是否具有該資源的所有者權(quán)限。一個(gè)主賬號(hào)可以把當(dāng)前主賬號(hào)下的RAM賬號(hào)加入MaxComputeProject,也可以把其他主賬號(hào)加入MaxComputeProject,但不可以把其他主賬號(hào)RAM角色是一種虛擬用戶(hù),有確定的身份,可以被賦予一組權(quán)限策略,但沒(méi)有確定的登錄密碼或訪(fǎng)問(wèn)密鑰。RAM角色需要被一個(gè)受信的實(shí)體用戶(hù)扮演,扮演成功后實(shí)體用戶(hù)將獲得RAM角色的安全令牌,使用這個(gè)安全令牌就能以角色身份訪(fǎng)問(wèn)被授權(quán)的資源。?可以通過(guò)RAM訪(fǎng)問(wèn)控制臺(tái)創(chuàng)建RAM角色并修改RAM角色的權(quán)限策略,可以扮演該RAM角色執(zhí)行操作。?RAM角色為訪(fǎng)問(wèn)控制平臺(tái)中的角色,非MaxCompute項(xiàng)目?jī)?nèi)的角色。?RAMRole是跨產(chǎn)品之間訪(fǎng)問(wèn)數(shù)據(jù)的一個(gè)角色。?角色(Role)是MaxCompute內(nèi)一組訪(fǎng)問(wèn)權(quán)限的集合。當(dāng)需要對(duì)一組用戶(hù)賦予相同的權(quán)限時(shí),可以使用角色來(lái)授權(quán)。基于角色的授權(quán)可以大大簡(jiǎn)化授權(quán)流程,降低授權(quán)管理成本。當(dāng)需要對(duì)用戶(hù)授權(quán)時(shí),應(yīng)當(dāng)優(yōu)先考慮是否應(yīng)該使用角色來(lái)完成。?一個(gè)用戶(hù)可以被分配到多個(gè)角色。從而擁有這些角色的權(quán)限的合集。?MaxCompute角色有兩種類(lèi)別賬戶(hù)級(jí)別和項(xiàng)目級(jí)別。角色類(lèi)別角色名稱(chēng)角色說(shuō)明(tenant)Super_AdministratorMaxCompute內(nèi)置的管理角色。除了不能創(chuàng)建項(xiàng)目、刪除項(xiàng)目、開(kāi)通服務(wù),其他在MaxCompute上的操作權(quán)限等同于阿里云賬號(hào)。MaxCompute內(nèi)置的管理角色。用于管理所有對(duì)象及網(wǎng)絡(luò)連接(Networklink)的權(quán)項(xiàng)目所有者。用戶(hù)創(chuàng)建MaxCompute項(xiàng)目后,該用戶(hù)為此項(xiàng)目的所有者,擁有項(xiàng)目的所有權(quán)限。除項(xiàng)目所有者之外,任何人都無(wú)權(quán)訪(fǎng)問(wèn)此項(xiàng)目?jī)?nèi)的對(duì)象,除非有項(xiàng)目所有者的授權(quán)許可。Super_AdministratorMaxCompute內(nèi)置的管理角色。擁有操作項(xiàng)目?jī)?nèi)所有資源的權(quán)限和管理類(lèi)權(quán)限。權(quán)限詳細(xì)信息,請(qǐng)參見(jiàn)項(xiàng)目級(jí)別管理角色權(quán)限說(shuō)明。項(xiàng)目所有者或具備Super_Administrator角色的用戶(hù)可以將Super_Administrator角色賦予其他用MaxCompute內(nèi)置的管理角色。擁有操作項(xiàng)目?jī)?nèi)所有資源的權(quán)限和部分基礎(chǔ)管理類(lèi)權(quán)限。權(quán)限詳細(xì)信息,請(qǐng)參見(jiàn)項(xiàng)目級(jí)別管理角色權(quán)限說(shuō)明。項(xiàng)目所有者可以將Admin角色賦予其他用戶(hù)。Admin角色不能將Admin權(quán)限賦予其他用戶(hù)、不能設(shè)定項(xiàng)目的安全配置、不能修改項(xiàng)目的鑒權(quán)模型、所對(duì)應(yīng)的權(quán)限不能被修改。自定義角色非MaxCompute內(nèi)置的角色,需要用戶(hù)自定義。租戶(hù)?每個(gè)賬號(hào)是一個(gè)租戶(hù)(建議一個(gè)一級(jí)部門(mén)對(duì)應(yīng)一個(gè)獨(dú)立的租戶(hù)),租戶(hù)間的數(shù)據(jù)安全隔離是在邏輯層控制的,并非物理隔離。?租戶(hù)是計(jì)量和計(jì)費(fèi)的主體。?通過(guò)多租戶(hù)機(jī)制,各部門(mén)可以獨(dú)立管理自己的數(shù)據(jù)。除非顯式授權(quán),否則租戶(hù)之間無(wú)法訪(fǎng)問(wèn)對(duì)方的數(shù)據(jù)。?租戶(hù)可以擁有一個(gè)或多個(gè)項(xiàng)目。來(lái)自多個(gè)部門(mén)成員也可以共用一個(gè)項(xiàng)目(類(lèi)似虛擬聯(lián)合項(xiàng)目組)。?系統(tǒng)提供統(tǒng)一的權(quán)限管理模型,即不管是項(xiàng)目?jī)?nèi)部的數(shù)據(jù)授權(quán),還是項(xiàng)目之間的數(shù)據(jù)授權(quán),都遵循同一套權(quán)限管理機(jī)制。?在物理層面,如果存在多個(gè)集群,那么每個(gè)租戶(hù)歸屬其中一個(gè)集群,即一個(gè)租戶(hù)不能跨多個(gè)集群存儲(chǔ)數(shù)據(jù)。但是在邏輯層面,用戶(hù)是無(wú)需關(guān)心該租戶(hù)的實(shí)際物理存儲(chǔ)集群的,底層集群的分布對(duì)用戶(hù)透明。項(xiàng)目空間用戶(hù)管理Alice創(chuàng)建一個(gè)名為WonderLand的項(xiàng)目,自動(dòng)成為Owner。沒(méi)有Alice的授權(quán),其他任何人都無(wú)法訪(fǎng)問(wèn)WonderLand。Alice要授權(quán)Bob允許他訪(fǎng)問(wèn)WonderLand中的一些對(duì)象。首先,Bob要有一個(gè)合法的云賬號(hào)或者是Alice的RAM子賬號(hào)。然后,Alice要把Bob的賬號(hào)加到項(xiàng)目中來(lái)。最后,賦一些對(duì)象的權(quán)限給Bob。Alice要禁止Bob訪(fǎng)問(wèn)項(xiàng)目,則直接將他的賬號(hào)從項(xiàng)目中移除即可。Bob雖然被移除出了項(xiàng)目,但他之前被授予的權(quán)限仍然保留在項(xiàng)目中。下次一旦他被Alice加入同一個(gè)項(xiàng)目,原有的權(quán)限將會(huì)被自動(dòng)激活。除非徹底清除Bob的權(quán)限??刂圃L(fǎng)問(wèn)?MaxCompute支持在訪(fǎng)問(wèn)認(rèn)證基礎(chǔ)上增強(qiáng)的一種以IP白名單的方式,進(jìn)行訪(fǎng)問(wèn)控制。?可以配置project訪(fǎng)問(wèn)機(jī)器的白名單來(lái)進(jìn)行限制Ip訪(fǎng)問(wèn)。?如果使用應(yīng)用系統(tǒng)(如ODPSCMD或者SDK客戶(hù)端)進(jìn)行項(xiàng)目空間數(shù)據(jù)訪(fǎng)問(wèn),需要配置ODPSCMD或者SDK客戶(hù)端所在的部署機(jī)器的IP地址。如果使用了代理服務(wù)器或者經(jīng)過(guò)了多跳代理服務(wù)器來(lái)訪(fǎng)問(wèn)MaxCompute服務(wù)實(shí)例,需要添加的IP地址為最后一跳代理服務(wù)器的?一些其它需要訪(fǎng)問(wèn)MaxCompute服務(wù)實(shí)例中所有Project的其他上層業(yè)務(wù)系統(tǒng)IP發(fā)生變化的時(shí)候,如果沒(méi)有全局性IP白名單配置,需要找到所有設(shè)置白名單的Project列表一個(gè)個(gè)進(jìn)行新IP的修改配置,非常容易出錯(cuò)。為此MaxCompute實(shí)現(xiàn)了系統(tǒng)級(jí)別IP白名單功能,系統(tǒng)級(jí)別IP白名單是MaxCompute實(shí)例服務(wù)級(jí)全局性配置。當(dāng)用戶(hù)請(qǐng)求提供的IP是否跟MaxCompute元數(shù)據(jù)存儲(chǔ)的白名單匹配,做一個(gè)項(xiàng)目級(jí)別的檢查,如果IP匹配允許訪(fǎng)問(wèn)。白名單格式允許固定IP、掩碼或者IP段的方式??梢圆榭聪旅娴睦?。白名單格式:34、/16、34-44設(shè)置白名單:adminConsole;setprojectodps.security.ip.whitelist=34,/關(guān)閉白名單:清空白名單*VPC訪(fǎng)問(wèn)MaxComputeMaxCompute作為阿里云開(kāi)發(fā)的海量數(shù)據(jù)處理平臺(tái),在安全性方面需要滿(mǎn)足安全隔離規(guī)范的要求。因此,MaxCompute團(tuán)隊(duì)增加了MaxCompute對(duì)?經(jīng)典網(wǎng)絡(luò)能夠訪(fǎng)問(wèn)所有project。?沒(méi)有配置VPC_ID及IP白名單的project可以被三種網(wǎng)絡(luò)中請(qǐng)求通過(guò)的相應(yīng)域名訪(fǎng)問(wèn),沒(méi)有限制。?配置了VPC_ID的Project只能被對(duì)應(yīng)的VP?配置了IP白名單的Project只能被對(duì)應(yīng)的機(jī)器訪(fǎng)問(wèn)。?對(duì)于加了代理的訪(fǎng)問(wèn)請(qǐng)求,判斷為最后一跳代理IP及VPC_ID為準(zhǔn)。下圖為具體示例下圖綠色部分為經(jīng)典網(wǎng)絡(luò)部分,藍(lán)色為用戶(hù)本身的VPC網(wǎng)絡(luò),紅色為公共云訪(fǎng)問(wèn)。?經(jīng)典網(wǎng)絡(luò)中只能訪(fǎng)問(wèn)Intranet_inner。?VPC網(wǎng)絡(luò)中中只能訪(fǎng)問(wèn)Intranet_public。?Internet網(wǎng)絡(luò)中只能訪(fǎng)問(wèn)Internet_vip。?經(jīng)典網(wǎng)絡(luò)能夠訪(fǎng)問(wèn)所有project。?配置了VPC_ID的Project只能被對(duì)應(yīng)的VP?配置了Ip白名單的Project只能被對(duì)應(yīng)機(jī)器訪(fǎng)問(wèn)。?沒(méi)有配置VPC_ID及Ip白名單的Project可以被三種網(wǎng)絡(luò)中請(qǐng)求通過(guò)相應(yīng)域名訪(fǎng)問(wèn),沒(méi)有限制,如P5。?對(duì)于加了代理的訪(fǎng)問(wèn)請(qǐng)求,判斷為最后一跳代理IP及VPC_Id為準(zhǔn)。?左側(cè)連接線(xiàn)為準(zhǔn),其它連接將不能訪(fǎng)問(wèn)。公共云MaxCompute訪(fǎng)問(wèn)外部網(wǎng)絡(luò)服務(wù)映射方案(外網(wǎng))適用于通過(guò)UDF或外部表訪(fǎng)問(wèn)處于外網(wǎng)中的目標(biāo)IP或域名的場(chǎng)景。需要提工單申請(qǐng),如果目標(biāo)IP或域名不存在安全限制,審核通過(guò)后即可訪(fǎng)問(wèn)目服務(wù)映射方案(VPC)適用于MaxCompute與VPC間的網(wǎng)絡(luò)已連接,需要通過(guò)UDF或外部表訪(fǎng)問(wèn)處于VPC網(wǎng)絡(luò)中的單個(gè)IP或域名的場(chǎng)景。只需要例添加至MaxCompute項(xiàng)目,完成雙向授權(quán)后,即可訪(fǎng)問(wèn)專(zhuān)有網(wǎng)絡(luò)連接方案適用于通過(guò)外部表、UDF或基于湖倉(cāng)一體架構(gòu)訪(fǎng)問(wèn)處于VPC網(wǎng)絡(luò)下的RDS、HBase集群、Hadoop集群場(chǎng)景。您需要通過(guò)VPC網(wǎng)絡(luò)管理控制臺(tái)進(jìn)行授絡(luò)之間的連接,配置RDS、HBase集群、Hadoop集群等目標(biāo)服務(wù)安全組,以此來(lái)建立MaxCompute與目標(biāo)服務(wù)間的網(wǎng)絡(luò)通路。直接連通方案適用于通過(guò)UDF或外部表訪(fǎng)問(wèn)阿里云OSS、OTS(Tablestore)服務(wù)的場(chǎng)景。OSS、OTS服務(wù)與MaxCompute連通無(wú)需申請(qǐng)開(kāi)通專(zhuān)有網(wǎng)絡(luò)。項(xiàng)目空間保護(hù)當(dāng)有Project:WonderLand、SecretGarden,可能有以下風(fēng)險(xiǎn)導(dǎo)致數(shù)據(jù)流SQL:createtableSecretGarden.Gotitasselect*fromWonderLand.customers。MR:通過(guò)MR將表讀出,然后寫(xiě)入SecretGarden中去。導(dǎo)出:通過(guò)數(shù)據(jù)導(dǎo)出工具,將該表數(shù)據(jù)導(dǎo)出。PAI:將數(shù)據(jù)間接導(dǎo)出。其他.....當(dāng)啟動(dòng)項(xiàng)目保護(hù)模式,也就是設(shè)置ProjectProtection規(guī)則:數(shù)據(jù)只能流入,不能流出。設(shè)置后,上述的4種操作將統(tǒng)統(tǒng)失效,因?yàn)樗鼈兌加|犯了ProjectProtection規(guī)則。當(dāng)啟動(dòng)項(xiàng)目保護(hù)但依舊需要對(duì)某些表可以允許流出時(shí),有兩種方案:方案1:在設(shè)置項(xiàng)目保護(hù)(ProjectProtection)的同時(shí),附加一個(gè)例外策略):方案2:將兩個(gè)相關(guān)的項(xiàng)目空間設(shè)置為互信(TrustedProject),則數(shù)據(jù)的流向?qū)⒉粫?huì)被視為違規(guī):addt

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論