數(shù)據(jù)中臺建設方案

上傳人：1*** IP屬地：浙江上傳時間：2024-04-28 格式：DOCX 頁數(shù)：378 大小：8.61MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩373頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

2 2 21.1.2.云操作系統(tǒng)TOS 31.1.3.大數(shù)據(jù)平臺產(chǎn)品優(yōu)勢 71.1.4.大數(shù)據(jù)平臺性能優(yōu)化 1.2.1.數(shù)據(jù)采集層建設 1.2.2.數(shù)據(jù)存儲層建設 1.2.3.數(shù)據(jù)交換層建設 1.2.4.數(shù)據(jù)管理層建設 1.2.5.資源管理層建設 1.3.1.數(shù)據(jù)計算層建設 1.4.1.大數(shù)據(jù)平臺可視化工具 1.4.2.大數(shù)據(jù)平臺集成能力 1.5.1.大數(shù)據(jù)平臺運維 1.5.2.大數(shù)據(jù)平臺安全性 1.5.3.大數(shù)據(jù)平臺高可用性 1.5.4.大數(shù)據(jù)平臺開放性 1.5.5.大數(shù)據(jù)平臺兼容性 1.數(shù)據(jù)中臺建設方案通過對客戶大數(shù)據(jù)應用平臺服務需求的理解，根據(jù)建設目標、設計原則的多方面考慮，建議采用星環(huán)科技TranswarpDataHub(TDH)大數(shù)據(jù)基礎平臺的架構方案，基于TranswarpOperatingSystem(簡稱TOS)云平臺方式部署構建。通過建立大數(shù)據(jù)集成平臺、大數(shù)據(jù)計算平臺、大數(shù)據(jù)開發(fā)平臺及大數(shù)據(jù)運維平臺來滿足客戶大數(shù)據(jù)應用平臺服務建設的要求。星環(huán)大數(shù)據(jù)平臺TranswarpDataHub(簡稱TDH)基于開源Spar查詢引擎、計算框架、存儲引擎和資源調度等方面做了性能的優(yōu)化，相較于同類產(chǎn)品，提供更好的性能。改進的分布式計算引擎Inceptor,解決了開源Spark的穩(wěn)定性問題，并且已經(jīng)在眾多成功案例中經(jīng)歷了的考驗。同時Ipcetor大幅提高Spark計算性能，是開源的2-10倍。TDHInceptor極大提高了Spark功能和性能的穩(wěn)定性，可以7*24小時在企業(yè)的生產(chǎn)環(huán)境運行，并能在TB級規(guī)模數(shù)據(jù)上高效進行各種穩(wěn)定的統(tǒng)計分析。星環(huán)大數(shù)據(jù)平臺TDH采用基于Hadoop的數(shù)據(jù)平臺架構，海量數(shù)據(jù)查詢分析服務集群既可以處理結構化的數(shù)據(jù)，也可以處理非結構化、半結構化的數(shù)據(jù)，滿足配置、日志、網(wǎng)頁、音視頻、社交網(wǎng)絡等多源異構數(shù)據(jù)的加載和存儲，提供數(shù)據(jù)查詢、全文檢索、數(shù)據(jù)離線批處理分析、交互式分析、圖分析、數(shù)據(jù)挖掘、機器學習等多種數(shù)據(jù)處理模式。同時，基于平臺提供的實時流處理集群，可以滿足實時數(shù)據(jù)研判分析服務的需求。整個平臺提供完整的多租戶功能，對于計算資源與存儲資源以及數(shù)據(jù)訪問資源進行統(tǒng)一控制管理，對于計算資源進行高效的調度管理與使用控制；對于存儲資源進行配額管理；對于數(shù)據(jù)訪問權限，進行嚴格的權限管理。在安裝、配置、監(jiān)控、告警方面，通過統(tǒng)一的TranswarpManager進行運維管理。星環(huán)大數(shù)據(jù)平臺TDH應用范圍覆蓋各種規(guī)模和不同數(shù)據(jù)量的企業(yè)，通過內演計翻燃演計翻燃存計算、高效索引、執(zhí)行優(yōu)化和高度容錯的技術，使得一個平臺能夠處理10GB到100PB的數(shù)據(jù)，并且在每個數(shù)量級上，都能比現(xiàn)有技術提供更快的性能；企業(yè)客戶不再需要混合架構，TDH可以伴隨企業(yè)客戶的數(shù)據(jù)增長，動態(tài)不停機擴容，避免MPP或混合架構數(shù)據(jù)遷移的棘手問題。簽盤管行實時窗口統(tǒng)計|賬戶管理機器學習交互式探索計算板架Workflow發(fā)工具異常警告HDFSFTP文件接口實時流處理集群高并發(fā)查詢算法模里特征工程燃據(jù)涵氮分布式文件系統(tǒng)HDFS據(jù)適翅海分布式消息隊列實時流處理引單煅起資源監(jiān)控關系型數(shù)據(jù)庫超制安全審計權限控制集群運維服務監(jiān)控用戶認證文件上傳(hordhany星環(huán)云操作系統(tǒng)TranswarpOperatingSystem(簡稱TOS)是為大數(shù)據(jù)應用量基于優(yōu)先級的搶占式資源調度和細粒度資源分配，讓大數(shù)據(jù)應用輕松擁抱云服務。未來企業(yè)對于構建統(tǒng)一的企業(yè)大數(shù)據(jù)平臺(DataHub)來驅動各種業(yè)務具有強烈需求，統(tǒng)一的企業(yè)大數(shù)據(jù)平臺需要提供以下功能：1)靈活部署：支持靈活部署大數(shù)據(jù)應用和其他常規(guī)應用2)資源調度：具備自動擴容和自動修復功能3)服務發(fā)現(xiàn)：具備集中式的倉庫1)數(shù)據(jù)隔離：包括數(shù)據(jù)源、訪問模式等2)計算隔離：隔離CPU、內存、網(wǎng)絡、磁盤IO等創(chuàng)新的搶占式資源調度模型能在保障實時業(yè)務的同時，提高集群空閑時的資源占用，讓批量作業(yè)和實時業(yè)務在互不干擾的情況下分時共享計算資源。另外，在TOS上運行的TDH還引入微服務的架構，顯著地降低了用戶部署環(huán)境對TDH穩(wěn)定性的影響，提高了部署的可用性，并且能讓用戶在不停機的前提下，享受到將來更新版本的升級以及修復。Ring0:Docker/ContainerRing1:ResourceschedulerRing2;Bulf-insystemservcesRing3:Centralservicerepository(dockerimages)TRANSNARPTranswarpOperatingSystemContainersSchedulerCPU/MENDIskNetworktoordnatnorchestrationauto-ligdiscovenprortty-basedschedulerstoragemanagerVUANmanagerbalangeteplicotornameservice容器層容器層主要包含一系列的容器—dockerconta可以輕松的為任何應用創(chuàng)建一個輕量級的、可移植的、自給自足的容器。開發(fā)者在測試機上編譯測試通過的容器可以批量地在生產(chǎn)環(huán)境中部署。Docker容器通過Docker鏡像來創(chuàng)建，容器與鏡像的關系類似于面向對象編程中的對象與類。每個容器分配了一定的計算及存儲資源，可以運行各自的應用程序。通過將應用服務裝載在Docker容器中，能夠實現(xiàn)應用環(huán)境和底層環(huán)境的解耦合，容器間相互隔離互不影響。調度模塊基于Kurbernetes開發(fā)，包含多種調度模塊，以及相應的調度策略。支持對CPU、內存的調度，內嵌了FIFO調度、公平調度等常規(guī)的調度策略。額外的，基于Docker容器能夠快速啟動的特點，TOS還包含通過設計不同的優(yōu)先級，優(yōu)先級高的容器能夠搶占優(yōu)先級低容器的資源啟動。系統(tǒng)服務層系統(tǒng)服務層包含了容器正常運行所需的系統(tǒng)服務，如服務etcd、nameservice等，該層用于支持平臺的容器化。戶需要啟動一個已存在于倉庫中的應用時，只需要將該應用的Dockerimage拉下來啟動即可。倉庫預置了常用的應用服務，如完整Docker化的TranswarpDataHub各個組件和Tomcat、MySQL等常用服務。如果用戶想要使用其他應用服務，也可以通過TOS提供的接口，在測試環(huán)境將應用服務制作為Dockerlmage,上傳至TOSmarket,即可在生產(chǎn)環(huán)境下載并使用。基于分布式容器集群管理系統(tǒng)(TOS)構建的服務器虛擬化資源池，可為大數(shù)據(jù)平臺系統(tǒng)的各類應用、分布式計算和存儲服務組件提供多租戶隔離的容器資基于TOS,用戶可以通過WebUI、RESTAPI或者命令行一鍵瞬間安裝和部署TDH集群，能自動根據(jù)服務的依賴性安裝所需的其他服務組件。在虛擬技術之前，部署硬件資源滿足新的應用需求需要幾天時間，通過虛擬化技術把這個時間降到了分鐘級別，而目前基于Docker的TOS云平臺把時間降到了秒級別。Docker作為裝載進程的容器，不必重新啟動操作系統(tǒng)，幾秒內能關閉，可以在數(shù)據(jù)中心創(chuàng)建或銷毀，沒有額外消耗。典型的數(shù)據(jù)中心利用率是30%,通過更積極的資源分配，以低成本方式對新的實例實現(xiàn)更合理的資源分配，從而提高數(shù)據(jù)中心的利用效率。存、硬盤和網(wǎng)絡更好的隔離。TOS中Docker容器的隔離目前是由Linux內核提進程編號的隔離，網(wǎng)絡設備、網(wǎng)絡棧、端口的隔離，掛載點(文件系統(tǒng))的隔離，用戶和用戶組的隔離。這些隔離保證了不同容器的運行環(huán)境是基本不受影響的，比如掛載點的隔離，就保證了一個容器中的進程不能隨意訪問另外一個容器中的文件。TOS平臺相比于傳統(tǒng)的ApacheYarn管理框架和開源Kubernetes的資源管理框架而言，在資源粒度方面可以管控磁盤和網(wǎng)絡，而傳統(tǒng)資源調度框架只能管理到CPU和內存；在隔離性方面，容器技術有天然的優(yōu)勢；在依賴性和通用性方面，不依賴于Hadoop組件以及技術，這意味著可以實現(xiàn)所有上層應用的云化開發(fā)、測試、升級以及管理調度。資源粒度隔離程度依賴性進程級別、不精確依賴某個HDFS支持少量計算引擎KubernetesCPU/MEMContainer不依賴Hadoop支持通用Linux負載NETWORKContainer+Quota不依賴Hadoop支持大數(shù)據(jù)及通用應用TOS支持對TDH組件自動擴容或者縮容，同時也允許其他應用服務和大數(shù)據(jù)服務共享集群，從而提高資源的使用率。TOS創(chuàng)新的支持搶占式資源調度模型，能在保障實時業(yè)務的同時，提高集群空閑時的資源占用，讓批量作業(yè)和實時業(yè)務在互不干擾的情況下分時共享計算資源。通過支持動態(tài)擴容和收縮集群，從何實現(xiàn)了資源的動態(tài)分配與調度，整個過程熱插拔業(yè)務、服務無需重啟。TOS的Replicator模塊負責檢測集群規(guī)模，當集群中服務發(fā)生問題時可以另起一個服務實例實現(xiàn)集群的自我修復功能。舉例而言，某個HyperbaseRegionServer管理的資源范圍內另起一個RegionServer的Docker容器接替因故停止的容器，動態(tài)的保證了服務集群的整體穩(wěn)定性。在TOS上運行的TDH以及應用服務還引入微服務的架構，顯著降低用戶部署環(huán)境對TDH以及應用服務穩(wěn)定性的影響，提高了部署的可用性，并且能讓用戶在一定程度上不停止業(yè)務以及服務的前提下，進行快捷的TDH以及應用服務星環(huán)大數(shù)據(jù)平臺支持完整的SQL99標準和SQL2003核心擴展，可以運行TPC-DS標準測試集的全部99個測試項；唯一支持存儲過程的SQLonHadoop引擎；兼容98%以上的OraclePL/SQL與80%以上的DB2SQLPL語法支持存儲過程、函數(shù)、控制流、游標、異常處理等各類語法。唯一支持ACID分布式事務的大數(shù)據(jù)SQL引擎；定位數(shù)據(jù)倉庫和數(shù)據(jù)集市市場，可用于補充或替代Oracle、DB2等分析用數(shù)據(jù)倉庫。TDH提供ANSISQL2003語法支持以及PL/SQL過程語言擴展，并且可以自動識別HiveQL、SQL2003和PL/SQL語法，在保持跟Hive兼容的同時提供更強大的SQL支持。支持標準的SQL形式訪問數(shù)據(jù)。TDH更完整的SQL支持使得用戶能將原有數(shù)據(jù)分析應用方便地遷移到Transwarp大數(shù)據(jù)平臺，同時又能處理更大的數(shù)據(jù)量。流擴展后的SQL99。因此，開發(fā)者可以在TDH上直接使用SQL而不是通過各種API來編寫流計算程序，也不需要考慮任何打包或部署工作。為了更好的提供全文搜索服務，TDH中的Search也支持SQL的檢索擴展語法(兼容Oracle標準)。由于支持標準的JDBC4.0和ODBC3.5,TDH可以兼容主流的數(shù)據(jù)庫軟ApacheHiveApacheSpark是是是是部分是是部分否是否否Database方言是否否DB-Link擴展是否否是否否Search擴展是否否ACID對于大數(shù)據(jù)的數(shù)據(jù)處理和數(shù)據(jù)清洗過程至關重要。如果沒有ACID,數(shù)據(jù)的插入修改過程將存在各種潛在問題，終端用戶需要親自探究事務操作的失敗TDH是第一個提供完整ACID支持的Hadoop商業(yè)化產(chǎn)品。TranswarpInceptorCRUD支持支持支持不支持支持事務類型事務+自治事務自動提交事務不支持事務+自治事務隔離級別可串行不支持不支持只讀+可串行+讀取提交事務錯誤處理事務+PL/SQL+SQL不支持不支持事務+PL/SQL數(shù)據(jù)一致性支持不支持不支持支持TranswarpInceptor采用專有的高效列式內存存儲格式和為內存優(yōu)化的ApacheSpark計算引擎，相比廣泛使用的Map/Reduce框架消除了頻繁的I/O磁盤訪問。此外，Spark引擎還采用了輕量級的調度框架和多線程計算模型，相比Map/Reduce中的進程模型具有極低的調度和啟動開銷，除帶來更快的執(zhí)行速度以外，更使得系統(tǒng)的平均修復時間(MTTR)極大的縮短。在實時在線應用方面，滿足在線存儲和在線業(yè)務分析系統(tǒng)(OLAP)的低延時需求。綜合在執(zhí)行引擎及數(shù)據(jù)存儲層上的優(yōu)化，使得TDH性能全面領先開源ApacheHadoop2.0,SQL支持完整程度和性能大幅領先ClouderaImpala,比主流MPP數(shù)據(jù)庫快1.5到10倍。環(huán)深度優(yōu)化了Inceptor的分布式計算引擎，并使其具有靈活的擴展能力，同時它會對數(shù)據(jù)重分布和廣播的邏輯進行調試優(yōu)化以達到更好性能。InceptorHolodeskInceptor還采用了基于成本的優(yōu)化和基于規(guī)則的優(yōu)化來為執(zhí)行任務選擇最佳執(zhí)行計劃。所有這些特性都有助于Inceptor提供批量處理過程的效率和擴展性，在TPC-DS各個數(shù)據(jù)量級別的測試中，Inceptor都有非常好的表現(xiàn)。Inceptor可以很好地適配各種交互式數(shù)據(jù)分析和OLAP場景。Holodesk提供了索引支持，并且可以有效的利用SSD來加速掃描，因此對交互式分析場景的業(yè)務可實現(xiàn)多倍的提速。對于模式較為固定的數(shù)據(jù)報表業(yè)務，用戶可以采用OLAPCube技術使分析性能提高10-100倍。我們以1TB的數(shù)據(jù)集為對象進行測試，發(fā)現(xiàn)在OLAPCube的加速下，TPC-H在Inceptor中的運行速度比S和Greenplum快近100倍。將大數(shù)據(jù)放在數(shù)據(jù)分析師的手中，交互式地探索數(shù)據(jù)，獲得洞察并發(fā)現(xiàn)模式和趨勢，以便展開進一步的分析及決策已經(jīng)變得越來越重要。TDH通過分布式的內存列式存儲和優(yōu)化的高速執(zhí)行引擎來支持交互式SQL的TDH除了支持通過R訪問HDFS或者Hyperbase中的數(shù)據(jù)外，還支持訪問存儲在Inceptor分布式內存中的數(shù)據(jù)。Inceptor同時內置了常用機器學習算法的并行化實現(xiàn)，可以與R語言中的數(shù)千個算法混合使用。新版本同時支持R命令行以及圖形化的RStudio執(zhí)行R語言程序來訪問TDH中的數(shù)據(jù)，從而使得TDH成為在大數(shù)據(jù)的數(shù)據(jù)挖掘和可視化應用領域的利器。TDH包含了經(jīng)過高度優(yōu)化的專有圖算法，可高速分析關聯(lián)關系網(wǎng)絡等圖數(shù)據(jù)。TranswarpDiscover為終端用戶提供了R語言接口用于進行數(shù)據(jù)挖掘，并實現(xiàn)了超過60種分布式機器學習算法和多種行業(yè)模型，包括金融行業(yè)的交易反欺詐星環(huán)還通過TranswarpSophon來幫助數(shù)據(jù)工程師開發(fā)數(shù)據(jù)挖掘的應用。Sophon提供了可視化界面工具Midas用于創(chuàng)建模型，用戶只需通過拖拽數(shù)象和運算符就能完成模型設計，然后將設計的模型在TDH集群上訓練或預測分們的模型訓練能夠提升數(shù)倍甚至數(shù)十倍。此外，Sophon還整合了深度學習框架據(jù)和人工智能結合起來推動業(yè)務創(chuàng)新。言的;文?WadgpacePstyHepBseurensm[9Z·言的;文?WadgpacePstyHepBseurensm[9Z·53940obs.ef10veiableswts(plot.title"theeeDiamondPricing710…>1tet(size·22)235200Co.1xlah資源管理，得以使TDH以較低的成本部署在公共云或者私有云上。星環(huán)還充分持各種不同的業(yè)務需求。TDH非常重視與數(shù)據(jù)分析生態(tài)系統(tǒng)的整合以提高系統(tǒng)的易用性。TDH與現(xiàn)有成熟系統(tǒng)的無縫整合涉及了數(shù)據(jù)獲取，數(shù)據(jù)分析以及數(shù)據(jù)可視化端。傳統(tǒng)的關系型數(shù)據(jù)庫的數(shù)據(jù)可以直接作為數(shù)據(jù)源接入到集群中參與計算分析，目前已經(jīng)支持Oracle,DB2及MySQL數(shù)據(jù)庫。數(shù)據(jù)分析層與R語言的整合帶來了R的數(shù)千種統(tǒng)計算法的同時，可以充分利用R語言中的繪圖工具繪制專業(yè)的統(tǒng)計報表；數(shù)據(jù)可視化不僅可將最終分析結果展示給用戶，還可以幫助數(shù)據(jù)分析師來進行數(shù)SAPBusinessObjects、OracleOBIEE等，使得基于大數(shù)據(jù)分析的商業(yè)決策更易被理解和接受，從而將大數(shù)據(jù)的潛在價值最大化。雖然有些工具也支持ApacheHadoop,但只有高性能的TDH才真正使得交互式地探索大數(shù)據(jù)成為現(xiàn)實。TDH通過提供數(shù)據(jù)存儲、分布式計算、數(shù)據(jù)分析挖掘以及數(shù)據(jù)可視化的整套支持，解決了企業(yè)在GB到PB級數(shù)據(jù)分析領域碰到的各種問題。作為企業(yè)級解決方案，可管理性是TDH的顯著優(yōu)勢，用戶友好的管理界面提供了系統(tǒng)安裝、系統(tǒng)及集群配置、監(jiān)控及預警等多方面的一站式支持。TDH架構具有高可用性基于此)保證了數(shù)據(jù)的持久化和冗余復制，并具有數(shù)據(jù)自動檢測和修復的容錯功能；基于HDFS的所有服務為HDFS2.5的HA功能而優(yōu)化，確保整個大數(shù)據(jù)處理系統(tǒng)的高可用性。在安全領域，與Kerberos/LDAP進行整合，支持細粒度訪問控制、應用程序安全及數(shù)據(jù)加密及解密等等。星環(huán)支持多種主流的分布式計算框架，包括MapReduce和Spark,并且在產(chǎn)品設計之初就將Spark作為整個產(chǎn)品的缺省計算框架，多年來在計算框架方面做了大量的優(yōu)化工作，提高了其性能與穩(wěn)定性。MapReduce是一個分布式計算框架，基于該框架能夠容易地編寫分布式應用程序，這些應用程序能夠運行在由上千個商用機器組成的大集群上，并以一種可靠地，具有容錯能力的方式并行地處理上TB級別的海量數(shù)據(jù)集。MapReduce擅長處理大數(shù)據(jù)，該計算框架的核心思想就是“分而治之”,整個計算過程可以分解為Map(分)與Reduce(合)兩個階段。首先，將復雜的任務或計算的規(guī)模相對原任務要大大縮小；二是就近計算原則，即任務會被分配到存放著所需數(shù)據(jù)的節(jié)點上進行計算；三是這些小任務可以并行計算，彼此之間沒有依賴關系。Reducer負責對map階段的結果進行匯總。Spark是UCBerkeleyAMPlab(加州大學伯克利分校的AMP實驗室)所開源的類HadoopMapReduce的通用并行框架，Spark擁有HadoopMap有的優(yōu)點；但不同于MapReduce的是Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要Spark是一種與Hadoop相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark啟用了內存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可輕松地操作分布式數(shù)據(jù)集。星環(huán)科技基于開源Spark技術，改進的分布式計算引擎Inceptor,解決了開大幅提高Spark計算性能，是開源的2-10倍。TDHInceptor極大提高了Spark功能和性能的穩(wěn)定性，可以7*24小時在企業(yè)的生產(chǎn)環(huán)境運行，并能在TB級規(guī)模數(shù)據(jù)上高效進行各種穩(wěn)定的統(tǒng)計分析。Inceptor基于ApacheSpark深度開發(fā)了專用分布式計算引擎，不僅大幅提高了計算性能，而且有效的解決了Spark在穩(wěn)定性方面的很多問題，確保計算引擎能夠7x24小時無間斷運行。此外，Inceptor引擎獨立構建了分布式數(shù)據(jù)層，將計算數(shù)據(jù)從計算引擎JVM內存空間中獨立出來，因此可以有效減少JVMGC對系統(tǒng)性能和穩(wěn)定性的影響。優(yōu)化器，輔以100多種優(yōu)化規(guī)則，可以保證SQL應用在無需手工改動的情況下能夠發(fā)揮最大的性能。對于數(shù)據(jù)傾斜等常見的數(shù)據(jù)處理難題，執(zhí)行引擎也能夠自動識別并加以優(yōu)化，能夠解決絕大部分存在數(shù)據(jù)傾斜的計算場景，杜絕數(shù)據(jù)傾斜為了更好的適應各種數(shù)據(jù)場景，Inceptor的執(zhí)行引擎延時模式和高吞吐模式。低延時模式主要應用在數(shù)據(jù)量比較小的場景，執(zhí)行引擎會生成執(zhí)行延時低的物理執(zhí)行計劃，通過減少或避免一些高延時的任務(如IO,網(wǎng)絡等)來保證SQL的執(zhí)行時間很短，達到或者逼近關系型數(shù)據(jù)庫在這些場景下的性能。高吞吐模式主要應用在大數(shù)據(jù)的場景，通過合理的分布式執(zhí)行來提高超大數(shù)據(jù)量上的復雜統(tǒng)計分析的性能。因此，Inceptor的執(zhí)行引擎可以滿足從GB到PB的各種數(shù)據(jù)量上的數(shù)據(jù)業(yè)務需求。TranswarpInceptor引擎內置了豐富的查詢優(yōu)化器，包括基于代價的優(yōu)化器(CBO)、基于規(guī)則的優(yōu)化器(RBO)和基于物化視圖的優(yōu)化器(MBO)。CBO全稱是CostBasedOptimization(基于代價的優(yōu)化方式),是SQL執(zhí)行展，進一步提升了SQL兼容性和執(zhí)行性能。性能提升方面，在測試TPC-DS標準測試集時，開源Hive在開啟CBO優(yōu)化以后，平均有2.5倍的性能提升。Inceptor基于原有的功能進行了擴展和增強，在開啟內置CBO后，約10%的測試場景性能提升3~4倍，接近20%的場景性能提升40%,約有80%的執(zhí)行計劃等于或接近最優(yōu)計劃。實際海量數(shù)倉業(yè)務中，JONJONONcardid=BcandidValuedistributionDaselectivity熱行計朝LookupJoinCo-GroupJoinCommonJein200001*mimu422523414896204225#11*56870182283480**s*CostbasedoptimizerTablesizewmasne1000recordsRBO全稱是RuleBasedOptimization(基于規(guī)則的優(yōu)化方式),應用靜態(tài)優(yōu)化規(guī)則生成一個優(yōu)化的邏輯執(zhí)行計劃，通過一組簡單的啟發(fā)式規(guī)則和打分原則來確定語句的執(zhí)行過程和訪問方式的，其中排名越靠前，被認為效率越高?；谖锘晥D的優(yōu)化器MBO全稱是MaterializedviewBasedOptimizer(基于物化視圖的優(yōu)化器),它可以基于物化的OLAPCube或者視圖來優(yōu)化輸入的SQL查詢，根據(jù)對執(zhí)行成本的計算，決定是否執(zhí)行讀取物化對象的存儲計劃。大數(shù)據(jù)平臺中部分數(shù)據(jù)存儲上可以建立索引，達到查詢加速的效果。內置智能索引功能，可以識別出底層存儲具備的索引，并在查詢時優(yōu)先使用存儲>查詢計劃智能使用最快速的索引>無需用戶在SQL中指定索引>對指定查詢，根據(jù)該表有的多個索引創(chuàng)建不同的執(zhí)行計劃>根據(jù)成本計算性能最佳的執(zhí)行計劃和索引>支持精確查詢和模糊查詢>查詢延時百毫秒級Index)、高維索引(High-dimensionalIndex)以及全文索引(Full-textIndex)等；結合Inceptor支持通過SQL進行復雜條件毫秒級高并發(fā)查詢，同時查詢計劃智能使用最快速的索引，無需用戶在SQL中指定索引。對指定查詢，根據(jù)該表有的多個索引創(chuàng)建不同的執(zhí)行計劃，根據(jù)成本計算性能最佳的執(zhí)行計劃和索引，與此同時，支持精確查詢和模糊查詢。相對于普通索引技術，智能索引技術基于代價的執(zhí)行優(yōu)化，準確率高，性能更好，能滿足各類復雜場景需求，包括基于條件的多表關聯(lián)即席查詢與統(tǒng)計，可以滿足高速的OLAP數(shù)據(jù)分析應用需求。交互式分析是指用戶期待秒級的分析響應。為支持在線事務處理、交互式分析、近實時挖掘，或針對操作型數(shù)據(jù)直接進行復雜、即席的分析性應用需求，傳統(tǒng)數(shù)據(jù)集市、數(shù)據(jù)倉庫等均針對預先定義的分析服務類型進行預先計算。將原始數(shù)據(jù)做抽取、轉換、加載，最后生成物化視圖，實現(xiàn)相關分析；同時周期性檢查數(shù)據(jù)存儲中的增量數(shù)據(jù)，優(yōu)化分析結果，因而無法滿足實時、即席的復雜分析要求。此外，數(shù)據(jù)存儲模式的變化，數(shù)據(jù)量激增之后，傳統(tǒng)的在線分析的局限性越來越明顯，如數(shù)據(jù)存取性能下降，連接處理復雜化等。為了加速交互式分析的速度，Inceptor推出了基于內存或者SSD的列式存儲引擎Holodesk。Holodesk將數(shù)據(jù)在內存或者SSD中做列式存儲，輔以基于內存的執(zhí)行引擎，可以完全避免IO帶來的延時，極大的提高數(shù)據(jù)掃描速度。除了Inceptor中Holodesk支持跨內存/閃存介質的分布式混合列式存儲，可用于緩存數(shù)據(jù)供Spark高速訪問。Holodesk利用SSD的高IOPS特性進行針對性的存儲結構優(yōu)化，通過列式存儲，內置索引等技術，使得在SSD上分析性能比純內存緩存相差在10%~20%范圍左右，提供性能接近的交互式SQL分析能力。由于內存的價格是SSD的近10倍，因此可以采用SSD來替代內存作為緩存，一方面可以增大分布式內存數(shù)據(jù)庫Holodesk存儲容量，另一方面可以降低成本，同式數(shù)據(jù)分析，具備在秒級掃描分析數(shù)十億條數(shù)據(jù)的能力。未來可以對不同業(yè)務部門開放交互式分析能力，提供現(xiàn)有數(shù)據(jù)倉庫不能滿足的交互式內存分析能力。Holodesk允許用戶對多字段組合構建OLAP-Cube,并將cube直接存儲于內存或者SSD上，無需額外的BI工具來構建Cube,因此對于一些復雜的統(tǒng)計分在可用性方面也表現(xiàn)出色。Holodesk的元數(shù)據(jù)和存儲都原生支持高可用性，通過一致性協(xié)議和多版本來支持異常處理和災難恢復。在異常情況下，Holodesk能夠平臺支持基于內存或者固態(tài)硬盤高IO特性優(yōu)化的列式存儲，避免IO帶來的延時以提高數(shù)據(jù)掃描速度。Holodesk星環(huán)自主研發(fā)用于應對海量數(shù)據(jù)OLAP高性能分析查詢難題的一款產(chǎn)品，它是跨內存/閃存/磁盤等介質的分布式混合列式存儲，常用于緩存數(shù)據(jù)供Inceptor高速訪問。Holodesk內建索引，結合Inceptor計算引擎可提供比開源Spark更高的交互式統(tǒng)計性能，可以達到秒級靈活分析數(shù)億條記錄的性能；結合使用低成本的內存/閃存混合存儲方案，可接近全內存存儲的分析性能。SparkExecutorExecutorExecutorExecutorColumnarStoreAIFaeSyetemAIMemeryTe550TierColumnarStoreAIColumnarStoreAImmerStecAR它著力于交互式分析中即時查詢效率的提高且能夠保證擴展性與穩(wěn)定性。TranswarpHolodesk通過Zookeeper來管理元數(shù)據(jù)，從而避免因為單點故障而導致的數(shù)據(jù)丟失，數(shù)據(jù)checkpoint在HDFS中。服務在故障恢復之后，Holodesk能夠通過Zookeeper中的信息自動重建數(shù)據(jù)與索引，因此有很高的可靠性。平臺可以采用全局索引，快速找到精確查詢的記錄，索引采用分桶技術，加快尋找索引速度，快速精確定位數(shù)據(jù)。Holodesk通過創(chuàng)建全局索引，優(yōu)化底層存儲，對于過濾率較高的情況有很好的優(yōu)化效應。Holodesk提供了表組織成桶的優(yōu)化方式，通過分桶技術可以做到：1)有助于取樣取樣是從所有數(shù)據(jù)隨機的抽取一部分樣本。當數(shù)據(jù)極多時，不方便使用全部的數(shù)據(jù)驗證系統(tǒng)功能，這時需要使用樣本數(shù)據(jù)進行測試。表若被分桶，每個桶的內容是對數(shù)據(jù)的離散后的結果，滿足對于樣本的要求，所以取樣時可以直接抽取任意一桶的全部數(shù)據(jù)作為樣本。2)減少操作量，提高查詢速率條件過濾時，如果過濾字段和分桶字段一致，可根據(jù)哈希結果直接知道該記錄所在的相關分桶編號，只在這些分桶查找滿足條件的記錄，而不用搜索所有的文件，有很高的查詢效率。分桶操作使得如GROUPBY以及特定場景下的JOIN(多個JOIN表分桶個數(shù)相同)能夠在一個Stage中完成，避免了Shuffle過程。例如，有兩張表對JoinKey的列分桶，現(xiàn)對這兩張表做JOIN,由于兩個表相同列值的記錄都在對應表的同一個編號bucket中，因為Inceptor實現(xiàn)了同一個編號的bucket在同一個節(jié)點上的平臺支持在分布式內存列式存儲上建立局部索引，提供OLAP能力，為大表創(chuàng)建索引，支持多維數(shù)據(jù)靈活分析，無需預先物化計算。索引和Cube的建立會提升在高過濾和高聚合率的情況下的查詢速率和效率，并且使得以更直觀地方式從多維度多層面研究數(shù)據(jù)。Holodesk的索引是將列式存儲的每個單元看作整體建立的。索引的創(chuàng)建采用了字典編碼技術(DictionaryEncoding)。相對于通過遍歷每一條記錄進行條件過濾的手段，使用索引大幅度的索引支持所有數(shù)據(jù)類型。星環(huán)科技的大數(shù)據(jù)平臺通過細粒度的資源調度優(yōu)化，充分利用物力資源，是的單位時間內能夠滿負荷地運行任務，面對高并發(fā)ETL或者交互式分析的場景，TranswarpYarn支持同時對計算資源(CPU核心)和內存資源的管理能力，Yarn和分布式存儲在同一個物理集群中，達到分布式計算中數(shù)據(jù)優(yōu)先本地化計算的目的，避免計算過程中數(shù)據(jù)需要全部從網(wǎng)絡獲取。在申請資源配額后，如果當前用戶的資源緊張或受限，還可以動態(tài)調配其他用戶的閑置資源加入，當其他用戶使用時再歸還。TDH大數(shù)據(jù)平臺基于YARN的資源調度框架，啟動Spark和Map/Reduce計算集群，按需動態(tài)創(chuàng)建與銷毀計算集群。TDH平臺在一個Inceptor/Spark計算集群內部同樣能實現(xiàn)計算資源在不同資源池(Pool)的共享與隔離，通過公平調度算法保證高優(yōu)先級的Pool優(yōu)先拿到閑置資源，同時每個Pool具有指定的資源保有量，避免高負載批處理業(yè)務占用全部計算資源。同時，這種機制也能支持服務類的業(yè)務長期占用一定量的資源。在TranswarpYarn上，可以非常方便的動態(tài)創(chuàng)建和銷毀Spark或者Map/Reduce集群。對于用戶提交的MapReduce以及Spark作業(yè)以及Inceptor集群，需要提交到其有權限的隊列中，向Yarn申請資源，當用戶當集群中節(jié)點上有足夠的資源滿足作業(yè)中task的要求并且沒有達到該用戶資源使用上線時，Yarn中將這部分CPU和內存資源封裝成container,提供給task運行；如果剩余的資源量不足以滿足計算所申請的資源，則任務需要排隊。作業(yè)任務運行完成后動態(tài)銷毀，釋放占用的CPU與內存資源。因此，對于平臺分析應用，可以充分使用TranswarpYarn的特性，實現(xiàn)分析集群的按需創(chuàng)建與銷毀，從而在Yarn中通過FairScheduler管理調度策略，支持定義用戶最低獲取資源，以及最高獲取資源，用戶提交任務時所占用的最低資源不低于分配給用戶的最低資源，在空余資源的情況下，最高資源能夠達到分配給用戶的最高資源。在其他任務需要資源時，根據(jù)優(yōu)先級決定資源分配情況，如果優(yōu)先級不夠，支持搶占式調度，能夠將低優(yōu)先級作業(yè)占用的多余資源釋放出來。通過TDH中Guardian的統(tǒng)一多租戶資源管理調度，用戶組可以分配對應隊列資源，組管理員具有隊列資源配置權限，可以自主地對分配給本組的資源為組內用戶再次分配。組內所有用戶的最低資源總和不超過組的最低資源，最大的最.TPC-DS基準測試和TPC-H測試TPC-DS是國際公認的數(shù)據(jù)庫性能測試，其中包含了99個精心設計的SQL1.具有良好的SQL支持能力，能夠無縫對接絕大部分基于SQL的應用場景。2.能在短時間內跑完這些測試說明該產(chǎn)品的性能非常優(yōu)秀。星環(huán)大數(shù)據(jù)平臺通過了大規(guī)模性能測試，驗證了TDH在100TB的TPC-DS商業(yè)智能計算測試TPC-H是美國交易處理效能委員會(TPC,TransactionProcessingPerformanceCouncil)組織制定的用來模擬決策支持類應用的一個測試集.目前，在學術界和工業(yè)界普遍采用它來評價決策支持技術方面應用的性能.這種商業(yè)測試可以全方位評測系統(tǒng)的整體商業(yè)計算綜合能力，對廠商的要求更高，同時也具有普遍的商業(yè)實用意義，目前在銀行信貸分析和信用卡分析、電信運營分析、稅收分析、煙草行業(yè)決策分析中都有廣泛的應用。TPC-H基準測試的度量單位是每小時執(zhí)行的查詢數(shù)(QphH@size),其中H表示每小時系統(tǒng)執(zhí)行復雜的能力.TPC-H是根據(jù)真實的生產(chǎn)運行環(huán)境來建模的，這使得它可以評估一些其了數(shù)據(jù)倉庫領域的測試需求，并且促使各個廠商以及研究機構將該項技術推向極星環(huán)TDH進行了大數(shù)據(jù)性能測試，驗證了在TPC-H下的性能。大數(shù)據(jù)平臺需要采集各類內外部數(shù)據(jù)，形式多樣，需支持不同頻度、不同形態(tài)的數(shù)據(jù)采集。采集方式包含流方式、批量導入方式、外部數(shù)據(jù)文件導入、異構數(shù)據(jù)庫導入、主動數(shù)據(jù)抽取、增量追加方式、網(wǎng)上爬蟲方式等，數(shù)據(jù)形態(tài)包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)。數(shù)據(jù)采集層負責實現(xiàn)內外部結構化數(shù)據(jù)、非結構化數(shù)據(jù)和流數(shù)據(jù)的自動化采利用數(shù)據(jù)調度和采集工具將數(shù)據(jù)源數(shù)據(jù)導入大數(shù)據(jù)基礎平臺中。本建設方案滿足甲方對于數(shù)據(jù)采集層建設的基本要求：利用了FTP/SFTP、Sqoop、Kafka、Flume等開源組件和技術；實現(xiàn)了離線采集和加載、實時/準實時數(shù)據(jù)同步等功能；遵循了開放性和先進性原則；并且提供了更高效的數(shù)據(jù)導入工具SQLBulkload,與關系型數(shù)據(jù)庫準實時同步的工具OGG和ODC,使得數(shù)據(jù)采集工具更加豐富，數(shù)據(jù)導入效率更高，時效性更強?？梢越o甲方后續(xù)建設提供更豐富、更多樣性的選擇。在Oracle、DB2、Mysql等傳統(tǒng)關系型數(shù)據(jù)庫以及MongoDB等NoSQL數(shù)據(jù)Search表中進行數(shù)據(jù)分析或者檢索，TDH上支持各類結構化數(shù)據(jù)的加載，支持支持傳輸?shù)膸Х指舴脑M序列，每個元組的字段結構相同，由指定的分隔符分隔。支持的字段類型包括：整數(shù)(最長8字節(jié))、浮點數(shù)、字符串、日期、時間等。在Inceptor中定義相關的表結構，通過Sqoop生成分布式任務對數(shù)據(jù)進行高效抽出同步，或者通過TDA組件對關系型數(shù)據(jù)庫中的表進行準實時同步插入更新刪除等數(shù)據(jù)操作；業(yè)務平臺實時產(chǎn)生的結構化日志或者消息通過Flume分布式日志實時采集工具加載到TDH平通過InceptorSQL進行數(shù)據(jù)處理或者在Discover中進行數(shù)據(jù)挖掘和機器學習。加載到Hyperbase中的數(shù)據(jù)可以通過Inceptor進行后模糊或精確匹配的高并發(fā)檢索處理端處理端Oozie調度Ehgticseareh數(shù)據(jù)庫數(shù)福CD/OGGTDAHoledek實對數(shù)據(jù)結構化文件中間件存儲編數(shù)據(jù)源5qooptex業(yè)務系統(tǒng)定義數(shù)據(jù)格式，數(shù)據(jù)源(數(shù)據(jù)庫或者結構結構化文件),數(shù)據(jù)存儲等),數(shù)據(jù)調度方式，數(shù)據(jù)同步方式等，TDH上根據(jù)定義的數(shù)據(jù)加載方式為該任務自動配置數(shù)據(jù)處理的數(shù)據(jù)源、中Kafka等)、存儲以及處理方式等，啟動相應的Oozie工作流任務或者中間件的調度任務，并對數(shù)據(jù)的加載、傳輸以及處理入庫全流程進行監(jiān)控和記錄。TDH上支持各類結構化數(shù)據(jù)的加載，支持靈活通用的數(shù)據(jù)格式描述，包括數(shù)據(jù)包含的字段、各字段的分隔符、字段類型等。支持傳輸?shù)膸Х指舴脑M序列，每個元組的字段結構相同，由指定的分隔符分隔。支持的字段類型包括：整數(shù)(最長8字節(jié))、浮點數(shù)、字符串、日期、時間等。在Inceptor中定義相關的表結構，Inceptor中支持整形、浮點數(shù)、字符串以及日期和時間等常用的簡單字1)在負載均衡方面，當一類數(shù)據(jù)加載量較大時支持由多個加載客戶端并行加載。Sqoop,Flume,Kafka等工具均是分布式架構數(shù)據(jù)采集工具，支持多任務并行執(zhí)行。Sqoop通過生成并提交MapReduce程序來切分taskAgent或者多組Source-Channel-Sink組件來實現(xiàn)多個客戶端并行加載數(shù)據(jù)；Kafka通過定義并行收集數(shù)據(jù)的KafkaProducer或者多個KafkaProducer來對數(shù)據(jù)進行并行加載。2)支持將數(shù)據(jù)加載到數(shù)據(jù)庫、Hyperbase、總線消息隊列、流處理系統(tǒng)以及3)Flume支持多個Agent數(shù)據(jù)傳輸節(jié)點之間以多對一的方式進行數(shù)據(jù)匯聚，如采集不同服務節(jié)點上的同一類日志數(shù)據(jù)匯聚到同一份文件中，支持一對多的方式數(shù)據(jù)分發(fā)，如將同一份數(shù)據(jù)通過KafkaSink傳輸?shù)絢afka上導入到Stream中做流式計算，通過HdfsSink傳輸?shù)紿DFS上做數(shù)據(jù)存儲，還可以通過ElasticsearchSi4)分布式數(shù)據(jù)采集框架Flume集成多種數(shù)據(jù)源以及數(shù)據(jù)傳輸?shù)牟寮?，并通過程序接口可以快速實現(xiàn)相關采集傳輸數(shù)據(jù)以及數(shù)據(jù)計數(shù)、數(shù)據(jù)篩選、數(shù)據(jù)預處理以及數(shù)據(jù)流監(jiān)控等功能。Flume里面的支持自定義插件interceptor對數(shù)據(jù)進行過濾篩選等，并且在Flume里面，還可以通過KafkaSink將數(shù)據(jù)流接入Kafka導入到Stream中通過StreamSQL進行數(shù)據(jù)處理，在這里Flume作為Kafka的一種數(shù)據(jù)源。5)TDH上數(shù)據(jù)傳輸工具支持加載數(shù)據(jù)緩存功能。當目標接收端出現(xiàn)問題時，網(wǎng)絡中斷或出現(xiàn)阻塞時，支持將加載數(shù)據(jù)緩存在本地磁盤中，當目標端份備份，均對加載的數(shù)據(jù)有相應的可靠性機制保證數(shù)據(jù)的安全。6)分布式文件系統(tǒng)HDFS與分布式消息隊列Kafka均支持斷點續(xù)傳功能的取，可以通過對于數(shù)據(jù)offset的記錄實現(xiàn)數(shù)據(jù)上傳下載中斷點續(xù)傳的功能。Kafka中的數(shù)據(jù)緩存在磁盤上，在消費隊列中記錄有消息被消費的偏移量offset,因此可以緩存?zhèn)鬏斨械臄帱c位置來保證數(shù)據(jù)進行斷點續(xù)7)TDH上通過Oozie工作流引擎定制定期作業(yè)，通過Sqoop定時將數(shù)據(jù)庫中數(shù)據(jù)導入到TDH上；離線文件可以通過分布式數(shù)據(jù)采集組件Flume監(jiān)控相應的文件目錄，定時將數(shù)據(jù)文件傳輸?shù)紿DFS上或者相應的存儲在萬兆網(wǎng)絡的環(huán)境下，單臺客戶端支持的數(shù)據(jù)加載速度在300MB/s及以上 (現(xiàn)場測試結果),可以隨集群規(guī)模線性擴展直至到達網(wǎng)絡傳輸最大帶寬。加載集群對于文本數(shù)據(jù)的加載總帶寬在100Gb/s及以上。單臺加載機最大的數(shù)據(jù)緩存量可以達到TB級。最大可以達到機器存儲能力的上限。緩存能力與機器存儲能結構化日志中的某些字段等。在TDH上采用Logstash組件對半結構化數(shù)據(jù)進行加載以及處理，支持自定義輸入數(shù)據(jù)的結構以及輸出數(shù)據(jù)的結構；支持通過Flume自定義數(shù)據(jù)接口以及數(shù)據(jù)的簡單處理，并將處理后的數(shù)據(jù)加載到指定的存儲端；加載到HDFS上的半結構化數(shù)據(jù)可以通過InceptortSQL對其進行結構化加工和處理，Inceptor支持對Json.、XML/HTML、CSV等半結構化數(shù)據(jù)文件進行直接處理或者查詢分析。在負載均衡方面，當一類數(shù)據(jù)加載量較大時支持由多個加載客戶端并行加載。Sqoop,Flume,Kafka等工具均是分布式架構數(shù)據(jù)采集工具，支持多任務并行執(zhí)行。Sqoop通過生成并提交MapReduce程序來切分task實現(xiàn)并行執(zhí)行抽取數(shù)據(jù)任務；Flume通過分布式架構可以通過定義多個Agent或者多組Source-Channel-Sink組件來實現(xiàn)多個客戶端并行加載數(shù)據(jù)；Kafka通過定義并行收集數(shù)據(jù)的KafkaProducer或者多個KafkaProducer來對數(shù)據(jù)進行并行加載。同時支持多臺加載程序以多對一、一對多的方式連接，完成數(shù)據(jù)的分發(fā)或匯聚。非結構化數(shù)據(jù)加載業(yè)務系統(tǒng)產(chǎn)生的各種類型的文檔、圖片、非結構化文本需要在TDH上進行存儲、檢索等處理方式，在TDH上通過定制Flume組件、API接口可以將非結件(一般小于等于10M)在HDFS上存儲的方式進行優(yōu)化，將數(shù)據(jù)文件封裝為ObjectStore對象進行存儲，支持高效率讀寫ObjectStore對象。因此TDH上支持針對0KB到數(shù)TB的文件的加載、存儲和處理或者檢索的完整解決方案。ElasttesearchOozie調度音領/視顏非結構化文件HolodeskFtpOverHDFSAPI/RESTAPIIDBC/ODBCText業(yè)務系統(tǒng)定義數(shù)據(jù)格式，數(shù)據(jù)源(非結構化的文檔、圖片、音視頻多媒體文件等),數(shù)據(jù)存儲端(HDFS、Search、Hyperbase等),數(shù)據(jù)調度方式，數(shù)據(jù)同步方式等，TDH上根據(jù)定義的數(shù)據(jù)加載方式為該任務自動配置數(shù)據(jù)處理的數(shù)據(jù)源、中間件(API/RESTAPI、FTPOverHDFS、JDBC/ODBC、Flume等)、存儲以及處理方式等，啟動相應的Oozie工作流任務或者中間件的調度任務，并對數(shù)據(jù)的加載、傳輸以及處理入庫全流程進行監(jiān)控和記錄。TDH上支持將各類非結構化文本數(shù)據(jù)、圖片、音頻、視頻的加載，以文件的形式存儲。在TDH中支持將非結構化數(shù)據(jù)封裝成ObjectStore對象進行存儲。在負載均衡方面，當一類數(shù)據(jù)加載量較大時支持由多個加載客戶端并行加載。Sqoop,Flume,Kafka等工具均是分布式架構數(shù)據(jù)采集工具，支持多任務并行執(zhí)行。Sqoop通過生成并提交MapReduce程序來切分task實現(xiàn)并行執(zhí)行Source-Channel-Sink組件來實現(xiàn)多個客戶端并行加載數(shù)據(jù)；Kafka通過定義并行收集數(shù)據(jù)的KafkaProducer或者多個KafkaProducer來對數(shù)據(jù)進行并行加載。數(shù)據(jù)存入HDFS文件系統(tǒng)進行存儲、分析和挖掘，或者存入到Hyperbase數(shù)據(jù)庫進行快速檢索。TDH上數(shù)據(jù)加載和傳輸支持斷點續(xù)傳功能。當目標接收端出現(xiàn)問題恢復時能夠在上次傳輸?shù)臄帱c繼續(xù)傳輸。Kafka中的數(shù)據(jù)緩存在磁盤上，在隊列中記錄有消息被消費的偏移量offset,因此可以緩存?zhèn)鬏斨械臄帱c位置來保證在萬兆網(wǎng)絡的環(huán)境下，單臺客戶端支持的數(shù)據(jù)加載速度在300MB/s及以上(現(xiàn)場測試結果),可以隨集群規(guī)模線性擴展直至到達網(wǎng)絡傳輸最大帶寬。通過對象存儲與分布式文件系統(tǒng)存儲能力，支持1KB到PB級數(shù)據(jù)存儲。.4.流式數(shù)據(jù)加載流數(shù)據(jù)采集可通過高吞吐、高可靠的分布式消息隊列緩存Kafka及flume來實現(xiàn)。Kafka可以用作數(shù)據(jù)緩沖隊列，作為流處理的數(shù)據(jù)源。TranswarpStream作為Kafka的消費者，使用StreamSQL對數(shù)據(jù)進行處理。在萬兆網(wǎng)絡，使用雙副本的條件下，對于高效模式單臺數(shù)據(jù)總線服務器支持的業(yè)務數(shù)據(jù)加載速度在300MB/s及以上，吞吐能力可以隨集群規(guī)模線性擴展。對于可靠模式支持的業(yè)務數(shù)據(jù)單節(jié)點加載速度25M/s及以上，可以線性擴展至網(wǎng)絡傳輸?shù)臉O限。高效模式下數(shù)據(jù)丟失率在萬分之一以內?？煽磕Ｊ较录虞d數(shù)據(jù)要求與輸入數(shù)據(jù)一致。單集群支持的數(shù)據(jù)總線服務器總數(shù)隨集群規(guī)模擴展而增加，支持100節(jié)點以上的集群規(guī)模。數(shù)據(jù)從發(fā)布到訂閱時延在1秒以內。APPAPPAPPAPPAPPAPPAPPWebServiceRDBStoragConsumerAnalysisOtherStorageAppAppKafka數(shù)據(jù)總線支持數(shù)據(jù)訂閱和發(fā)布功能，可以通過定義消息總線發(fā)布端、訂閱端、消息隊列、數(shù)據(jù)格式等相關配置來發(fā)布數(shù)據(jù)總線并自動維護總線消息隊列，自動對總線消息進行全流程監(jiān)控。數(shù)據(jù)由數(shù)據(jù)客戶端加載數(shù)據(jù)庫中數(shù)據(jù)、由WebService業(yè)務系統(tǒng)的訪問請求或者外部檢索工具發(fā)出的請求消息，Kafka中支持緩存和傳輸結構化半結構以及非結構的文本各類數(shù)據(jù)以及消息。數(shù)據(jù)源包括，數(shù)據(jù)加載客戶端，流處理引擎，數(shù)據(jù)表存儲，數(shù)據(jù)抽取工具或者其他自定義的KafkaProducer。訂閱客戶端包括：流處理引擎，數(shù)據(jù)表存儲，K-V存儲或者自定義的KafkaConsumer。Kafka中可以在Topic上進行業(yè)務標記或者在傳輸?shù)南⒅袑I(yè)務類型等信息進行標記。Kafka支持跨集群同步，通過MirrorMaker實現(xiàn)兩個數(shù)據(jù)總線集群間的數(shù)據(jù)鏡像。Kafka中支持建立多份Topic數(shù)據(jù)副本可靠數(shù)據(jù)傳輸機制。在可靠數(shù)據(jù)傳輸模式下可以保證從生產(chǎn)者到消費者之間數(shù)據(jù)不會丟失。在高效傳輸模式下允許通過文件數(shù)據(jù)隊列的相應機制支持數(shù)據(jù)斷點續(xù)傳。Kafka支持在線服務平滑擴展，并且吞吐能力與集群規(guī)模線性正相關，Kafka總線消息隊列集群支持數(shù)百節(jié)點的用戶經(jīng)過相應的授權后才可以訪問相關數(shù)據(jù)主題。批量模式用于在平臺建設完成初期進行歷史數(shù)據(jù)的遷移，將大量的基礎數(shù)據(jù)和歷史數(shù)據(jù)導入平臺集群?？赏ㄟ^sqoop等ETL工具將數(shù)據(jù)導入到HDFS或Hyperbase中；同樣可通過bulkload工具將批量數(shù)據(jù)導入到Hyperbase中；也可以直接將數(shù)據(jù)直接傳入HDFS,其后可以通過建立外表的方式對數(shù)據(jù)進行分析。增量模式用于上線后將指定周期時間間隔(如每天，每小時或每10分鐘)內的數(shù)據(jù)導入平臺，可通過sqoop的增量導入等模式進行。對于與Oracle關系型的日志，采用TDT進行導入，不增加生產(chǎn)庫任何負擔，將新增的記錄實時同步某些場景下，普通的T+1模式已經(jīng)無法滿足業(yè)務系統(tǒng)的需求，需要進行準實時同步，準實時同步是指將數(shù)據(jù)從傳統(tǒng)的關系型數(shù)據(jù)庫實時同步到大數(shù)據(jù)平臺上，這樣客戶可以實時或者準實時地在大數(shù)據(jù)平臺上進行數(shù)據(jù)分析。借助OralceGoldenGate(OGG)、IBMDatastageDataReplication(CDC)等軟件的支持，這些軟件實時地讀取關系數(shù)據(jù)庫的日志記錄，將這些日志記錄寫成文件記錄到本地(部分新版本可直接把文件傳送到HDFS上)。TranswarpDataTransporter是星環(huán)提供的一款數(shù)據(jù)整合工具，能夠在秒級將數(shù)據(jù)從RDBMS同步到TDH,同時支持多種格式的文件數(shù)據(jù)，以及去重、聚合、關聯(lián)等在內豐富的數(shù)據(jù)轉換操作。根據(jù)具體配置策略，定時去檢查對應HDFS目錄或者由某些調度程序實時監(jiān)控HDFS并調起TDT,TDT然后將這些日志文件按照一定的處理邏輯，將日志文件識別(如B、A、U、I、D等)并進行轉譯Transporter主要具有以下幾個特性，首先它支持多種數(shù)據(jù)源，比如傳統(tǒng)的關系型數(shù)據(jù)庫、系統(tǒng)產(chǎn)生的日志文件、Teradata和開源Hadoop等等，其次它具有可視化的任務編輯和監(jiān)控功能，并且支持用戶自定義數(shù)據(jù)的轉換邏輯，具有較好導入過程中數(shù)據(jù)的一致性。Transporter還具有數(shù)據(jù)過濾和清洗功能，能夠與DataStage等數(shù)據(jù)同步工具對接，準實時地導入增量數(shù)據(jù)。業(yè)務平臺實時產(chǎn)生的結構化日志或者消息通過Flume分布式日志實時采集工具加載到TDH平臺上HDFS、Search、Hyperbase或者Kafka數(shù)據(jù)隊列中。FlumeFlume支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方，用于收集數(shù)據(jù)；同時，F(xiàn)lume提供對數(shù)據(jù)進行簡單處理，并寫到各種數(shù)據(jù)接受方(可定制)的能力。星環(huán)大數(shù)據(jù)平臺TDH支持通過Flume自定義數(shù)據(jù)接口以及數(shù)據(jù)的簡單處理，并將處理后的數(shù)據(jù)加載到指定的存儲端。流數(shù)據(jù)采集可通過高吞吐、高可靠的分布式消息隊列緩存Kafka及flume來作為Kafka的消費者，使用StreamSQL對數(shù)據(jù)進行處理。在萬兆網(wǎng)絡，使用雙副本的條件下，對于高效模式單臺數(shù)據(jù)總線服務器支持的業(yè)務數(shù)據(jù)加載速度在300MB/s及以上，吞吐能力可以隨集群規(guī)模線性擴展。對于可靠模式支持的業(yè)務數(shù)據(jù)單節(jié)點加載速度25M/s及以上，可以線性擴展至網(wǎng)絡傳輸?shù)臉O限。高效模式下數(shù)據(jù)丟失率在萬分之一以內。可靠模式下加載數(shù)據(jù)要求與輸入數(shù)據(jù)一致。單集群支持的數(shù)據(jù)總線服務器總數(shù)隨集群規(guī)模擴展而增加，支持100節(jié)點以上的集群規(guī)模。數(shù)據(jù)從發(fā)布到訂閱時延在1秒以內。APPAPPAPPAPPAPPAPPWebServiceRDBStorageSearchConsumerAnalysisOtherStorageAppAppKafkaKafka數(shù)據(jù)總線支持數(shù)據(jù)訂閱和發(fā)布功能，可以通過定義消息總線發(fā)布端、訂閱端、消息隊列、數(shù)據(jù)格式等相關配置來發(fā)布數(shù)據(jù)總線并自動維護總線消息隊列，自動對總線消息進行全流程監(jiān)控。數(shù)據(jù)由數(shù)據(jù)客戶端加載數(shù)據(jù)庫中數(shù)據(jù)、由WebService業(yè)務系統(tǒng)的訪問請求或者外部檢索工具發(fā)出的請求消息，Kafka中支持緩存和傳輸結構化半結構以及非結構的文本各類數(shù)據(jù)以及消息。數(shù)據(jù)源包括，數(shù)據(jù)加載客戶端，流處理引擎，數(shù)據(jù)表存儲，數(shù)據(jù)抽取工具或者其他自定義的KafkaProducer。訂閱客戶端包括：流處理引擎，數(shù)據(jù)表存儲，K-V存儲或者自定義的KafkaConsumer。Kafka中可以在Topic上進行業(yè)務標記或者在傳輸?shù)南⒅袑I(yè)務類型等信息進行標記。Kafka支持跨集群同步，通過MirrorMaker實現(xiàn)兩個數(shù)據(jù)總線集群間的數(shù)據(jù)鏡像。Kafka中支持建立多份Topic數(shù)據(jù)副本可靠數(shù)據(jù)傳輸機制。在可靠數(shù)據(jù)傳輸模式下可以保證從生產(chǎn)者到消費者之間數(shù)據(jù)不會丟失。在高效傳輸模式下允許通過文件數(shù)據(jù)隊列的相應機制支持數(shù)據(jù)斷點續(xù)傳。Kafka支持在線服務平滑擴展，并且吞吐能力與集群規(guī)模線性正相關，Kafka總線消息隊列集群支持數(shù)百節(jié)點的用戶經(jīng)過相應的授權后才可以訪問相關數(shù)據(jù)主題。TDH支持使用DBlink方式進行實時連接將關系型數(shù)據(jù)庫中的數(shù)據(jù)抽取到離加速抽取和計算的效率。對于原來存儲在關系型數(shù)據(jù)庫中的維度表/碼表，可以使用dblink的方式進行實時連接計算)。Stargate支持dblink的功能，可以在計算時將關系型數(shù)據(jù)庫中的數(shù)據(jù)抽取到大數(shù)據(jù)平臺上進行計算，同時支持過濾條件MongoDB的數(shù)據(jù)可以通過MongoDB適配器采集到大數(shù)據(jù)平臺的HDFS上，然平臺提供海量數(shù)據(jù)的統(tǒng)一存儲管理，提供統(tǒng)一的計算引擎和各種數(shù)據(jù)存儲引擎的連接能力，通過統(tǒng)一的計算引擎對接多種不同數(shù)據(jù)存儲引擎進行計算。統(tǒng)一數(shù)據(jù)存儲管理支持多種分布式存儲系統(tǒng)/引擎，包括分布式文件系統(tǒng)、基于內存或固態(tài)硬盤的分布式列式存儲、分布式搜索引擎、分布式NoSQL數(shù)據(jù)庫。星環(huán)大數(shù)據(jù)平臺基于分布式技術存儲技術，可以支持存儲海量(TB到PB級別)的數(shù)據(jù)，同時根據(jù)數(shù)據(jù)使用場景的不同，提供了多種存儲類型，針對對應場景進行優(yōu)化。對于海量數(shù)據(jù)的檢索、分析都提供了強大性能支撐。Hyperbase能夠實現(xiàn)精確查詢結果的秒級返回；通過ElasticSearch全文索引能實現(xiàn)全文搜索引擎。Holodesk對于統(tǒng)計分析、聯(lián)合查詢上可提供比開源Spark計性能。概要的管理框架包含如下方面：接口文件接口文件報表+報告數(shù)據(jù)重構批量接口針對半/非結構化數(shù)據(jù)的處理需要根據(jù)實際的情況統(tǒng)一管理，按照如下原則i.文檔分類a)互聯(lián)網(wǎng)獲取的數(shù)據(jù)，日志文件b)文檔、掃描件、郵件等c)圖片、音頻、視頻ii.處理原則a)10M以下，屬性信息及文檔本身放到Hyperbase中b)10M以上文檔，屬性信息存入Hyperbase中，文檔用HDFS保存a)ES索引+Hyperbase索引b)ES檢索d)NLP客制化概要的管理框架包含如下方面：R大數(shù)據(jù)平臺(小、屬性)精準Search較小(<10M)較大(>=10M)API+NLPTrinity結構化數(shù)據(jù)應用場景結構化數(shù)據(jù)典型應用場景主要分為：統(tǒng)計分析、檢索查詢與實時處理。1)統(tǒng)計分析類如果表需要做交互式分析，那么存儲介質選擇為Holodesk。Holodesk是基儲，輔以基于內存的執(zhí)行引擎，可以完全避免IO帶來的延時，極大的提高數(shù)據(jù)掃描速度。同時，Holodesk支持建立cube和索引，從而進一步提高統(tǒng)計分析速不需要做交互式分析的表中，如果表需要做CRUD操作，那么存儲為事務ORC表，否則存儲為普通ORC表。ORC文件，全名是OptimizedRowColumnar(ORC)file,是對RCFile的優(yōu)化。這種文件格式可以提供一種高效的方法來存儲inceptor數(shù)據(jù)。它的設計目標是來克服Hive其他格式的缺陷。運用ORCFile可以提高inceptor的讀、寫以及處理數(shù)據(jù)的性能。2)檢索查詢類檢索查詢類的表，如果有固定的查詢條件，可以將表存儲在Hyperbase中，并且建立全局索引索引來實現(xiàn)毫秒級返回查詢結果。如果表中任意數(shù)據(jù)查詢列數(shù)占比小，并且有些字段組合需要固定查詢，那么表存儲在Hyperbase中并且建立ES(全文)索引；否則，數(shù)據(jù)存儲在ES中，ES基于開源的Elasticsearch并對其進行了優(yōu)化。ES是一個可擴展的分布式全文搜索和分析引擎。ES作為據(jù)的存儲和搜索、日志分析等。3)實時處理類實時處理類的數(shù)據(jù)，采用StreamSQL技術進行處理，使用SQL的方式實現(xiàn)星環(huán)大數(shù)據(jù)平臺采用基于HDFS2.x的大數(shù)據(jù)存儲和在線服務系統(tǒng)，同時支持HDFS文件加密。Hadoop分布式文件系統(tǒng)(HDFS)是運行在通用硬件上的分布式文件系統(tǒng)。HDFS提供了一個高度容錯性和高吞吐量的海量數(shù)據(jù)存儲解決方案。HDFS已經(jīng)在各種大型在線服務和大型存儲系統(tǒng)中得到廣泛應用，已經(jīng)成為海量數(shù)據(jù)存儲的事實標準。Metadataops(createfile,getblocklocati/foo/bar,block1->node1,node3,node6名√包5HDFS通過一個高效的分布式算法，將數(shù)據(jù)的訪問和存儲分布在大量服務器之中，在可靠地多備份存儲的同時還能將訪問分布在集群中的各個服務器之上，Metadata(namespace,replicas,…)pata2據(jù)讀寫請求；客戶端與NameNode交互進行文件創(chuàng)建/刪除/尋址等操作，之后直接與DataNodes交互進行文件I/O。采用NamenodeHA方案保證HDFS的高可靠性，始終有一個Namenode做熱備，防止單點故障問題。采用QJM的方式實現(xiàn)HA,文件系統(tǒng)元數(shù)據(jù)存儲在高可靠的由JournalNode組成的集群上。同時當數(shù)據(jù)量太大導致單個NamenodeHDFS通過副本機制保證數(shù)據(jù)的存儲安全與高可靠，默認如上圖所示配置為將會計算使用網(wǎng)絡最近的和訪問量最小的服務器給用戶提供訪問。由于數(shù)據(jù)塊的每個復制拷貝都能提供給用戶訪問，而不是僅從數(shù)據(jù)源讀取，HDFS對于單數(shù)據(jù)塊的訪問性能將是傳統(tǒng)存儲方案的數(shù)倍。HDFS支持文件的創(chuàng)建、刪除、讀取與追加，對于一個較大的文件，HDFS將文件的不同部分存放于不同服務器之上。在訪問大型文件時，系統(tǒng)可以并行從服務器陣列中的多個服務器并行讀入，增加了大文件讀入的訪問帶寬。通過以上實現(xiàn)，HDFS通過分布式計算的算法，將數(shù)據(jù)訪問均攤到服務器陣列中的每個服務器的多個數(shù)據(jù)拷貝之上，單個硬盤或服務器的吞吐量限制都可以數(shù)倍甚至數(shù)百倍的突破，提供了極高的數(shù)據(jù)吞吐量。HDFS將文件的數(shù)據(jù)塊分配信息存放在NameNode服務器之上，文件數(shù)據(jù)塊的信息分布地存放在DataNode服務器上。當整個系統(tǒng)容量需要擴充時，只需要增加DataNode的數(shù)量，系統(tǒng)會自動地實時將新的服務器匹配進整體陣列之中。之后，文件的分布算法會將數(shù)據(jù)塊搬遷到新的DataNode之中，不需任何系統(tǒng)當機維護或人工干預。通過以上實現(xiàn)，HDFS可以做到在不停止服務的情況下實時地加入新的服務器作為分布式文件系統(tǒng)的容量升級，不需要人工干預文件的重新HDFS文件系統(tǒng)假設系統(tǒng)故障(服務器、網(wǎng)絡、存儲故障等)是常態(tài)，而不是異常。因此通過多方面保證數(shù)據(jù)的可靠性。數(shù)據(jù)在寫入時被復制多份，并且可以通過用戶自定義的復制策略分布到物理位置不同的服務器上；數(shù)據(jù)在讀寫時將TranswarpHyperbase實時數(shù)據(jù)庫是建立在ApacheHBase基礎之上，用于鍵值數(shù)據(jù)的存儲和處理，融合了多種索引技術、分布式事務處理、全文實時搜索、圖形數(shù)據(jù)庫在內的實時分布式數(shù)據(jù)庫。結合Inceptor高速SQL引擎，支持讓用戶使用SQL方式進行交互式數(shù)據(jù)檢索和分析，高效地實現(xiàn)在線OLTP應用、高Real-timeOLTP+OLAP+BATCH+Search+GraphTraversalApplicationMixedWorkload混合負載業(yè)務TransactionDocumentExecutionEngine分布式事務處理舉clobal/Local全局/局部索引Decument文檔存儲Database圖數(shù)據(jù)庫DistributedFull-text全文搜去分布式BigTable分布式全文素引Hyperbase同時也是一個高可靠性、高性能、面向列、可伸縮、支持版本控制、稀疏的、多維度的和排序的分布式K-V數(shù)據(jù)庫。Hyperbase表一個最大的特點是每一行數(shù)據(jù)都對應有一個全局唯一的key值，數(shù)據(jù)在底層存儲時會將這一行的N個列拆開，每一列的值都和這個全局唯一key形成N個K-V對再按行存儲。用TranswarpHyperbase的內部數(shù)據(jù)結構以及全局/輔助索引進行SQL執(zhí)行加速，可以滿足高速的檢索查詢應用需求；同時也支持高速的SQL離線批處理。支持在在一個事務中執(zhí)行多個增加、更新以及刪除操作，在正式提交前事務不生效，單表支持海量數(shù)據(jù)的存儲HyperBase單表可以有千億、萬億行，可以有百萬列，數(shù)據(jù)矩陣橫向和縱向兩個維度所支持的數(shù)量級非常具有彈性。傳統(tǒng)數(shù)據(jù)庫如Mysql、Oracle等，如果數(shù)據(jù)在億級別，查詢和寫入性能將成指數(shù)級別下降，而Hyperbase對千億級、萬億級數(shù)量不成問題。Hyperbase表有行健、列族、列、時間戳組成，所以也叫多維表。Hyperbase行健和列是按照字典全局排序的方式存儲在文件中，Hyperbase將數(shù)據(jù)以Region的形式分布式存儲在不同節(jié)點之上，隨著數(shù)據(jù)量增大，管理節(jié)點自動將較大Region一分為二，因此Hyperbase兼顧了海量數(shù)據(jù)存儲與毫秒級的高并發(fā)檢索。支持動態(tài)增加字段和傳統(tǒng)的數(shù)據(jù)庫不同，Hyperbase表包含至少一個以上列族(ColumnFamily),每個列族可以有若干個列(Column),在創(chuàng)建Hyperbase表時不需要指定某個列族下有多少列，這是可以在數(shù)據(jù)插入時動態(tài)指定，也就是說向Hyperbase同一張表插入數(shù)據(jù)，每次可以是不同的列，而不用關心這些列在表中是不是存在。多數(shù)據(jù)類型支持TranswarpHyperbase支持結構化、半結構化和非結構化數(shù)據(jù)的存儲，比ApacheHBase支持的數(shù)據(jù)類型更廣。索引支持在TranswarpHyperbase中通過使用索引來加快數(shù)據(jù)的查詢速度。索引包括：本地索引、全局索引、全文索引、組合索引等。索引的基本設計思想是對TranswarpHyperbase表的非key字段建立一個映射到唯一鍵(rowkey)的索引。查詢時可以利用索引特性進行快速定位并返回查詢結果，通過索引查詢可以提供毫秒級查詢響應。Holodesk星環(huán)自主研發(fā)用于應對海量數(shù)據(jù)OLAP高性能分析查詢難題的一款產(chǎn)品，它是跨內存/閃存/磁盤等介質的分布式混合列式存儲，常用于緩存數(shù)據(jù)Spark更高的交互式統(tǒng)計性能，可以達到秒級靈活分析數(shù)億條記錄的性能；結合使用低成本的內存/閃存混合存儲方案，可接近全內存存儲的分析性能。ColumnarStoreAPColumnarStoreAPColumnarStoreAPIColumnarStoreAPlHolodesk-在SSD緩存上的列式存儲FleSystemAPIMemoryTierssDTier它著力于交互式分析中即時查詢效率的提高且能夠保證擴展性與穩(wěn)定性。TranswarpHolodesk通過Zookeeper來管理元數(shù)據(jù)，從而避免因為單點故障而能夠通過Zookeeper中的信息自動重建數(shù)據(jù)與索引，因此有很高的可靠性。ElasticSearch是一個基于Lucene的分布式搜索引擎。它實現(xiàn)分布式實時文件存儲，并將每一個字段都編入索引，使其可以被搜索。它提供實時分析的分布式全文搜索，可以擴展到上百臺服務器，處理PB級別的結構化或非結構化數(shù)據(jù)。ElasticSearch的存儲結構主要有：>索引(Index)是ElasticSearch對邏輯數(shù)據(jù)的邏輯存儲，相當于關系型數(shù)據(jù)庫的表。>存儲在ElasticSearch中的主要實體叫文檔(document)。一個文檔相當于數(shù)據(jù)庫表中的一行記錄。>文檔(Document)中的信息存儲在字段(Field)上。>有大量的文檔時，由于內存的限制、硬盤能力、處理能力不足、無法足夠快地響應客戶端請求等，一個節(jié)點可能不夠。在這種情況下，數(shù)據(jù)可以分為較小的稱為分片(shard)的部分(其中每個分片都是一個獨立的ApacheElasticSearch可以把索引存放在一臺機器或者分散在多臺服務器上，每個索非結構數(shù)據(jù)如檔案系統(tǒng)、ECM和互聯(lián)網(wǎng)中的圖片、視頻、大文件在過往的系統(tǒng)中，往往是存放在FTP服務器上。這樣的架構存在兩方面的缺點，其一是FTP服務器的帶寬會對于非結構化數(shù)據(jù)的高并發(fā)讀寫造成瓶頸。其二是我們利用了FTP的存儲資源，然而沒有利用其計算的資源，造成了服務器資源的浪費。在大數(shù)據(jù)平臺上，可以將非結構化數(shù)據(jù)存儲于HDFS或是Hyperbase上，既利用了服務器節(jié)點的存儲資源又可以利用其計算資源。分布式文件系統(tǒng)存

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)中臺建設方案

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)中臺建設方案

文檔簡介

溫馨提示

最新文檔

評論

相關文檔