云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用研究_第1頁
云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用研究_第2頁
云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用研究_第3頁
云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用研究_第4頁
云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用研究_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1 / 11 云計算在 電信 數(shù)據(jù)分析與商業(yè)智能分析中的應用 研究 龔德志,段勇 (中國電信股份有限公司上海研究院 上海 200122) 摘要: 本文通過對電信 數(shù)據(jù)分析與商業(yè)智能分析系統(tǒng) 的 應用 現(xiàn)狀進行 分析 ,結合云計算技 術的優(yōu)勢及特點 ,對云計算技術在數(shù)據(jù)分析與商業(yè)智能分析中的 應用 架構進行研究 和分析 ,并對其應用模式、技術難點及應用前景進行探討 關鍵詞: 云計算;電信;數(shù)據(jù)分析;商業(yè)智能 1. 引言 云計算是近年來新興的信息技術之一,它將能更好地使用計算資源, 更智能地進行大規(guī)模數(shù)據(jù)處理 ?;诟咝У奶摂M計算資源,應用程序能以一種靈活且安全的方式 實現(xiàn)快速擴展和縮減,從而交付高品質服務。 云計算使得 IT 管理更加輕松,保證快捷響應業(yè)務需求。 業(yè)務或客戶服務以極為簡化的方式交付,這將大大推進創(chuàng)新和高效決策。 云計算是一種新型 業(yè)務交付模式 ,同時也是新型 IT 基礎設施管理方法 。通過新型的業(yè)務交付模式,用戶將通過網(wǎng)絡充分利用優(yōu)化的硬件、軟件和網(wǎng)絡資源,并以此為基礎提供創(chuàng)新的業(yè)務服務。新型 IT 基礎設施管理方法讓 IT 部門可以把海量資源作為一個統(tǒng)一的大資源進行管理,支持 IT 部門在大量增加資源的同時無需顯著增加相應的人員進行維護和管理。 云計算通過簡單的方式給業(yè)務服務和終端 消費者服務快速提供計算資源,提供無限擴展和有保障的高品質服務,因此 用戶可以更加專注于服務本身的創(chuàng)新和決策 。云計算是一種成本高效的模式,用于提供流程、應用和服務,并讓 IT 管理更加簡單,更快的響應業(yè)務需要。這些服務,如計算服務,存儲服務,網(wǎng)絡服務等,都通過一種簡化的方式按需提供,無論用戶及用戶使用的設備是屬于哪種類型。 2. 云計算 相關技術 1) 虛擬化 虛擬化 可以大幅度提高組織中資源和應用程序的效率和可用性 。虛擬化把物理資源和最終呈現(xiàn)給用戶的資源進行了分離,實際是一個替代過程,在具有統(tǒng)一良好架構設計的物理資源上創(chuàng)建出多個 替代資源(也就是虛擬資源),替代資源和物理資源具有相同的接口和功能,對于用戶來說虛擬資源具備與物理資源相同的使用功能,同時還可以有著不同的屬性,如價格,容量,可調整性等。下圖是虛擬化的示意圖。 2 / 11 虛擬化 一個替代過程 從實際資源上創(chuàng)建虛擬資源 一般用軟件或固件完成實際資源 經(jīng)過統(tǒng)一良好的接口和功能設計 往往指物理資源,可以是集中或者分布的 如:內(nèi)存,硬盤,網(wǎng)絡,服務器等虛擬資源 實際資源的替代 和實際資源具有相同的接口和功能 更少的物理局限 一般是一個實際資源的一部分,但也可以跨多個實際資源 圖 1 虛擬化 2) 自動化部署 云計算的一個核心思想是通過自動化的方式盡可能地簡化任務,使得用戶可以通過自助服務方式快捷地獲取所需的資源和能力。部署是基礎設施管理中十分重要,也是需要花費很大工作量的一部分,包括操作系統(tǒng)、中間件和應用等不同層次的部署。自動化部署提供簡化流程,用戶提出申請后由自動化部署平臺根據(jù)調度和預 約自動完成相應的部署,因此用戶只需花十幾分鐘,甚至幾分鐘就可以得到一個完整的環(huán)境,極大地提高了工作效率。 3) 應用規(guī)模擴展 云計算提供了一個巨大的資源池,而應用的使用又有不同的負載周期,根據(jù)負載對應用的資源進行動態(tài)伸縮將可以顯著提高資源的有效利用率,即高負載時動態(tài)擴展資源,低負載時釋放多余的資源,這就是應用規(guī)模擴展技術所解決的問題。該技術以應用為基本單位,為不同的應用架構設定不同的集群類型,每一種集群類型都有特定的擴展方式,然后通過監(jiān)控負載的動態(tài)變化,自動為應用集群增加或者減少資源。 4) 分布式文件系統(tǒng) 分布式存儲 的目標是利用云環(huán)境中多臺服務器的存儲資源來滿足單臺服務器所不能滿足的存儲需求。其特征是,存儲資源能夠被抽象表示和統(tǒng)一管理,并且能夠保證數(shù)據(jù)讀寫與操作的安全性、可靠性、性能等各方面要求。 云計算催生了一些優(yōu)秀的分布式文件系統(tǒng)和云存儲服務。最典型的云平臺分布式文件系統(tǒng)是 Google 的 GFS(Google File System)和開源的 Hadoop。這兩種可伸縮的分布式文件系統(tǒng)利用容錯和故障恢復機制,有效的克服單節(jié)點故障導致的系統(tǒng)故障;實現(xiàn)了大規(guī)模海量級的文件存儲。 以 Hadoop 文件系統(tǒng) 為例, Hadoop 文件 系統(tǒng)( HDFS)是一個運行在普通的硬件之上的分布式文件系統(tǒng),它和現(xiàn)有的分布式文件系統(tǒng)有著很多的相似性,然而和其他的分布式文件系統(tǒng) 的區(qū)別也是很明顯的 : HDFS 是高容錯性的,可以部署在低成本的硬件之上, HDFS 提 3 / 11 供高吞吐量地對應用程序數(shù)據(jù)訪問,它適合大數(shù)據(jù)集的應用程 序, HDFS 放開一些 POSIX 的需求去實現(xiàn)流式地訪問文件數(shù)據(jù) 。 一個 HDFS 集群由一個管理文件系統(tǒng)元數(shù)據(jù)的 Name Node,和存儲實際數(shù)據(jù)的一些 Data Node 組成。 5) 分布式數(shù)據(jù)庫與 非 結構化數(shù)據(jù)存儲 在分布式文件系統(tǒng)之上,是存儲海量結構化數(shù)據(jù) 的分布式存儲系統(tǒng)。典型包括, Google的 BigTable,開源的 HBase 等。這些系統(tǒng)可將 非 結構化數(shù)據(jù),例如網(wǎng)頁等,存儲為分布式的、多維的、有序的圖。 以 HBase 為例。 HBase 是一個分布式的、面向列的開源數(shù)據(jù)庫 。 HBase 是 Apache的 Hadoop 項目的子項目 , HBase 在 Hadoop 之上提供了類似于 Bigtable 的能力。 HBase 不同于一般的關系數(shù)據(jù)庫 ,它是一個適合于非結構化數(shù)據(jù)存儲的數(shù)據(jù)庫 .另一個不同的是 , HBase 基于列的而不是基于行的模式。 HBase 使用和 Bigtable 非常相同的數(shù)據(jù) 模型。用戶存儲數(shù)據(jù)行在一個表里。一個數(shù)據(jù)行擁有一個可選擇的鍵和任意數(shù)量的列。表是疏松的存儲的,因此 用戶可以給行定義各種不同的列。 HBase 主要用于需要隨機訪問,實時讀寫大數(shù)據(jù) 。 在系統(tǒng)架構上,HBase 分成 Master 與 Region Server 兩部份 。 Master 負責告知 client 對一個表訪問時,應該轉向 哪臺 Region Server; 而 Region Server 就是實際上提供數(shù)據(jù)的節(jié)點。 6) 分布式計算 基于云平臺的最典型的分布式計算模式是 MapReduce 編程模型。 MapReduce 將大型任務分成很多細粒度的子任務,這些子任務分布式的在多個計算節(jié)點上進行調度和計算,從而在云平臺上獲得對海量數(shù)據(jù)的處理能力。 概念 Map(映射) 和 Reduce(化簡) ,和他們的主要思想,都是從函數(shù)式編程語言里借來的,還有從矢量編程語言里借來的特性 。 當前的軟件實現(xiàn)是指定一個 Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對,指定并發(fā)的 Reduce(化簡)函數(shù),用來保證所有映射的鍵值對中的每一個共享相同的鍵組。簡單說來,一個映射函數(shù)就是對一些獨立元素組成的概念上的列表的每一個元素進行指定的操作。事實 上,每個元素都是被獨立操作的,而原始列表沒有被更改,因 為這里創(chuàng)建了一個新的列表來保存新的答案。這就是說, Map 操作是可以高度并行的,這對高性能要求的應用以及并行計算領域的需求非常有用。而 Reduce 操作指的是對一個列表的元素進行適當?shù)暮喜?。雖然他不如映射函數(shù)那么并行,但是因為化簡總是有一個簡單的答案,大規(guī)模的運算相對獨立,所以化簡函數(shù)在高度并行環(huán)境下也很有用。 3. 應用分析 1) 問題和現(xiàn)狀 對于 EDC 和業(yè)務支撐系統(tǒng)而言,大量的 業(yè)務涉及到數(shù)據(jù)分析和商業(yè)智能 。例如,以上海電信為例,相關系統(tǒng),按大類劃分,為 BSS、 MSS、 OSS、 EDI 等;按照具體應用系統(tǒng),則 4 / 11 為 計費、 CRM、 DW、綜合結算、網(wǎng)廳、 OA、 ERP、 門戶、 EDW、 全息視圖、計費分析、營銷分析、資源管理、綜合保障、綜合報警 等。彼此獨立的系統(tǒng),占用了大量的硬件資源。然而,由于資源彼此隔離,服務器的平均利用率非常低。由于生產(chǎn)要求, 月初 出帳 (主要是報表 )期 , 計算 扎堆嚴重 ,資源又明顯不足。 數(shù)據(jù)分析和商業(yè)智能云平臺,作為公共計算平臺,用于支撐 EDC 和業(yè)務支撐系統(tǒng)中的數(shù)據(jù)分析和商業(yè)智能計算。因此,云平臺的客戶也即上述系統(tǒng)的客戶,同時輻射到電信各種業(yè)務的決策層 。 通過 對電信 EDC 和業(yè)務支撐系統(tǒng)的分析,我們可以總結出以下幾個業(yè)務特性: 高性能計算的需求 數(shù)據(jù)量大、運算量大的系統(tǒng)如計費、 CRM、 EDW 等對高性能計算有需求。四川電信數(shù)據(jù)分析都架構在小型機上, CPU 資源仍然不夠。 雖然有一系列擴容優(yōu)化計劃,但計算與資源一直有矛盾。 上海電信 EDA/WS 部門,也面臨針對海量數(shù)據(jù)做分析報表的壓力;由于計算資源分離,不能共享,資源利用率低下,目前主要通過不斷擴容應對壓力。 時間窗口問題 需求 數(shù)據(jù)分析的一個突出 問題是時間窗口問題,這在上海電信和四川電信都很突出。由于生產(chǎn)要求,月初出賬 (主要是報表 )期,計算扎堆嚴重,資源明顯不足。目前對策主要是,對于階段性以及突發(fā)性的作業(yè)需求進行動態(tài)調整以滿足作業(yè)對計算能力的要求。即,對于重要業(yè)務需預留資源,對于其它業(yè)務則進行調度管理;在出賬前,根據(jù)資源需要,停掉低優(yōu)先級的計算,從而滿足高優(yōu)先級計算的需求。然而,在時間窗口之外,計算資源又相對空閑。 云計算在數(shù)據(jù)分析與商業(yè)智能分析中的應用有兩種應用模式: 為電信內(nèi)部 EDC 和業(yè)務支撐系統(tǒng)提供數(shù)據(jù)分析和商業(yè)智能業(yè)務,實現(xiàn) 傳統(tǒng)數(shù)據(jù)分析與商業(yè)智能應用的云化 。 要實現(xiàn)此類應用模式需要完成后述工作: 利用虛擬化和自動化等云 計算關鍵技術整合現(xiàn)有硬件資源; 部署云模式數(shù)據(jù)分析與商業(yè)智能平臺;遵照云模式選擇性地重構現(xiàn)有業(yè)務系統(tǒng)中用到的數(shù)據(jù)分析與商業(yè)智能服務 ;將上述 用戶 人物調度到云平臺上進行計算,獲得云模式帶來的好處。 采用云模式開發(fā)新的數(shù)據(jù)分析與商業(yè)智能服務 ,實現(xiàn)企業(yè)數(shù)據(jù)分析云。要實現(xiàn)此類業(yè) 務應用模式需要 依托整合共享的硬件資源,在云模式數(shù)據(jù)分析與商業(yè)智能平臺上開發(fā)新的服務,以支持各類新興的應用模式和需求(如移動社交網(wǎng)絡,基于客戶社交網(wǎng)絡的客戶價值發(fā)現(xiàn)和營銷,客戶分群,基于用戶地理位置和軌跡的信息服務和廣告推送等)。 2) 典型應用場景 本節(jié) 闡述幾個典型利用數(shù)據(jù)分析和商業(yè)智能云平臺的新數(shù)據(jù)分析業(yè)務,包括客戶流失分析, 客戶社群發(fā)現(xiàn) ,客戶多重身份 識別 , 客戶價值發(fā)掘 。上述典型應用涵蓋了云模式數(shù)據(jù)分 5 / 11 析與商業(yè)智能平臺提供的數(shù)據(jù)挖掘和社會網(wǎng)絡分析功能。然而,該平臺并不僅限于支持上述業(yè)務,傳統(tǒng)的各類數(shù)據(jù)分析業(yè)務均可通過定制化開發(fā),移植到該平臺上。 客戶流失分析 針對當前中國電信的 C 網(wǎng)客戶流失嚴重的現(xiàn)象,利用云數(shù)據(jù)分析平臺提供的 CHAID( Chi-squared Automatic Interaction Detector) 等客戶分群 算法,將客戶 劃分為 “穩(wěn) 定客戶”和“潛在流失客戶”,從而可以讓中國電信將營銷資金投入到挽留“潛在流失客戶”上 ,有效地提高營銷資金的使用效率 。 經(jīng)過清洗和預處理的客戶數(shù)據(jù)會被提交給這個應用,加以分析。分析過程包括 CHAID模型的建立和評估兩個步驟。評估結果會以預測準確度和 LIFT 兩個指標的形式展現(xiàn) 客戶社群發(fā)現(xiàn) 針對性營銷不僅需要了解單個顧客的特征,更需要識別和理解顧客形成的各種社群。例如,識別家庭用戶形成的社群結構,對于特定種類的業(yè)務營銷會有很大的幫助。然而,傳統(tǒng)的統(tǒng)計方法往往只對代表社群規(guī)模的一些簡單指標進行統(tǒng)計和比較,無法分 析客戶社群內(nèi)在結構上的差異。 利用 云平臺 BI 算法庫中的連通分量, K-core 和極大團等算法,可 深入分析客戶社群的組成,發(fā)現(xiàn)具有商業(yè)價值的特殊結構。 例如, K-core 和極大團算法 分析一個網(wǎng)絡社區(qū) ,可以通過 分析結果 發(fā)現(xiàn),不同 社群的內(nèi)部聯(lián)系緊密差異 是否很大; K-core 算法可以獲得清晰的坍縮序列,極大團算法進而發(fā)現(xiàn)了該社群內(nèi)部一些聯(lián)系緊密的小團體。 對于電信業(yè)務,潛在的應用場景有: 發(fā)掘家庭客戶 ,也即 哪些客戶是家庭客戶,哪些客戶可能是 同一個家庭; 發(fā)掘商業(yè)關聯(lián) 。 客戶多重身份識別 在各類客戶分析應用中 , 往往需要識別單一客戶的多重身份。例如 ,在電信網(wǎng)中需要識別重入網(wǎng)客戶 , 在廣告營銷管理中需要識別虛假好評。 云平臺 算法庫提供的個體中心網(wǎng)和極大團等算法 , 可以輔助識別用戶的多重身份。 電信網(wǎng)中的重入網(wǎng)客戶識別 。 利用 網(wǎng)絡分析 算法庫提供的個體中心網(wǎng)算法,可以計算得到每個客戶的朋友以及朋友之間的聯(lián)系,這一信息可以被看作是該客戶的社會關系指紋。將這一分析工具同時態(tài)分析等工具相結合,可以有效地判斷一個客戶是否是該運營商過去某個用戶再入網(wǎng)的身份。 虛假好評 /馬甲的識別 。 云平臺 網(wǎng)絡分析 算法庫提供的極大團 等社群發(fā)現(xiàn)算法可以識別客戶社群中一些有趣的小團體。以網(wǎng)絡社區(qū) 數(shù)據(jù)為例, 可 發(fā)現(xiàn)一些包含兩個用戶的強極大團 6 / 11 實際上是一些用戶的多個身份 。 客戶價值發(fā)現(xiàn) 傳統(tǒng)的客戶價值分析方法往往將客戶看作是一個個獨立的個體,依據(jù)客戶的統(tǒng)計屬性來判斷客戶的價值。 然而,統(tǒng)計 屬性 并非有效表征客戶價值。利用云平臺社會網(wǎng)絡分析 pagerank和 HITS 等算法,可分析客戶在社會網(wǎng)絡中的位置對其價值的影響,從而有效挖掘出價值客戶。 3) 分布式技術模型 數(shù)據(jù)分析和商業(yè)智能云平臺的技術架構由如下四層結構組成: 數(shù)據(jù)分析與商業(yè)智能的應用 數(shù)據(jù)分析中間件(算法庫和工具) 云模式分布式并行計算框架 云模式分布式文件系統(tǒng)和特定主題的數(shù)據(jù)模型 前述功能模型中的 四 個具體分析應用,歸屬 于 應用層。 平臺未來將要支持的各種應用層業(yè)務邏輯也在這層定制化開發(fā)。 數(shù) 據(jù) 分 析 與 商 業(yè) 智 能 的 應 用( 客 戶 社 群 發(fā) 現(xiàn) , 行 為 分 析 , 價 值 分 析 流 失 分 析 )數(shù) 據(jù) 分 析 中 間 件( 統(tǒng) 計 查 詢 , 社 群 網(wǎng) 絡 分 析 , 自 我 學 習 , 數(shù) 據(jù) 挖 掘 等 等 )ODS&EDW已有BI平臺(SPSS/SAS,cogns)云 模 式 分 布 式 并 行 計 算 框 架M a p R e d u c e特 定 主 題 的 數(shù) 據(jù) 模 型云 模 式 分 布 式 文 件 系 統(tǒng) H D F S源 數(shù) 據(jù) C D R s , S M S , 日 志 圖 2 技術模型 7 / 11 4) 數(shù)據(jù)分析中間件 這層中間件是架構在 Hadoop 之上,遵照 MapReduce 計算模型開發(fā)而來的一系列的算法庫和工具。為支持現(xiàn)有各種數(shù)據(jù)分析和商業(yè)智能應用,本層應至少包含統(tǒng)計查詢、社會網(wǎng)絡分析、數(shù)據(jù)挖掘、機器學習的算法庫和工具。此外,隨著云模式數(shù)據(jù)分析與商業(yè)智能平臺及其應用的發(fā)展,本層的算法庫和工具也將不斷豐富和完善。 下圖展現(xiàn)了一個典型的數(shù)據(jù)分析和商業(yè)智能應用的流程,包括:問題定義、數(shù)據(jù)收集、數(shù)據(jù)分析、決策、行動 /監(jiān)控 /學習,及其迭代過程。 云模式數(shù)據(jù)分析與商業(yè)智能平臺所提供的算法庫和工具將為應用提供數(shù)據(jù)分析和決策兩個環(huán)節(jié)的支持。依托下層的 Hadoop MapReduce 分布式并行計算框架和 Hadoop 分布式文件系統(tǒng),本層中間件適合處理滿足下列特征的數(shù)據(jù): 非結構化 或 半結構化源數(shù)據(jù),例如 CDR,短信日志等。 大規(guī)模數(shù)據(jù)集; 快速增長的數(shù)據(jù)集 (例如,每日更新的手 機用戶的通話日志 ) 本層中間件與傳統(tǒng)數(shù)據(jù)分析與商業(yè)智能中間件相比,其特點在于: 針對海量數(shù)據(jù)提供高性價比的計算分析; 依附于最通用的云計算平臺 (Hadoop)之上,可有效地與其他云計算中間件進行協(xié)調整合; 快捷地支持各種類型的商業(yè)智能解決方案的開發(fā)和部署; 依托 MapReduce 編程模型,可以有效建立協(xié)作式的分析知識庫 5) 云模式分布式并行計算框架 基于云平臺的最典型的分布式計算 模型就 是 MapReduce 編程模型 ,這也是本平臺首選的分布式并行計算模型 。 MapReduce 將大型任務分成很多細粒度的子任務,這些子任 務分布式 且并行地 在多個計算節(jié)點上進行調度和計算,從而在云平臺上獲得對海量數(shù)據(jù)的處理能力。 概念 Map(映射) 和 Reduce(化簡) ,和他們的主要思想,都是從函數(shù)式編程語言 8 / 11 里 借鑒來 的 。 遵照 MapReduce 編程模型,數(shù)據(jù)分析與商業(yè)智能算法庫的開發(fā)者可以編寫 一個 Map(映射)函數(shù),用來把一組鍵值對映射成一組新的鍵值對, 還可以編寫一個 Reduce(化簡)函數(shù),用來 處理 Map 函數(shù)產(chǎn)生的 鍵值對中的共享相同的鍵 的所有鍵值對 。簡單說來,一個映射函數(shù)就是對一些獨立元素組成的概念上的列表的每一個元素進行指定的操作。事 實上,每個元素都是被獨立操作的,而原始列表沒有被更改,因為這里 將 創(chuàng)建一個新的列表來保存 操作的結果 。 因此 , Map 操作是可以高度并行的,這對 有 高性能要求的應用以及并行計算領域的需求非常有用。而 Reduce 操作 則是 是對一個列表的元素進行適當?shù)暮喜?。雖然不如Map 函數(shù)那么并行,但是因為 有許多的運算中用到的 化簡 都 有簡單的 輸入和化簡結果 ,所以 Reduce 函數(shù)在高度并行環(huán)境下 往往 也很有用。 目前存在的 MapReduce 分布式并行計算框架實現(xiàn)有幾種,其中最主要的是 Apache Hadoop MapReduce,已經(jīng)形成了成 熟活躍的開發(fā)和用戶社群。這也是本平臺首選的依托方案。在 Apache Hadoop MapReduce 中, Map 操作和 Reduce 操作的執(zhí)行被包裹為任務( task),而任務又以 Map-Reduce 對的形式被包裹為作業(yè)( job)。負責在 Hadoop 集群節(jié)點上安排任務執(zhí)行的軟件被稱作 TaskTracker,通常在每個計算節(jié)點上部署一個。負責在集群范圍內(nèi)調度作業(yè)和任務執(zhí)行的軟件被稱作 JobTracker,通常在 Hadoop 集群內(nèi)挑選獨立的機器來部署。 6) 特定主題的數(shù)據(jù)模型 盡管 MapReduce 分布式并行編程模型 對底 層數(shù)據(jù)存儲并無硬性的要求 ,但是,為了最好地利用該模型帶來的伸縮性優(yōu)勢,往往需要采用分布式文件系統(tǒng)作為輸入數(shù)據(jù),中間結果以及輸出數(shù)據(jù)的載體。 在 Apache Hadoop 套件中,這樣的分布式文件系統(tǒng)就是 Hadoop 分布式文件 系統(tǒng) ( Hadoop Distributed File System, HDFS), 這也是本平臺首選的分布式文件系統(tǒng)方案之一。該系統(tǒng)利用Hadoop 集群中 各個節(jié)點的本地磁盤來存放數(shù)據(jù)文件,可以在普通的硬件平臺上實現(xiàn)可靠的數(shù)據(jù)存儲 。 對外部客戶機而言, HDFS 就像一個傳統(tǒng)的分級文件系統(tǒng)。可以 創(chuàng)建、刪除、移動或重命名文件,等等。但是 HDFS 的架構是基于一組特定的節(jié)點構建的(參見 下 圖 ,這是由它自身的特點決定的。這些節(jié)點包括 NameNode, 負責 在 HDFS 內(nèi)部提供元數(shù)據(jù)服務;DataNode, 負責 為 HDFS 提供存儲塊。 Hadoop 集群 往往 包含一個 NameNode 和大量 9 / 11 DataNode。 DataNode 通常以機架的形式組織,機架 之間通過 交換機 實現(xiàn)連接 。 Hadoop HDFS和 Hadoop MapReduce 的一個假設是:機架內(nèi)部節(jié)點之間的傳輸速度 和延遲都好于 機架間。 4. 實現(xiàn) 步驟 從傳統(tǒng)的數(shù)據(jù)分析與商業(yè)智能分析模式向基于云計算的數(shù)據(jù)分析云的進化是電信數(shù)據(jù)分析的終級目標。 轉型過程應該從資源整合與平臺虛擬化著手,分步引入虛擬化高級功能和云計算概念。 資源整合與點應用 以現(xiàn)有的數(shù)據(jù)分析與商業(yè) 智能 分析系統(tǒng)為基礎,進行資源整合,實現(xiàn)物理資源的虛擬化,通過虛擬化技術實現(xiàn)資源池化和資源動態(tài)擴展等功能,實現(xiàn)基礎平臺與應用平臺的擴展。目前實現(xiàn)虛擬化的產(chǎn)品有很多,其中以 Vmware,微軟, ctrix 的虛擬化產(chǎn)品為主流。 依托基礎平臺與應用擴展平臺, 實現(xiàn) 數(shù)據(jù)分析和商業(yè)智能平臺 的快速部署和資源動態(tài)擴展。 在此基礎上,借助平臺快速部署 功能 和 系統(tǒng) 無縫移置功能,選擇性地開發(fā)和部署一批數(shù)據(jù)分析和商業(yè)智能應用。 平臺擴展和應用推廣 在基礎整合的基礎上擴展平臺,開發(fā)和部署更多的云模式數(shù)據(jù)分析和商業(yè)智能應用。 同EDW、 ODS 和其他現(xiàn)有 BI 平臺的集成。 平臺開放和自主演化 這個階段的平臺建設目標是 標準化云模式數(shù)據(jù)分析和商業(yè)智能應用的開發(fā)接口和運行時接口;提供較為完善的開發(fā)套件 。 鼓勵和吸引電信及合作伙伴共同豐富平臺和應用的功能 。 5. 難點和風險 在數(shù)據(jù)分析與商業(yè)智能分析中應用云計算技術,能提高數(shù)據(jù)分析的效率,讓企業(yè)更加能適應快速 變化的市場,為快速推出新的產(chǎn)品提供數(shù)據(jù)依據(jù),但是云計算也存在一些難點和風險。 產(chǎn)品選擇問題 服務器虛擬化技術和產(chǎn)品沒有統(tǒng)一的標準平臺和開放協(xié)議,業(yè)界內(nèi)服務器虛擬化產(chǎn)品良莠不齊,不合適的產(chǎn)品選擇會帶來嚴重的投資風險。 而且 服務器虛擬化軟件價格不菲,短期、小范圍內(nèi)的應用難見效益。 10 / 11 可靠性問題 由于在一臺服務器上運行多個重要應用程序和數(shù)據(jù)庫,虛擬化的 IT 環(huán)境比大型計算機和微型計算機環(huán)境更容易遭到災難 性崩潰的破壞,因為它們有同樣集中的資源,但是,硬件的可靠性不同。 數(shù)據(jù)安全問題 數(shù)據(jù)是企業(yè)的生命,數(shù)據(jù)的丟失和泄露對電 信來說是不容忽視的風險。云計算帶來便利的同時, 也給數(shù)據(jù)完全帶來了風險。 環(huán)境的復雜化 虛擬化的本質是應用只與虛擬層交互,而與真正的硬件隔離。在造成便利的同時,也造成了風險。軟件和硬件之間被切斷聯(lián)系將導致安全人員看不到設備背后發(fā)生的風險,服務器環(huán)境變得更加不固定、復雜,安全人員最終失去硬件本身提供的穩(wěn)定性。當應用出現(xiàn)故障時,需要精確定位是硬件還是軟件故障,在虛擬化世界中,這將是一項復雜而冗長的工作。 6. 結束語 中國電信實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論