H3C+DataEngine+Lion技術白皮書完整_第1頁
H3C+DataEngine+Lion技術白皮書完整_第2頁
H3C+DataEngine+Lion技術白皮書完整_第3頁
H3C+DataEngine+Lion技術白皮書完整_第4頁
H3C+DataEngine+Lion技術白皮書完整_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

H3CDataEngineLion技術白皮書Copyright?2016杭州華三通信技術有限公司版權所有,保留一切權利。非經(jīng)本公司書面許可,任何單位和個人不得擅自摘抄、復制本文檔內容的部分或全部,并不得以任何形式傳播。本文檔中的信息可能變動,恕不另行通知。概述運維行業(yè)現(xiàn)狀(TODO)H3CDataEngineLion運維大數(shù)據(jù)平臺能夠幫助運維人員從傳統(tǒng)被動救火的運維方式中解脫,利用大數(shù)據(jù)技術做到精準、智能的運維,主要解決用戶如下運維難題:運維日志分散,定位問題需要單獨登陸設備、系統(tǒng)去分析。一個簡單問題定位原因可能會涉及系統(tǒng)眾多,需要很長時間多部門人員溝通協(xié)調,Lion可以做到運維日志的集中管理。海量數(shù)據(jù)存儲、檢索問題,每天新增大量的日志數(shù)據(jù),歷史數(shù)據(jù)存儲成本高,存了無法有效分析利用、帶來價值,Lion做到了存儲的彈性擴展以及高效檢索。各種設備、應用提供的日志信息之間難以關聯(lián),一個問題的出現(xiàn)很可能從應用系統(tǒng)到硬件都有日志記錄保存,利用Lion的機器學習、大數(shù)據(jù)技術能分析日志之間的關聯(lián)性,可高效定位問題。問題事件難以提前預警,往往是出了問題再去分析定位,Lion利用豐富的機器學習算法,做到運維問題事件的智能預警。報表統(tǒng)計需要手工操作,日志數(shù)據(jù)可視化程度不夠,Lion集成豐富的可視化圖表、儀表盤,讓數(shù)據(jù)更生動,讓用戶更易發(fā)現(xiàn)日志數(shù)據(jù)的關聯(lián)。技術優(yōu)勢、特點技術特點Lion支持布式搜索,它的特點有:分布式,索引自動分片,索引副本機制,零配置,自動發(fā)現(xiàn),restful風格接口等。支持對日志進行收集、分析,并將其存儲供后續(xù)使用。提供的日志分析友好的Web界面,可以幫助您匯總、分析和搜索重要日志數(shù)據(jù)。領先的分布式架構H3CDataEngineLion基于ElasticSearch架構,提供了一個分布式搜索引擎架構。Lion可以擴展到上千節(jié)點來存儲、處理PB級的數(shù)據(jù)。分布式特性主要體現(xiàn)在:當文檔數(shù)據(jù)存儲到不同分片時,可以分散在多個節(jié)點中。分片會均勻的分配到各個節(jié)點,保證對索引建立、搜索的負載均衡。每個分片存在冗余副本,保證集群的可靠性。集群中任一節(jié)點收到請求會路由到數(shù)據(jù)對應節(jié)點。節(jié)點的增加或刪除時,分片數(shù)據(jù)會做到無縫擴展、遷移。當數(shù)據(jù)量或查詢壓力超過單機負載時,需要多個節(jié)點來協(xié)同處理,所有節(jié)點構成集群來處理,其中有1個為主節(jié)點,這個主節(jié)點是可以通過選舉產(chǎn)生的,主從節(jié)點是對于集群內部來說的。Lion實現(xiàn)了去中心化,從外部來看集群,在邏輯上是一個整體,你與任何一個節(jié)點的通信和與整個集群通信是等價的。當需要存儲大規(guī)模文檔時,由于內存、硬盤容量的限制,僅僅使用一個節(jié)點是不夠的,Lion會把數(shù)據(jù)切分存儲,每一部分都是一個單獨的索引分片,每個分片可以存儲在集群的不同節(jié)點上。當需要查詢有多個分片構成的索引時,Lion會將查詢發(fā)送到相關分片,并將結果合并。這些過程對具體應用而言是透明的,無需關心分片的存在。線性擴展能力所謂線性擴展能力,主要體現(xiàn)在兩個方面:一個是集群部署規(guī)模可以線性擴展,另一個方面,隨集群規(guī)模的擴展,其性能要能夠線性或近似線性擴展。當數(shù)據(jù)量或者查詢負載超過當前集群負載時,會增加新節(jié)點來解決,新的節(jié)點配置好正確的集群名稱后,會自動加入集群中來,并且Lion會重新平衡集群,轉移一些數(shù)據(jù)到新加入的節(jié)點上。集群有兩種自動發(fā)現(xiàn)策略:組播和單播Zen發(fā)現(xiàn)機制。當節(jié)點還未加入任何集群時,它會發(fā)出一個個多播的請求,這相當于通知所有可見節(jié)點和集群,它已經(jīng)準備好加入集群了。當關閉默認組播方式后,可以使用單播方式,當節(jié)點不是集群中節(jié)點時,它會發(fā)送請求給所有節(jié)點表示已準備好加入集群了。集群單節(jié)點場景:默認情況,一個索引5個主分片,這里以3個舉例,副本設置為1,對于單節(jié)點集群,如果節(jié)點故障,數(shù)據(jù)可能會丟失,集群不能正常工作。圖集群單節(jié)點第二個節(jié)點加入集群,新節(jié)點會將三個復制分片分配,如丟失任意一個節(jié)點,依舊可以保證數(shù)據(jù)的完整性。文檔的索引將首先被存儲在主分片中,然后并發(fā)復制到對應的復制節(jié)點上,確保數(shù)據(jù)在主節(jié)點和復制節(jié)點上都可以被檢索。圖集群兩節(jié)點集群節(jié)點繼續(xù)橫向擴展,第三個節(jié)點加入集群,分片會重新分配以做到負載均衡。6個分片的情況下,一般最多擴展到6個節(jié)點,每個分片獨享硬件資源。圖集群三節(jié)點高可靠性Lion的高可靠性利用副本機制來保證,每個索引分片創(chuàng)建冗余的副本,原始分片稱為主分片,默認副本數(shù)為3(包含主分片),當主分片丟失或者所在節(jié)點宕機,副本可以升為主分片,從而保證整個集群的高可靠性。良好的性能Lion具有良好的檢索性能,支持全文檢索功能。支持近實時的搜索效果,一般查詢在毫秒級響應,億級數(shù)據(jù)查詢在秒級內響應。自動化運維開放兼容強大的數(shù)據(jù)處理和方便的擴展能力,提供接口,滿足用戶開發(fā)自定義應用,兼容第三方探針采集。功能介紹數(shù)據(jù)采集支持采集服務器、網(wǎng)絡設備、安全設備、操作系統(tǒng)、數(shù)據(jù)庫、應用系統(tǒng)等日志文件;支持采集數(shù)據(jù)庫訪問日志;支持網(wǎng)絡流量采集;支持設備性能指標采集;支持端口監(jiān)聽收集數(shù)據(jù)等,幾乎支持全數(shù)據(jù)源采集。格式解析支持自動化解析常見類型的日志,如JSON、Nginx、Log4j、XML等。支持配置解析規(guī)則對日志解析包含正則解析、KeyValue分解、數(shù)值型字段轉換、url解碼、時間戳識別、geo解析、字段值拆分、xml解析、自定義字典等。對于不能被自動識別的日志,會對其全文索引。數(shù)據(jù)存儲采用分布式存儲架構,節(jié)點可在線動態(tài)擴展增加存儲容量,支持PB級以上海量數(shù)據(jù)存儲,支持高可用、多副本機制、快照功能。數(shù)據(jù)檢索支持全文檢索功能。支持近實時的搜索效果,一般查詢在毫秒級響應,億級數(shù)據(jù)查詢在1秒內響應。支持檢索條件的載入、保存,靈活、復雜的條件過濾。支持基于快速時間點、時間段檢索。支持數(shù)據(jù)字段、事件字段的列表展示,支持字段別名功能。支持定時頁面刷新結果,時間序列結果展示。支持自定義告警規(guī)則,智能預測發(fā)現(xiàn)問題,做到對告警事件及時響應。數(shù)據(jù)挖掘支持豐富的機器學習算法,能自我完善模型、訓練數(shù)據(jù)。支持基于Spark、Storm等分布式計算框架,支持離線數(shù)據(jù)挖掘,實時數(shù)據(jù)分析,支持基于大數(shù)據(jù)的用戶行為分析、多數(shù)據(jù)源關聯(lián)分析??梢暬峁┝苏劬€圖、面積圖、餅圖、地圖、區(qū)域圖、表格、曲線圖、柱狀圖、雷達圖、標簽云、桑基圖、時間軸、熱力圖、雷達圖、雷達掃描圖等圖表功能?;谝延兴阉鲃?chuàng)建可視化、支持可視化的載入、保存。支持定時的可視化圖表刷新。基于搜索條件的可視化圖表統(tǒng)計過濾。支持自由組合可視化為儀表盤。支持儀表盤的載入、保存。支持已保存的可視化、儀表盤對象的編輯、預覽、導入、導出以及批量導入和導出。告警能夠定期執(zhí)行,并依據(jù)搜尋結果發(fā)出各項警示通知,可以過email、聲音提醒、web通知等方式通知用戶。支持日程格式:時間戳、Cron表達式、實時執(zhí)行。分享由各種設備所產(chǎn)生的機器數(shù)據(jù)是相當枯燥乏味的,通過lion可將它轉化為切實可用的重要IT信息,并且能為任何人所用,不需要太多艱深的知識即可找出想要的信息。搜索報表生成儀表盤,并可生成分享鏈接,嵌入到其他系統(tǒng)。關鍵技術指標管理界面:B/S架構,全中文WEB界面,所有系統(tǒng)可以在任何地方隨時通過瀏覽器在同一界面遠程管理。監(jiān)測方式:集中式和分布式Agent檢測可自動建立日志、事件索引而不需提供原始格式屬性支持集中非代理式監(jiān)測,無需在被監(jiān)控對象上安裝任何代理軟件,對原有系統(tǒng)不產(chǎn)生任何影響。跨平臺監(jiān)測:能跨平臺支持Windows、Linux等操作系統(tǒng),對Cpu、Memory、Disk、Service、Process、日志及文件等進行實時監(jiān)測管理。支持任何日志來源:能支持對不同廠商、不同型號的網(wǎng)絡設備的日志、流量、接口狀態(tài)、接口丟包率、Cpu利用率、Memory、配置文件是否修改等進行集中監(jiān)測管理。事件統(tǒng)計報表功能:能通過對歷史統(tǒng)計數(shù)據(jù)的分析,生成趨勢報告,TOPN報告等,發(fā)現(xiàn)并消除網(wǎng)絡瓶頸及安全隱患,為提高網(wǎng)絡資源利用率,為網(wǎng)絡規(guī)劃提供依據(jù)。報警方式:提供聲音、Email、web通知等多種報警方式。權限管理:可以詳細設置不同身份的人員登錄Lion所看到的菜單不同,數(shù)據(jù)權限可細粒度到索引、主機、儀表盤。二次開發(fā)支持:開放式API,能進行功能擴展、二次開發(fā)或實現(xiàn)與其它日志系統(tǒng)的無縫集成,提供應用管理,管理用戶插件。協(xié)議支持:監(jiān)測支持SNMP、TCP、UDP、ICMP、SYS

LOG、SSH、DNS、HTTP、THRIFT等協(xié)議,能廣泛支持不同廠家設備;數(shù)據(jù)庫管理:能對ORACLE、POSTGRESQL、MongoDB、Redis等數(shù)據(jù)庫進行有效的監(jiān)控和管理,可對這些服務的可用性、響應時間的趨勢變化進行實時、集中的監(jiān)控。進程管理:對服務器的進程信息進行監(jiān)視。包括進程的序列、名稱、狀態(tài)、類型、CPU利用率、內存利用率等。服務器狀態(tài):實時監(jiān)測網(wǎng)管中的服務器的性能與負載,界面上能清晰的反映所監(jiān)視的服務器的各項指標、狀態(tài)。性能指標包括CPU利用率、內存利用率、磁盤利用率。典型應用場景使用場景日常IT運維如今,IT管理的難度日益加劇,傳統(tǒng)的IT管理方法受到來自新興技術、企業(yè)組織的嚴格管理措施、安全審計等各個方面的壓力。在IT的復雜程度不斷攀升的背景下,系統(tǒng)管理員每日的工作猶如救火,他們在確保系統(tǒng)運行順暢的基本前提下,需要掌握各個網(wǎng)絡設備的配置情況,需要運用各種管理工具,實時監(jiān)控系統(tǒng)或應用的運行情況,需要時刻準備著做繁雜的故障排除,需要動態(tài)調整系統(tǒng)配置參數(shù),還需要防微杜漸做好備份防災準備。而我們最常見的狀況就是,在一個企業(yè)組織當中,如果出現(xiàn)了問題,故障工單、事件以及合規(guī)審計的需求通常會統(tǒng)統(tǒng)送到服務臺。但是因為缺乏故障發(fā)生原因的各種具體信息,客服人員填寫故障單后,就會直接把問題申報至網(wǎng)絡運營部、應用開發(fā)部、數(shù)據(jù)庫管理部、安全部或者是系統(tǒng)管理部。如此冗長的工作流程以及相互孤立的數(shù)據(jù)信息阻礙了部門間的有效合作,各個部門之間就像是在踢皮球。行業(yè)分析公司ForresterResearch估計,約有百分之七十的初級故障,一線人員根本沒有對其進行處理直接做了問題申報。而手動瀏覽這些信息孤島數(shù)據(jù)則需要花費數(shù)小時甚至數(shù)天的時間。然而實際上,實時地對這些故障問題做出響應,對絕大多數(shù)的業(yè)務來說都至關重要。 在這個業(yè)務快速發(fā)展的時代里,系統(tǒng)管理需要盡快從過去的“靜默運維”升級到“智能運維”的范疇之中。系統(tǒng)管理可以通過建立從數(shù)據(jù)檢索、日常監(jiān)控和告警體系、性能衡量與評估到業(yè)務視圖的深入流程體系。我們可以把日常的運維工作和公司的業(yè)務營運目標精密結合起來。大量的系統(tǒng)日志、IT數(shù)據(jù)可以成為我們智能運維的基礎,在此之上,進一步的挖掘、整理和呈現(xiàn)是表達我們思想的有力手段。無論是Windows,Linux,AIX,Solaris,HPUX等各類系統(tǒng),或者是NetAPP,EMC等存儲設備,以及Citrix,Vmware等各類虛擬機系統(tǒng),各類的系統(tǒng)、設備都有豐富的IT數(shù)據(jù)產(chǎn)生,例如日志、運行狀態(tài)數(shù)據(jù)、甚至是腳本運行的結果輸出;通過收集這些IT數(shù)據(jù),并進行Google式的快速搜索定位,各類問題的關聯(lián)解決和快速診斷得到了有力的保障;而進一步利用這些問題故障的搜索可以演變成動態(tài)的報表和自動告警,形成了自動化系統(tǒng)管理的快捷流程;把相關的報表、實時監(jiān)控保存在一起則瞬間形成了面向任務、面向業(yè)務的儀表板視圖。在IT運維領域,Lion實現(xiàn)了將所有來源的各類型IT數(shù)據(jù)編列索引,使您可由單一位置搜索、報告、監(jiān)控和分析實時或歷史的IT數(shù)據(jù)。能快速報告各項結果并輕松采納變更項目,且無須遵循、維護任何復雜的模型或規(guī)則使您能更快速將問題復原、減少停機時間,以及改善服務效能等級。硬件規(guī)格硬件要求服務器最少1個節(jié)點推薦4個節(jié)點及以上硬盤系統(tǒng)盤:必配,至少2塊硬盤。2個硬盤做RAID1用來安裝DataEngineLion等系統(tǒng)軟件,不作為數(shù)據(jù)盤;系統(tǒng)盤建議使用SAS盤,容量、轉速沒有特殊要求。數(shù)據(jù)盤:必配,至少1塊硬盤1、轉速建議10K以上,單盤做RAID0條帶化;2、DataEngineLion使用副本機制(2~N副本)或糾刪碼機制保障可靠性。如果使用N副本,則可用容量是裸容量的N分之一。建議使用2-3副本,保持較好的性價比。如果對存儲效率都有比較高的要求,也可以采用糾刪碼技術,此時對CPU要求有所提高。3、不同節(jié)點硬盤類型(容量、轉速)可以不同,但為保證最佳性能,需要采用一定的配置策略。在一般項目中,為簡化起見,建議不同節(jié)點配置相同類型的硬盤。為保證系統(tǒng)性能,建議配置10000rpm的硬盤。SSDSSD為系統(tǒng)提供快速寫日志功能及緩存加速功能,建議每臺服務器SSD硬盤容量與機械硬盤的容量比為1:5。內存根據(jù)服務器配置的數(shù)據(jù)盤容量計算DataEngineLion占用內存容量:512M內存/TB磁盤容量。例如某服務器節(jié)點配置8塊1T的數(shù)據(jù)盤,那么DataEngineLion占用內存容量為:8*512M=4G。注意:服務器還需要配置足夠的內存供虛擬機使用。RAID控制器必配,H3CFlexServer服務器默認已自帶硬件Raid卡。其他品牌服務器需確認形態(tài)及兼容性。RAID卡緩存推薦配置不少于2G。如果Raid卡沒有電源保護,則關閉Cache。網(wǎng)絡至少配置3個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論