版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 海量非結(jié)構(gòu)化數(shù)據(jù)的高效管理AIX專家俱樂部 微信號(hào) AIXchina功能介紹 AIX專家俱樂部是大中型企業(yè)IT運(yùn)維主管技術(shù)交流社區(qū),我們?cè)诖送扑蛠碜陨鐓^(qū)的原創(chuàng)干貨文章及精選資源,包括企業(yè)IT基礎(chǔ)架構(gòu)選型、設(shè)計(jì)、系統(tǒng)集成、實(shí)施、測試、運(yùn)維、合規(guī)、調(diào)優(yōu)等。以及虛擬化、云計(jì)算、大數(shù)據(jù)等互聯(lián)網(wǎng)技術(shù)的理論解讀、趨勢分析。海量非結(jié)構(gòu)化數(shù)據(jù)本身有著數(shù)據(jù)容量龐大(規(guī)模達(dá)到TB級(jí)、PB級(jí)甚至EB級(jí) ),數(shù)據(jù)類型繁多(如流媒體、文本、圖片等多種類型),數(shù)據(jù)時(shí)效性高(響應(yīng)時(shí)效要控制在用戶可容忍和接受范圍)等特點(diǎn)。在大數(shù)據(jù)環(huán)境下,如何能夠快速處理格式各異的海量非結(jié)構(gòu)化數(shù)據(jù),有著諸多問題亟待解決。社區(qū)最近組織交流“如
2、何對(duì)PB級(jí)甚至EB級(jí)的海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行有效管理?”,針對(duì)前述問題,社區(qū)專家和會(huì)員提出很多建議方案,以下是社區(qū)專家willow的總結(jié)分析。willow,某商業(yè)銀行系統(tǒng)工程師,專注于銀行基礎(chǔ)架構(gòu)設(shè)計(jì)、系統(tǒng)網(wǎng)絡(luò)規(guī)劃與運(yùn)維管理工作。在虛擬化、容災(zāi)備份、自動(dòng)化運(yùn)維領(lǐng)域有著豐富的項(xiàng)目實(shí)踐經(jīng)驗(yàn)。一、本次活動(dòng)中從設(shè)計(jì)思路、存儲(chǔ)技術(shù)、高可用架構(gòu)方面探討了如何對(duì)非結(jié)構(gòu)化數(shù)據(jù)的進(jìn)行管理和規(guī)劃,針對(duì)企業(yè)大數(shù)據(jù)應(yīng)用的基礎(chǔ)設(shè)施建設(shè)過程,提出以下建議:1.存儲(chǔ)選擇時(shí)的成本比較,從實(shí)際業(yè)務(wù)入手,對(duì)數(shù)據(jù)擴(kuò)展性要求高、需求變化快的應(yīng)用,使用分布式存儲(chǔ)方式肯定會(huì)節(jié)省一定的成本。而如果業(yè)務(wù)追求穩(wěn)定和性能,且變化不大,從長遠(yuǎn)上看,
3、使用集中式存儲(chǔ)比較合適。2.在存儲(chǔ)設(shè)備的選擇上是否考慮使用閃存存儲(chǔ),要考慮的因素有很多,以本活動(dòng)探討的PB、EB級(jí)別的海量非結(jié)構(gòu)化數(shù)據(jù)為例,數(shù)據(jù)全部放入閃存中,既不經(jīng)濟(jì)也不現(xiàn)實(shí)。而如果是將訪問量較大的元數(shù)據(jù)放入閃存中,就可以快速提高應(yīng)用對(duì)非結(jié)構(gòu)化數(shù)據(jù)的檢索效率,進(jìn)而提升整個(gè)集群存儲(chǔ)的效能。3.存儲(chǔ)高可用設(shè)計(jì)方面,單點(diǎn)故障在設(shè)計(jì)初期也要考慮,分布式文件系統(tǒng)的存儲(chǔ)方式,除了要關(guān)注存儲(chǔ)節(jié)點(diǎn)還要關(guān)注計(jì)算節(jié)點(diǎn)的高可用。而對(duì)于異構(gòu)的各單點(diǎn)存儲(chǔ),可以考慮使用如SVC等存儲(chǔ)虛擬化網(wǎng)關(guān)技術(shù),避免單點(diǎn)存儲(chǔ)的存在。二、在管理海量非結(jié)構(gòu)化數(shù)據(jù)過程中,處理工具的選型、調(diào)優(yōu)是非常重要的,本活動(dòng)也分別針對(duì)分布式文件系統(tǒng)、N
4、oSQL類數(shù)據(jù)庫、對(duì)象存儲(chǔ)等這幾類在處理非結(jié)構(gòu)化數(shù)據(jù)過程中常用的工具和會(huì)員們進(jìn)行了詳細(xì)討論,下面分別圍繞不同的解決方案對(duì)本次活動(dòng)中會(huì)員提出的觀點(diǎn)和方案進(jìn)行梳理:關(guān)于NoSQL類數(shù)據(jù)庫的管理與優(yōu)化:Redis方面的一些優(yōu)化經(jīng)驗(yàn):數(shù)據(jù)結(jié)構(gòu)選用方面,考慮需求的同時(shí)還需考慮性能因素。例如,不需要set操作或list的push/pop操作的時(shí)候,盡可能的使用Hash結(jié)構(gòu);合理設(shè)計(jì)key的過期時(shí)間,減少內(nèi)存占用。根據(jù)自己的環(huán)境,合理配置maxmemory及maxmemory-policy,以盡量規(guī)避swap拉低性能問題。maxmemory依據(jù)持久化策略,建議配置為45%或95%;maxmemory-pol
5、icy依據(jù)key過期情況,建議使用volatile-ttl或allkeys-lru。設(shè)計(jì)實(shí)用高效命令。如命令合并,避免發(fā)送大量小命令;管道命令,避免網(wǎng)絡(luò)開銷;避免使用那些高時(shí)間復(fù)雜度,降低延遲;合理配置maxclients,縮短單client等待時(shí)間;mongodb方面的一些優(yōu)化經(jīng)驗(yàn):很類似rdbms。因?yàn)樗饕彩抢^續(xù)b-tree的,基本上傳統(tǒng)數(shù)據(jù)庫適用的索引優(yōu)化都可以用在mongodb上Hbase方面的一些優(yōu)化經(jīng)驗(yàn):Hbase,從預(yù)先分配好region,到rowkey的設(shè)置,在到底層配置參數(shù)的調(diào)整等關(guān)于分布式文件系統(tǒng)管理經(jīng)驗(yàn):元數(shù)據(jù)管理:重點(diǎn)關(guān)注元數(shù)據(jù)服務(wù)器的復(fù)制結(jié)構(gòu)和查詢策略、元數(shù)據(jù)服務(wù)器
6、的硬件配置(CPU/內(nèi)存/緩存大小)、元數(shù)據(jù)服務(wù)器處理線程數(shù)量等存儲(chǔ)節(jié)點(diǎn)性能:重點(diǎn)關(guān)注存儲(chǔ)節(jié)點(diǎn)底層磁盤I/O、系統(tǒng)讀寫cache大小等。存儲(chǔ)網(wǎng)絡(luò)性能:關(guān)注分布式文件系統(tǒng)中存儲(chǔ)網(wǎng)絡(luò)對(duì)數(shù)據(jù)傳輸速率的影響??蛻舳酥С郑翰煌姆植际轿募到y(tǒng)對(duì)客戶端的支持是有差別的,要關(guān)注文件系統(tǒng)I/O吞吐是否能夠?qū)蛻舳嗽黾佑休^好的可擴(kuò)展性。replication數(shù);block size;服務(wù)線程數(shù);選用合適的調(diào)度算法;盡量減少磁盤操作;盡可能降低網(wǎng)絡(luò)傳輸數(shù)據(jù)量;基于分布式文件系統(tǒng)的考慮 不管是nas還是san 網(wǎng)絡(luò)文件流的考慮很重要;各個(gè)數(shù)據(jù)節(jié)點(diǎn)之間是否考慮做冗余,負(fù)載均衡,大并發(fā)處理等;同時(shí),專家也從使用方式和場
7、景上對(duì)幾種處理海量非結(jié)構(gòu)化數(shù)據(jù)的技術(shù)架構(gòu)進(jìn)行了剖析和比較:NAS掛載上和裸磁盤沒什么區(qū)別,適合快速部署的業(yè)務(wù)需求。DFS一般都有相應(yīng)的接口,你要按照接口來讀寫,有些DFS支持原生POSIX接口,那么你用起來相當(dāng)于使用格式化好的磁盤。對(duì)象存儲(chǔ)一般不支持POSIX方式,只支持自己的7層接口,比如HTTP,那么你一般是在自己程序里調(diào)HTTP接口來讀寫。NoSQL一般有自己的官方客戶端,你需要用官方提供的客戶端/SDK進(jìn)行讀寫操作。從場景上簡單說,NAS/DFS一般多用于一個(gè)IDC或者內(nèi)網(wǎng)內(nèi)的數(shù)據(jù)存儲(chǔ),比單機(jī)的可靠性高同時(shí)能保證比較高的讀寫速度,對(duì)象存儲(chǔ)一般是跨IDC甚至全球的數(shù)據(jù)存儲(chǔ),可靠性高很多,
8、但讀寫速度不比前兩個(gè),NoSQL一般不能夠跨IDC,同時(shí)NoSQL有很多數(shù)據(jù)庫的特性,比如表、聯(lián)表查詢、事務(wù)等等的特性,更貼合業(yè)務(wù)。三、關(guān)于海量非結(jié)構(gòu)化數(shù)據(jù)的處理方面,會(huì)員交流的問題大多關(guān)注在如何對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行優(yōu)化,在非結(jié)構(gòu)化數(shù)據(jù)“海量”的前提下如何進(jìn)行壓縮、重刪,最終實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的利用價(jià)值等:1.根據(jù)業(yè)務(wù)場景,有的都是大量小文件,文件系統(tǒng)的不同參數(shù)對(duì)這些會(huì)有影響,可以在創(chuàng)建文件系統(tǒng)時(shí)進(jìn)行優(yōu)化;2.數(shù)據(jù)壓縮:一般是在保存數(shù)據(jù)的時(shí)候就進(jìn)行壓縮了,壓縮一種是有損壓縮(比如業(yè)務(wù)票據(jù),在保證一定清晰度的前提下可以適當(dāng)有損壓縮),一種是無損壓縮,這是一種典型的“時(shí)間換空間”的思路,需要根據(jù)業(yè)務(wù)需
9、求判斷是否進(jìn)行壓縮。3.生命周期:每個(gè)業(yè)務(wù)都有一定的生命周期,建議在規(guī)劃的時(shí)候就規(guī)劃好生命周期,這樣每天晚上批量刪除比較一年之前的業(yè)務(wù)數(shù)據(jù),通過這種方式來保持一定時(shí)間窗口的數(shù)據(jù)。4.海量非結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該用傳統(tǒng)備份和恢復(fù)方法。傳統(tǒng)方法不僅僅備份耗時(shí)太長,需要恢復(fù)的時(shí)間也難以接受,很多情況下即使有備份,恢復(fù)的成本也很高,不適合實(shí)際應(yīng)用。建議通過專門針對(duì)海量數(shù)據(jù)進(jìn)行數(shù)據(jù)歸檔的產(chǎn)品來進(jìn)行數(shù)據(jù)保護(hù)。具體實(shí)施案例:底層架構(gòu)采用的是Hadoop,小文件合并是采用Hadoop支持的Sequence File文件格式。 在存儲(chǔ)結(jié)構(gòu)上,Sequence File主要由一個(gè)Header后跟多條Record組成。每
10、個(gè)Record由一系列的二進(jìn)制key/value組成。我們的文件合并實(shí)現(xiàn)中,將key作為小文件名,value作為文件內(nèi)容。 合并文件后Hadoop 集群中寫入的過程主要通過Hadoop提供的API完成。最后,在做好非結(jié)構(gòu)化數(shù)據(jù)的管理和存儲(chǔ)后,就要考慮如何能夠充分利用非結(jié)構(gòu)化數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)挖掘價(jià)值。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的挖掘利用,著重關(guān)注以下兩個(gè)方面:1.非結(jié)構(gòu)化數(shù)據(jù)的清洗:非結(jié)構(gòu)化數(shù)據(jù)本身就很難被徹底清洗干凈,特別是存在海量的多維度性,有很多數(shù)據(jù)噪聲的干擾,這給清洗帶來了很大麻煩。而且,清洗過程中,也可能會(huì)丟失一些有價(jià)值的信息。2.非結(jié)構(gòu)化數(shù)據(jù)的融合分析:在非結(jié)構(gòu)化數(shù)據(jù)中,不同來源的數(shù)據(jù)從字段上應(yīng)該
11、具有互補(bǔ)性,這是進(jìn)行數(shù)據(jù)融合的入手點(diǎn)。接下來就是充分利用現(xiàn)有相應(yīng)大數(shù)據(jù)平臺(tái)的計(jì)算框架如Hadoop的Map-Reduce 框架構(gòu)建計(jì)算集群,對(duì)數(shù)據(jù)鍵/值對(duì)進(jìn)行分析計(jì)算。四、針對(duì)海量非結(jié)構(gòu)化數(shù)據(jù),其管理與優(yōu)化的難點(diǎn)除了“海量”,還存在數(shù)據(jù)“異構(gòu)”的問題,在本次活動(dòng)中,也圍繞了這一難點(diǎn)進(jìn)行了討論,會(huì)員也對(duì)此提供了“邏輯統(tǒng)一、物理分散”的建設(shè)思路:1.統(tǒng)一訪問入口:在統(tǒng)一訪問入口處根據(jù)客戶端提交的應(yīng)用程序信息返回客戶端后續(xù)和哪個(gè)存儲(chǔ)入口進(jìn)行訪問;2.各地建立緩存:由于非結(jié)構(gòu)化數(shù)據(jù)一般比較大,我們建立一個(gè)緩存服務(wù)器功能,比如業(yè)務(wù)上傳時(shí),將數(shù)據(jù)保存到緩存服務(wù)器,后續(xù)業(yè)務(wù)可以直接從就近的緩存服務(wù)器下載,非
12、結(jié)構(gòu)化的數(shù)據(jù)采用版本號(hào)增加的方式進(jìn)行管理,比如有一批文件中的一個(gè)文件發(fā)生變化,則只提交數(shù)據(jù)差就可以;3.多租戶資源隔離:每個(gè)業(yè)務(wù)系統(tǒng)根據(jù)不同的需要進(jìn)行不同存儲(chǔ)資源的使用,隔離資源;4.數(shù)據(jù)聲明周期管理:通過梳理業(yè)務(wù)需求對(duì)數(shù)據(jù)進(jìn)行生命周期管理,不同的數(shù)據(jù)在不同生命階段保存到不同的介質(zhì)中;五、非結(jié)構(gòu)化數(shù)據(jù)的安全性問題也是本次討論的熱點(diǎn)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)的安全性問題,總結(jié)了下面幾個(gè)方面值得關(guān)注:隱私保護(hù)方面,可以借助如Hive中的Kerberos身份 認(rèn)證機(jī)制來實(shí)現(xiàn)如角色的認(rèn)證、LDAP等安全策略等。訪問控制可以分為登錄訪問控制和數(shù)據(jù)查詢?cè)L問控制,通過設(shè)定約束閥值檢查用戶權(quán)限??梢园凑諗?shù)據(jù)生命周期進(jìn)行管理,分為熱數(shù)據(jù)、溫?cái)?shù)據(jù)和冷數(shù)據(jù),冷數(shù)據(jù)就不再有修改權(quán)限;這樣每次備份的就是熱數(shù)據(jù)和一點(diǎn)點(diǎn)需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋼結(jié)構(gòu)幕墻鋁合金配件應(yīng)用方案
- 雙向情感障礙題庫及答案
- 2026年快消品行業(yè)供應(yīng)鏈優(yōu)化面試題
- 2026年家電企業(yè)售后服務(wù)專員的培訓(xùn)與考核要點(diǎn)
- 企業(yè)內(nèi)部安全生產(chǎn)管理規(guī)范
- 2025年環(huán)保設(shè)施設(shè)計(jì)規(guī)范與建設(shè)手冊(cè)
- 園本培訓(xùn)作業(yè)制度
- 藝術(shù)培訓(xùn)中心不退費(fèi)制度
- 中學(xué)科研培訓(xùn)處制度
- 測繪培訓(xùn)考核制度
- 別人買房子給我合同范本
- 電力通信培訓(xùn)課件
- 鋼結(jié)構(gòu)防護(hù)棚工程施工方案
- 中建三局2024年項(xiàng)目經(jīng)理思維導(dǎo)圖
- 中國藥物性肝損傷診治指南(2024年版)解讀
- 基層黨建知識(shí)測試題及答案
- DG-TJ08-2021-2025 干混砌筑砂漿抗壓強(qiáng)度現(xiàn)場檢測技術(shù)標(biāo)準(zhǔn)
- 鼻竇炎的護(hù)理講課課件
- 腸系膜脂膜炎CT診斷
- 體外膜肺氧合技術(shù)ECMO培訓(xùn)課件
- 老年醫(yī)院重點(diǎn)??平ㄔO(shè)方案
評(píng)論
0/150
提交評(píng)論