什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了_第1頁
什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了_第2頁
什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了_第3頁
什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了_第4頁
什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了_第5頁
已閱讀5頁,還剩16頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

什么是時(shí)序數(shù)據(jù)?如何治理?有哪些應(yīng)用場(chǎng)景?終于有人講明白了前言時(shí)序數(shù)據(jù)治理是數(shù)據(jù)治理領(lǐng)域核心、打通IT與OT域數(shù)據(jù)鏈路,是工業(yè)物聯(lián)網(wǎng)基石、大數(shù)據(jù)價(jià)值創(chuàng)造的關(guān)鍵、企業(yè)管理提升的發(fā)動(dòng)機(jī)、是數(shù)字化轉(zhuǎn)型的重要支撐。

工業(yè)企業(yè)在生產(chǎn)經(jīng)營過程中,會(huì)運(yùn)用物聯(lián)網(wǎng)技術(shù),采集大量的數(shù)據(jù)并進(jìn)行實(shí)時(shí)處理,這些數(shù)據(jù)都是時(shí)序的,而且具有顯著的特點(diǎn),比如帶有時(shí)間戳、結(jié)構(gòu)化、沒有更新、數(shù)據(jù)源唯一等。

時(shí)序數(shù)據(jù)處理應(yīng)用于智慧城市、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)領(lǐng)域的過程數(shù)據(jù)采集、過程控制,并與過程管理建立一個(gè)數(shù)據(jù)鏈路,屬于工業(yè)數(shù)據(jù)治理的新興領(lǐng)域。

本文主要講解時(shí)序數(shù)據(jù)的定義、典型特點(diǎn)、時(shí)序數(shù)據(jù)的應(yīng)用場(chǎng)景、數(shù)采難點(diǎn)及時(shí)序數(shù)據(jù)工具等內(nèi)容。一時(shí)序數(shù)據(jù)的定義及作用時(shí)序數(shù)據(jù)是指時(shí)間序列數(shù)據(jù)。是按時(shí)間順序記錄的數(shù)據(jù)列,在同一數(shù)據(jù)列中的各個(gè)數(shù)據(jù)必須是同口徑的,要求具有可比性。時(shí)序數(shù)據(jù)可以是時(shí)期數(shù),也可以時(shí)點(diǎn)數(shù)。時(shí)序數(shù)據(jù)管理主要通過對(duì)時(shí)序數(shù)據(jù)的采集、處理和分析幫助企業(yè)實(shí)時(shí)監(jiān)控企業(yè)的生產(chǎn)與經(jīng)營過程。時(shí)序數(shù)據(jù)在應(yīng)用上特點(diǎn)也很明顯,比如數(shù)據(jù)往往只保留一定時(shí)長,需要做降頻采樣、插值、實(shí)時(shí)計(jì)算、聚合等操作,關(guān)心的是一段時(shí)間的趨勢(shì),而不是某一特定時(shí)間的值等。工業(yè)企業(yè)為了監(jiān)測(cè)設(shè)備、生產(chǎn)線以及整個(gè)系統(tǒng)的運(yùn)行狀態(tài),在各個(gè)關(guān)鍵點(diǎn)都配有傳感器、采集各種數(shù)據(jù)。這些數(shù)據(jù)是周期或準(zhǔn)周期產(chǎn)生的,有的采集頻率高,有的采集頻率低,這些采集的數(shù)據(jù)一般會(huì)發(fā)送至服務(wù)器,進(jìn)行匯總并實(shí)時(shí)處理,對(duì)系統(tǒng)的運(yùn)行做出實(shí)時(shí)監(jiān)測(cè)或預(yù)警。時(shí)序數(shù)據(jù)常常被長期保存下來,用以做離線數(shù)據(jù)分析,例如在工業(yè)企業(yè)應(yīng)用場(chǎng)景如下:1)分析故障,看主要的設(shè)備故障是什么;2)分析產(chǎn)能,看如何優(yōu)化配置來提升生產(chǎn)效率;3)分析能耗,看如何降低生產(chǎn)成本;4)分析潛在的安全隱患,以降低故障時(shí)長。二時(shí)序數(shù)據(jù)的十二大典型特點(diǎn)與各種信息管理系統(tǒng)的數(shù)據(jù)相比,工業(yè)領(lǐng)域的時(shí)序數(shù)據(jù)具有鮮明的特點(diǎn)。(1)數(shù)據(jù)是時(shí)序的,一定帶有時(shí)間戳:聯(lián)網(wǎng)的設(shè)備按照設(shè)定的周期,或受外部事件的觸發(fā),源源不斷地產(chǎn)生數(shù)據(jù),每個(gè)數(shù)據(jù)點(diǎn)是在哪個(gè)時(shí)間點(diǎn)產(chǎn)生的,這個(gè)時(shí)間對(duì)于數(shù)據(jù)的計(jì)算和分析十分重要,必須要記錄。

(2)數(shù)據(jù)是結(jié)構(gòu)化的:網(wǎng)絡(luò)爬蟲的數(shù)據(jù)、微博、微信的海量數(shù)據(jù)都是非結(jié)構(gòu)化的,可以是文字、圖片、視頻等。但物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)往往是結(jié)構(gòu)化的,而且是數(shù)值型的,比如智能電表采集的電流、電壓就可以用4字節(jié)的標(biāo)準(zhǔn)的浮點(diǎn)數(shù)來表示。

(3)數(shù)據(jù)極少有更新操作:聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)是機(jī)器日志數(shù)據(jù),一般不容許而且也沒有修改的必要。很少有場(chǎng)景,需要對(duì)采集的原始數(shù)據(jù)進(jìn)行修改。但對(duì)于一個(gè)典型的信息化或互聯(lián)網(wǎng)應(yīng)用,記錄是一定可以修改或刪除的。

(4)數(shù)據(jù)源是唯一的:一個(gè)物聯(lián)網(wǎng)設(shè)備采集的數(shù)據(jù)與另外一個(gè)設(shè)備采集的數(shù)據(jù)是完全獨(dú)立的。一臺(tái)設(shè)備的數(shù)據(jù)一定是這臺(tái)設(shè)備產(chǎn)生的,不可能是人工或其他設(shè)備產(chǎn)生的,也就是說一臺(tái)設(shè)備的數(shù)據(jù)只有一個(gè)生產(chǎn)者,數(shù)據(jù)源是唯一的。

(5)相對(duì)互聯(lián)網(wǎng)應(yīng)用,寫多讀少:對(duì)于互聯(lián)網(wǎng)應(yīng)用,一條數(shù)據(jù)記錄,往往是一次寫,很多次讀。比如一條微博或一篇微信公眾號(hào)文章,一次寫,但有可能會(huì)有上百萬人讀。但物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)不一樣,對(duì)于產(chǎn)生的數(shù)據(jù),一般是計(jì)算、分析程序自動(dòng)讀,而且計(jì)算、分析次數(shù)不多,只有分析事故等場(chǎng)景,人才會(huì)主動(dòng)看原始數(shù)據(jù)。

(6)用戶關(guān)注的是一段時(shí)間的趨勢(shì):對(duì)于一條銀行記錄,或者一條微博、微信,對(duì)于它的用戶而言,每一條都很重要。但對(duì)于物聯(lián)網(wǎng)數(shù)據(jù),每個(gè)數(shù)據(jù)點(diǎn)與數(shù)據(jù)點(diǎn)的變化并不大,一般是漸變的,大家關(guān)心的更多是一段時(shí)間,比如過去5分鐘,過去1小時(shí)數(shù)據(jù)變化的趨勢(shì),一般對(duì)某一特定時(shí)間點(diǎn)的數(shù)據(jù)值并不關(guān)注。

(7)數(shù)據(jù)是有保留期限的:采集的數(shù)據(jù)一般都有基于時(shí)長的保留策略,比如僅僅保留一天、一周、一個(gè)月、一年甚至更長時(shí)間,為節(jié)省存儲(chǔ)空間,系統(tǒng)最好能自動(dòng)刪除。

(8)數(shù)據(jù)的查詢分析往往是基于時(shí)間段和某一組設(shè)備的:對(duì)于物聯(lián)網(wǎng)數(shù)據(jù),在做計(jì)算和分析時(shí),一定是指定時(shí)間范圍的,不會(huì)只針對(duì)一個(gè)時(shí)間點(diǎn)或者整個(gè)歷史進(jìn)行。而且往往需要根據(jù)分析的維度,對(duì)物聯(lián)網(wǎng)設(shè)備的一個(gè)子集采集的數(shù)據(jù)進(jìn)行分析,比如某個(gè)地理區(qū)域的設(shè)備,某個(gè)型號(hào)、某個(gè)批次的設(shè)備,某個(gè)廠商的設(shè)備。等等。

(9)除存儲(chǔ)查詢外,往往需要實(shí)時(shí)分析計(jì)算操作:對(duì)于大部分互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用,更多的是離線分析,即使有實(shí)時(shí)分析,但實(shí)時(shí)分析的要求并不高。比如用戶畫像,可以在積累一定的用戶行為數(shù)據(jù)后進(jìn)行。但是對(duì)于物聯(lián)網(wǎng)應(yīng)用,對(duì)數(shù)據(jù)的實(shí)時(shí)計(jì)算要求往往很高,因?yàn)樾枰鶕?jù)計(jì)算結(jié)果進(jìn)行實(shí)時(shí)報(bào)警,以避免事故的發(fā)生。

(10)流量平穩(wěn)、可預(yù)測(cè):給定物聯(lián)網(wǎng)數(shù)量、數(shù)據(jù)采集頻次,就可以較為準(zhǔn)確地估算出所需要的帶寬和流量、每天新生成的數(shù)據(jù)大小。

(11)數(shù)據(jù)處理的特殊性:與典型的互聯(lián)網(wǎng)相比,還有不一樣的數(shù)據(jù)處理需求。比如要檢查某個(gè)具體時(shí)間的設(shè)備采集的某個(gè)量,但傳感器實(shí)際采集的時(shí)間不是這個(gè)時(shí)間點(diǎn),這時(shí)往往需要做插值處理。還有很多場(chǎng)景需要基于采集量進(jìn)行復(fù)雜的數(shù)學(xué)函數(shù)計(jì)算。

(12)數(shù)據(jù)量巨大:以智能電表為例,一臺(tái)智能電表每隔15分鐘采集一次數(shù)據(jù),每天自動(dòng)生成96條記錄,全國就有接近5億臺(tái)智能電表,每天生成近500億條記錄。一臺(tái)聯(lián)網(wǎng)的汽車每隔10到15秒就采集一次數(shù)據(jù)發(fā)送到云端,一臺(tái)汽車一天就很容易產(chǎn)生1000條記錄。如果中國2億輛車全部聯(lián)網(wǎng),那么每天將產(chǎn)生2000億條記錄。5年之內(nèi),物聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù)將占世界數(shù)據(jù)總量的90%以上。三通用大數(shù)據(jù)處理工具在時(shí)序數(shù)據(jù)場(chǎng)景的三大挑戰(zhàn)從工具維度看,時(shí)序數(shù)據(jù)處理工具與傳統(tǒng)時(shí)序數(shù)據(jù)庫的差異很大。后者局限于車間級(jí)的可編程邏輯控制器,而非企業(yè)級(jí)。企業(yè)級(jí)的時(shí)序數(shù)據(jù)處理,首先是基于數(shù)據(jù)架構(gòu)和數(shù)據(jù)模型的。

數(shù)據(jù)架構(gòu)決定哪些時(shí)序數(shù)據(jù)需要采集,如何處理,用于哪些業(yè)務(wù)場(chǎng)景,用于時(shí)序數(shù)據(jù)采集的規(guī)劃與設(shè)計(jì)開發(fā);數(shù)據(jù)模型用于解析時(shí)序數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)。

在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)興起之后,大家都想用通用的大數(shù)據(jù)平臺(tái)來處理其中的數(shù)據(jù)?,F(xiàn)在市場(chǎng)上流行的物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等大數(shù)據(jù)平臺(tái)幾乎無一例外都是這類架構(gòu),但這套通用處理工具的效果如何?可以說有很多不足,主要表現(xiàn)在以下幾個(gè)方面:

數(shù)字化工廠產(chǎn)生的時(shí)序數(shù)據(jù)量是巨大的,處理它有相當(dāng)?shù)募夹g(shù)挑戰(zhàn)。以數(shù)控機(jī)床加工生產(chǎn)為例,由于工業(yè)行業(yè)的要求,需要將包括報(bào)警在內(nèi)的各種工況數(shù)據(jù)存儲(chǔ)起來。假設(shè)企業(yè)每個(gè)廠區(qū)具有2000個(gè)監(jiān)測(cè)點(diǎn),5秒一個(gè)采集周期,全國一共200個(gè)廠區(qū)。這樣粗略估算起來每年將產(chǎn)生驚人的幾十萬億個(gè)數(shù)據(jù)點(diǎn)。假設(shè)每個(gè)點(diǎn)0.5KB,數(shù)據(jù)總量將達(dá)PB級(jí)別(如果每臺(tái)服務(wù)器的硬盤容量是10TB,那么總共需要100多臺(tái)服務(wù)器)。這些數(shù)據(jù)不僅要實(shí)時(shí)生成,寫入存儲(chǔ),還要支持快速查詢,實(shí)現(xiàn)可視化的展示,幫助管理者分析決策;并且也能夠用來做大數(shù)據(jù)分析,發(fā)現(xiàn)深層次的問題,幫助企業(yè)節(jié)能減排,增加效益。這樣看來,需要解決的關(guān)鍵技術(shù)問題如下。通用大數(shù)據(jù)處理工具在時(shí)序數(shù)據(jù)場(chǎng)景的挑戰(zhàn)傳統(tǒng)的數(shù)據(jù)采集體系面臨著數(shù)據(jù)質(zhì)量差、查詢速度慢、缺少實(shí)時(shí)智能分析等問題。(1)高并發(fā)、高吞吐量的寫入能力:如何支持每秒鐘上千萬數(shù)據(jù)點(diǎn)的寫入,這是最關(guān)鍵的技術(shù)能力。(2)數(shù)據(jù)高速聚合:如何支持以秒級(jí)的速度對(duì)上億數(shù)據(jù)進(jìn)行分組聚合運(yùn)算,如何能高效地在大數(shù)據(jù)量的基礎(chǔ)上將滿足條件的原始數(shù)據(jù)查詢出來并聚合,要知道統(tǒng)計(jì)的原始值可能因?yàn)闀r(shí)間比較久遠(yuǎn)而不在內(nèi)存中,因此這可能是一個(gè)非常耗時(shí)的操作。(3)降低存儲(chǔ)成本:如何降低海量數(shù)據(jù)存儲(chǔ)的成本,這需要時(shí)序數(shù)據(jù)庫提供高壓縮率。(4)多維度的查詢能力:時(shí)序數(shù)據(jù)通常會(huì)有多個(gè)維度的標(biāo)簽來刻畫一條數(shù)據(jù),如何根據(jù)幾個(gè)維度進(jìn)行高效查詢就是必須要解決的一個(gè)問題。四時(shí)序數(shù)據(jù)應(yīng)用場(chǎng)景時(shí)序數(shù)據(jù)在各行各業(yè)有著廣泛應(yīng)用的,例如在電力行業(yè)智能電表、電網(wǎng)發(fā)電設(shè)備集中監(jiān)測(cè);在石油化工行業(yè)油井、運(yùn)輸管線運(yùn)輸車隊(duì)的實(shí)時(shí)監(jiān)測(cè);在園區(qū),在智慧城市實(shí)時(shí)路況、卡口數(shù)據(jù)路口流量監(jiān)測(cè),在金融行業(yè)交易記錄、存取記錄ATM、POS機(jī)監(jiān)測(cè),智能安防(樓宇門禁、車輛管理、井蓋、電子圍欄)、應(yīng)急響應(yīng)(消防、人群聚集、?;贰⒔Y(jié)構(gòu)健康、電梯)等。時(shí)序數(shù)據(jù)在各行業(yè)應(yīng)用場(chǎng)景1、智慧城市、能源行業(yè)智能應(yīng)急指揮和融合通信調(diào)度智慧城市、智慧工廠智能應(yīng)急指揮和融合通信指揮調(diào)度方案是采用數(shù)字化BIM+GIS+NBIOT+AI+5G+算法技術(shù),圍繞監(jiān)控、指揮、調(diào)度、會(huì)議、通訊等多種功能合一的可視化指揮調(diào)度方案。在突發(fā)事件預(yù)警、上報(bào)、響應(yīng)、指揮等各個(gè)環(huán)節(jié)實(shí)現(xiàn)及時(shí)有效的可視化指揮,滿足突發(fā)事件現(xiàn)場(chǎng)實(shí)時(shí)圖像傳送和視頻會(huì)商的快速響應(yīng)需求。應(yīng)急指揮和融合通信指揮調(diào)度方案2、園區(qū)智能巡檢和安防在各種園區(qū)日常巡檢、隱患上報(bào)、三維地圖以及融合調(diào)度上有很多應(yīng)用場(chǎng)景。設(shè)備管理運(yùn)行狀態(tài)、HSE風(fēng)險(xiǎn)等級(jí)、工藝流程、過程控制運(yùn)行參數(shù)等檢修情況各類業(yè)務(wù)現(xiàn)場(chǎng)及管理實(shí)時(shí)數(shù)據(jù)及信息的直觀展示,及時(shí)發(fā)現(xiàn)問題,分析原因,提出整改建議,并貫徹執(zhí)行。智能巡檢和安防應(yīng)用場(chǎng)景可燃?xì)怏w、煙霧、電氣火災(zāi)全方位監(jiān)控;火災(zāi)感應(yīng)、視頻監(jiān)控、消防水全鏈路聯(lián)動(dòng);起火、報(bào)警、疏散、滅火全流程覆蓋。設(shè)施全域物聯(lián),安全數(shù)據(jù)說話3、能源行業(yè)設(shè)備智能運(yùn)維物聯(lián)網(wǎng)平臺(tái)還可被應(yīng)用于對(duì)海量設(shè)備終端的統(tǒng)一管理與運(yùn)維,對(duì)設(shè)備的狀態(tài)進(jìn)行在線監(jiān)測(cè)與診斷,并及時(shí)進(jìn)行故障預(yù)警。還可以通過多維圖表展示運(yùn)維數(shù)據(jù)等。設(shè)備智能運(yùn)維五時(shí)序數(shù)據(jù)處理工具(系統(tǒng))需要具備哪些功能?與通用的大數(shù)據(jù)處理工具相比,它具備什么樣的特點(diǎn)呢?物聯(lián)網(wǎng)平臺(tái)與大數(shù)據(jù)平臺(tái)關(guān)系覆蓋云、管、邊、端的全景式能力矩陣時(shí)序數(shù)據(jù)流向圖從數(shù)據(jù)采集到應(yīng)用的端到端物聯(lián)網(wǎng)平臺(tái)1、必須是高效的分布式系統(tǒng)工業(yè)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量巨大,比如,全國有5億多臺(tái)智能電表,每臺(tái)智能電表每隔15分鐘采集一次數(shù)據(jù),全國的智能電表一天就會(huì)產(chǎn)生500多億條記錄。這么大的數(shù)據(jù)量,任何一臺(tái)服務(wù)器都無法處理,因此時(shí)序數(shù)據(jù)處理系統(tǒng)必須是分布式的、水平擴(kuò)展的。為降低成本,一個(gè)節(jié)點(diǎn)的處理性能必須是高效的,需要支持?jǐn)?shù)據(jù)的快速寫入和快速查詢功能。

2、必須是實(shí)時(shí)的處理系統(tǒng)對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用場(chǎng)景,大家所熟悉的都是用戶畫像、推薦系統(tǒng)、輿情分析等,這些場(chǎng)景并不需要數(shù)據(jù)計(jì)算具有實(shí)時(shí)性,批處理即可。但是對(duì)于工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用場(chǎng)景,則需要基于采集的數(shù)據(jù)做實(shí)時(shí)預(yù)警、決策,延時(shí)要控制在秒級(jí)以內(nèi)。如果沒有實(shí)時(shí)計(jì)算,則其商業(yè)價(jià)值就大打折扣。

3、需要運(yùn)營商級(jí)別的高可靠服務(wù)工業(yè)互聯(lián)網(wǎng)系統(tǒng)對(duì)接的往往是生產(chǎn)、經(jīng)營系統(tǒng),如果數(shù)據(jù)處理系統(tǒng)宕機(jī),則會(huì)直接導(dǎo)致停產(chǎn),無法對(duì)終端消費(fèi)者正常提供服務(wù)。因此,時(shí)序數(shù)據(jù)處理系統(tǒng)必須是高可靠的,必須支持?jǐn)?shù)據(jù)實(shí)時(shí)備份,必須支持異地容災(zāi),必須支持軟件、硬件在線升級(jí),必須支持在線IDC機(jī)房遷移,否則服務(wù)一定有被中斷的可能。

4、需要高效的緩存功能

在絕大部分場(chǎng)景中,都需要能快速獲取設(shè)備當(dāng)前狀態(tài)或其他信息,用以報(bào)警、大屏展示等。時(shí)充數(shù)據(jù)處理系統(tǒng)需要提供高效機(jī)制,讓用戶可以獲取全部或符合過濾條件的部分設(shè)備的最新狀態(tài)。

5、需要實(shí)時(shí)流式計(jì)算

各種實(shí)時(shí)預(yù)警或預(yù)測(cè)已經(jīng)不是簡單地基于某一個(gè)閾值進(jìn)行的,而是需要通過將一個(gè)或多個(gè)設(shè)備產(chǎn)生的數(shù)據(jù)流進(jìn)行實(shí)時(shí)聚合計(jì)算(并且不只是基于一個(gè)時(shí)間點(diǎn),而是基于一個(gè)時(shí)間窗口進(jìn)行計(jì)算)。不僅如此,計(jì)算的需求也相當(dāng)復(fù)雜,因場(chǎng)景而異,應(yīng)容許用戶自定義函數(shù)進(jìn)行計(jì)算。

6、需要支持?jǐn)?shù)據(jù)訂閱

時(shí)序數(shù)據(jù)處理系統(tǒng)與通用大數(shù)據(jù)平臺(tái)比較一致的地方是,同一組數(shù)據(jù)往往有很多應(yīng)用都需要,因此,時(shí)序數(shù)據(jù)處理系統(tǒng)應(yīng)該提供訂閱功能:只要有新的數(shù)據(jù)更新,就應(yīng)該實(shí)時(shí)提醒應(yīng)用。而且這個(gè)訂閱也應(yīng)該是個(gè)性化的,容許應(yīng)用設(shè)置過濾條件,比如只訂閱某個(gè)物理量5分鐘的平均值。

7、實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)的處理要合二為一實(shí)時(shí)數(shù)據(jù)被存儲(chǔ)在緩存里,歷史數(shù)據(jù)被存儲(chǔ)在持久化存儲(chǔ)介質(zhì)里,而且可能依據(jù)時(shí)長,被存儲(chǔ)在不同的存儲(chǔ)介質(zhì)里。時(shí)序數(shù)據(jù)處理系統(tǒng)應(yīng)該隱藏背后的存儲(chǔ)介質(zhì),給用戶和應(yīng)用呈現(xiàn)的是同一個(gè)接口和界面。無論是訪問新采集的數(shù)據(jù)還是10年前的老數(shù)據(jù),除輸入的時(shí)間參數(shù)不同外,其余都應(yīng)該是一樣的。

8、需要保證數(shù)據(jù)能持續(xù)、穩(wěn)定地寫入對(duì)于物聯(lián)網(wǎng)系統(tǒng),數(shù)據(jù)流量往往是平穩(wěn)的,因此數(shù)據(jù)寫入所需要的資源往往是可以估算的。其中變化的是查詢、分析,特別是即席查詢,有可能耗費(fèi)很多的系統(tǒng)資源,不可控。因此,時(shí)序數(shù)據(jù)處理系統(tǒng)必須保證分配足夠的資源以確保數(shù)據(jù)能夠?qū)懭胂到y(tǒng)而不被丟失。準(zhǔn)確地說,時(shí)序數(shù)據(jù)處理系統(tǒng)必須是一個(gè)寫優(yōu)先系統(tǒng)。

9、需要支持靈活的多維度數(shù)據(jù)分析

對(duì)于聯(lián)網(wǎng)設(shè)備產(chǎn)生的數(shù)據(jù),需要進(jìn)行各種維度的統(tǒng)計(jì)分析,比如根據(jù)設(shè)備所處的地域進(jìn)行分析,根據(jù)設(shè)備的型號(hào)、供應(yīng)商進(jìn)行分析,根據(jù)設(shè)備所使用的人員進(jìn)行分析等。這些維度的分析是無法事先設(shè)計(jì)好的,而是在實(shí)際運(yùn)營過程中,根據(jù)業(yè)務(wù)發(fā)展需求定下來的。因此,工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)需要一個(gè)靈活的機(jī)制來增加某個(gè)維度的分析。

10、需要支持?jǐn)?shù)據(jù)降頻、插值、特殊函數(shù)計(jì)算等操作

原始數(shù)據(jù)的采集可能頻次較高,但在具體分析時(shí),往往不需要對(duì)原始數(shù)據(jù)進(jìn)行分析,而是需要對(duì)數(shù)據(jù)進(jìn)行降頻。時(shí)序數(shù)據(jù)處理系統(tǒng)需要提供高效的數(shù)據(jù)降頻操作。不同設(shè)備采集數(shù)據(jù)的時(shí)間點(diǎn)是很難一致的,因此,分析一個(gè)特定時(shí)間點(diǎn)的值,往往需要插值才能解決,系統(tǒng)需要提供線性插值、設(shè)置固定值等多種插值策略。

11、需要支持即席分析和查詢

為提高數(shù)據(jù)分析師的工作效率,時(shí)序數(shù)據(jù)處理系統(tǒng)應(yīng)該提供命令行工具或容許用戶通過其他工具,執(zhí)行SQL查詢,而不是非要通過編程接口。并且查詢分析結(jié)果可以很方便地被導(dǎo)出,以及被制作成各種圖表。

12、需要提供靈活的數(shù)據(jù)管理策略

一個(gè)大的系統(tǒng),其中采集的數(shù)據(jù)種類繁多,而且除采集的原始數(shù)據(jù)外,還有大量的衍生數(shù)據(jù)。這些數(shù)據(jù)各自有不同的特點(diǎn),有的采集頻次高,有的要求保留時(shí)間長,有的需要保存多個(gè)副本以保證更高的安全性,有的需要能快速訪問。因此,工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)平臺(tái)必須提供多種策略,讓用戶可以根據(jù)特點(diǎn)進(jìn)行選擇和配置,而且各種策略并存。

13、必須是開放的

時(shí)序數(shù)據(jù)處理系統(tǒng)需要支持業(yè)界流行的標(biāo)準(zhǔn),提供各種語言開發(fā)接口,包括C/C++、Java、Go、Python、RESTful等,也需要支持Spark、R、MATLAB等,方便集成各種機(jī)器學(xué)習(xí)、人工智能算法或其他應(yīng)用,讓大數(shù)據(jù)處理平臺(tái)能夠不斷擴(kuò)展,而不是成為一個(gè)數(shù)據(jù)孤島。

14、必須支持異構(gòu)環(huán)境

大數(shù)據(jù)平臺(tái)的搭建是一個(gè)長期工作,每個(gè)批次采購的服務(wù)器和存儲(chǔ)設(shè)備都會(huì)不一樣,時(shí)序數(shù)據(jù)處理系統(tǒng)必須支持各種檔次、各種不同配置的服務(wù)器和存儲(chǔ)設(shè)備并存。

15、需要支持邊云協(xié)同

時(shí)序數(shù)據(jù)處理系統(tǒng)要有一套靈活的機(jī)制將邊緣計(jì)算節(jié)點(diǎn)的數(shù)據(jù)上傳到云端,根據(jù)具體需要,可以將原始數(shù)據(jù)、加工計(jì)算后的數(shù)據(jù),或僅僅符合過濾條件的數(shù)據(jù)同步到云端,并且同步可以隨時(shí)取消,同步策略可以隨時(shí)修改。

16、需要單一的后臺(tái)管理系統(tǒng)單一的后臺(tái)管理系統(tǒng)便于查看系統(tǒng)運(yùn)行狀態(tài)、管理集群、管理用戶、管理各種系統(tǒng)資源等,而且能讓系統(tǒng)與第三方IT運(yùn)維監(jiān)測(cè)平臺(tái)無縫集成,便于統(tǒng)一管理和維護(hù)。

17、便于私有化部署

因?yàn)楹芏嗥髽I(yè)出于安全及各種因素的考慮,希望時(shí)序數(shù)據(jù)處理系統(tǒng)采用私有化部署。而傳統(tǒng)的企業(yè)往往沒有很強(qiáng)的IT運(yùn)維團(tuán)隊(duì),因此在時(shí)序數(shù)據(jù)處理系統(tǒng)安裝、部署上需要做到簡單、快捷,可維護(hù)性強(qiáng)。六時(shí)序數(shù)據(jù)的采集難點(diǎn)分析時(shí)序數(shù)據(jù)的采集一般都是通過傳感器自動(dòng)進(jìn)行的,包括光電、熱敏、氣敏、力敏、磁敏、聲敏、濕敏、電量等不同類別的工業(yè)傳感器。就某一個(gè)具體的物理量而言,數(shù)據(jù)采集是很容易的。但就整個(gè)系統(tǒng)而言,數(shù)據(jù)采集是相當(dāng)復(fù)雜的,具體表現(xiàn)在以下幾個(gè)方面:

1、工業(yè)數(shù)據(jù)的協(xié)議不標(biāo)準(zhǔn)在現(xiàn)實(shí)場(chǎng)景中,往往會(huì)出現(xiàn)ModBus、OPC、CAN、ControlNet、Profibus、MQTT等各種類型的工業(yè)協(xié)議,而且各個(gè)自動(dòng)化設(shè)備生產(chǎn)及集成商還會(huì)自己開發(fā)各種私有的工業(yè)協(xié)議,導(dǎo)致在實(shí)現(xiàn)工業(yè)協(xié)議的互聯(lián)互通時(shí)出現(xiàn)極大的難度。很多開發(fā)人員在工業(yè)現(xiàn)場(chǎng)實(shí)施綜合自動(dòng)化等項(xiàng)目時(shí),遇到的最大問題即是面對(duì)眾多的工業(yè)協(xié)議,無法有效地進(jìn)行解析和采集數(shù)據(jù)。

2、通信方式不統(tǒng)一由于歷史原因,采集的數(shù)據(jù)往往會(huì)通過局域網(wǎng)、藍(lán)牙、Wi-Fi、2.5G、3G、4G等各種傳輸方式被傳送到服務(wù)器中,導(dǎo)致各種通信方式并行存在,連接管理變得復(fù)雜。

3、對(duì)現(xiàn)有MES系統(tǒng)的數(shù)據(jù)獲取難度大在工業(yè)企業(yè)實(shí)施大數(shù)據(jù)項(xiàng)目時(shí),數(shù)據(jù)采集往往不是針對(duì)傳感器或者PLC,而是從已經(jīng)完成部署的MES系統(tǒng)獲取。這些系統(tǒng)在部署時(shí)廠商水平參差不齊,大部分系統(tǒng)是沒有數(shù)據(jù)接口的,文檔也大量缺失,大量的現(xiàn)場(chǎng)系統(tǒng)沒有點(diǎn)表等基礎(chǔ)設(shè)置數(shù)據(jù),使得對(duì)于這部分?jǐn)?shù)據(jù)采集的難度極大。

4、安全性考慮不足傳統(tǒng)的工業(yè)系統(tǒng)都運(yùn)行在局域網(wǎng)中,安全問題不是考慮的重點(diǎn)。若需要通過云端(特別是公有云)調(diào)度工業(yè)行業(yè)中核心的生產(chǎn)數(shù)據(jù),又沒有充分考慮安全問題,則很有可能造成難以彌補(bǔ)的損失。

根據(jù)上述原因,企業(yè)在實(shí)際采集數(shù)據(jù)時(shí),往往配有工業(yè)互聯(lián)網(wǎng)網(wǎng)關(guān)盒子,該盒子支持各種物理接口、通信協(xié)議和工業(yè)標(biāo)準(zhǔn)協(xié)議,將不同協(xié)議進(jìn)行轉(zhuǎn)換,對(duì)數(shù)據(jù)進(jìn)行安全加密,統(tǒng)一以MQTT(MessageQueuingTelemetryTransport,ISO/IECPRF20922)協(xié)議或其他協(xié)議發(fā)往云端。

對(duì)于數(shù)據(jù)采集部分,因?yàn)闃?biāo)準(zhǔn)性不夠,就不對(duì)具體工具做介紹了。七時(shí)序數(shù)據(jù)處理流行工具采集后的數(shù)據(jù)一般通過網(wǎng)絡(luò)被送往服務(wù)器或云端進(jìn)行處理。相對(duì)數(shù)據(jù)采集工具而言,數(shù)據(jù)處理工具比較統(tǒng)一,下面對(duì)幾個(gè)流行的工具進(jìn)行介紹。1、以PI為代表的實(shí)時(shí)數(shù)據(jù)庫從20世紀(jì)80年代起,就涌現(xiàn)一批實(shí)時(shí)數(shù)據(jù)庫(時(shí)序數(shù)據(jù)庫的一種),專門用于處理工業(yè)自動(dòng)控制或流程制造行業(yè)的實(shí)時(shí)數(shù)據(jù)。其中美國OSIsoft公司的PI(PlantInformation)實(shí)時(shí)數(shù)據(jù)庫最典型,它提供成套的工具,包括實(shí)時(shí)寫入、實(shí)時(shí)計(jì)算、存儲(chǔ)、分析、可視化、報(bào)警等系列功能,GE、Simens、Honeywell都有類似產(chǎn)品。國內(nèi)有庚頓、朗坤、麥杰、力控等產(chǎn)品。這些產(chǎn)品在一定程度上滿足了工業(yè)數(shù)據(jù)處理的需求,但在測(cè)點(diǎn)數(shù)量暴漲、數(shù)據(jù)采集頻率不斷提高的大數(shù)據(jù)時(shí)代,傳統(tǒng)實(shí)時(shí)數(shù)據(jù)庫暴露出以下問題:1)沒有水平擴(kuò)展能力,數(shù)據(jù)量增加,只能依靠硬件的縱向擴(kuò)展解決。2)技術(shù)架構(gòu)老舊,很多還是運(yùn)行于Windows系統(tǒng)中的。3)數(shù)據(jù)分析能力偏弱,不支持現(xiàn)在流行的各種數(shù)據(jù)分析接口。4)不支持云端部署,更不支持SaaS。5)在傳統(tǒng)的實(shí)時(shí)監(jiān)控場(chǎng)景,由于對(duì)各種工業(yè)協(xié)議的支持比較完善,實(shí)時(shí)數(shù)據(jù)庫還占有較牢固的市場(chǎng)地位,但是在工業(yè)大數(shù)據(jù)處理上,因?yàn)樯鲜鰩讉€(gè)原因,幾乎沒有任何大數(shù)據(jù)平臺(tái)采用它們。下面對(duì)幾個(gè)典型的實(shí)時(shí)數(shù)據(jù)庫進(jìn)行介紹。1、InfluxDBInfluxDB由Golang語言編寫,也是由Golang編寫的軟件中比較著名的一個(gè),在很多Golang的沙龍或者文章中可能都會(huì)把InfluxDB當(dāng)標(biāo)桿來介紹,這也間接幫助InfluxDB提高了知名度。InfluxDB的主要特點(diǎn)包括:schemaless(無結(jié)構(gòu)),可以是任意數(shù)量的列可擴(kuò)展(集群)方便、強(qiáng)大的查詢語言NativeHTTPAPI集成了數(shù)據(jù)采集、存儲(chǔ)、可視化功能實(shí)時(shí)數(shù)據(jù)Downsampling高效存儲(chǔ),使用高壓縮比算法,支持retentionpolices數(shù)據(jù)采集支持多種協(xié)議和插件:行文本、UDP、Graphite、CollectD、OpenTSDBInfluxDB是時(shí)序數(shù)據(jù)庫中為數(shù)不多的進(jìn)行了用戶和角色方面實(shí)現(xiàn)的,提供了ClusterAdmin、DatabaseAdmin和DatabaseUser三種角色。

2、GraphiteGraphite是分布式時(shí)序列數(shù)據(jù)存儲(chǔ)數(shù)據(jù)庫,容易擴(kuò)展,具備功能強(qiáng)大的畫圖WebAPI,提供了大量的函數(shù)和輸出方式。主要功能包括:存儲(chǔ)數(shù)值型時(shí)序列數(shù)據(jù)根據(jù)請(qǐng)求對(duì)數(shù)據(jù)進(jìn)行可視化(畫圖)Graphite本身不帶數(shù)據(jù)采集功能,但是你可以選擇很多第三方插件,比如適用于collectd、Ganglia或Sensu的插件等。同時(shí),Graphite也支持Plaintext、Pickle和AMQP這些數(shù)據(jù)輸入方式。

Graphite使用了類似RRDtool的RRD文件格式,它也不像C/S結(jié)構(gòu)的軟件一樣,沒有服務(wù)進(jìn)程,只是作為Pythonlibrary使用,提供對(duì)數(shù)據(jù)的create/update/fetch操作。Google、Etsy、GitHub、豆瓣、Instagram、Evernote和Uber等很多知名公司都是Graphite的用戶。

3、OpenTSDB這是一個(gè)Apache開源軟件,是在HBase的基礎(chǔ)上開發(fā)的,底層存儲(chǔ)是HBase,但其依據(jù)時(shí)序數(shù)據(jù)的特點(diǎn)做了一些優(yōu)化。其最大的好處就是建立在Hadoop體系上,各種工具鏈成熟,但這也是它最大的缺點(diǎn),因?yàn)镠adoop不是為時(shí)序數(shù)據(jù)打造的,導(dǎo)致其性能很一般,而且需要依賴很多組件,安裝部署相當(dāng)復(fù)雜。

OpenTSDB采用Schemaless模式,不用預(yù)先定義數(shù)據(jù)結(jié)構(gòu),因此寫入靈活,但每個(gè)時(shí)間序列只能寫入一個(gè)采集量,不支持多列寫入。每個(gè)序列可以被打上多個(gè)標(biāo)簽,以方便聚合操作。總的來講,OpenTSD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論