大數(shù)據(jù)架構(gòu)和模式 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介梳理_第1頁(yè)
大數(shù)據(jù)架構(gòu)和模式 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介梳理_第2頁(yè)
大數(shù)據(jù)架構(gòu)和模式 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介梳理_第3頁(yè)
大數(shù)據(jù)架構(gòu)和模式 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介梳理_第4頁(yè)
大數(shù)據(jù)架構(gòu)和模式 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介梳理_第5頁(yè)
已閱讀5頁(yè),還剩37頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)架構(gòu)和模式(一):大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介

L本文對(duì)大數(shù)據(jù)做了哪些分類?

2.對(duì)數(shù)據(jù)進(jìn)行分類后,如何將它與合適的大數(shù)據(jù)模式匹配?

如何將大數(shù)據(jù)分為不同的類別

大數(shù)據(jù)問題的分析和解決通常很復(fù)雜。大數(shù)據(jù)的量、速度和種類使得提取信息和獲得業(yè)務(wù)洞

察變得很困難。以下操作是一個(gè)良好的開端:依據(jù)必須處理的數(shù)據(jù)的格式、要應(yīng)用的分析類

型、使用的處理技術(shù),以及目標(biāo)系統(tǒng)需要獲取、加載、處理、分析和存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)源,對(duì)

大數(shù)據(jù)問題進(jìn)行分類。

概述

大數(shù)據(jù)可通過許多方式來(lái)存儲(chǔ)、獲取、處理和分析。每個(gè)大數(shù)據(jù)來(lái)源都有不同的特征,包括

數(shù)據(jù)的頻率、量、速度、類型和真實(shí)性。處理并存儲(chǔ)大數(shù)據(jù)時(shí),會(huì)涉及到更多維度,比如治

理、安全性和策略。選擇一種架構(gòu)并構(gòu)建合適的大數(shù)據(jù)解決方案極具挑戰(zhàn),因?yàn)樾枰紤]非

常多的因素。

這個(gè)''大數(shù)據(jù)架構(gòu)和模式”系列提供了一種結(jié)構(gòu)化和基干模式的方法來(lái)簡(jiǎn)化定義完整的大

數(shù)據(jù)架構(gòu)的任務(wù)。因?yàn)樵u(píng)估一個(gè)業(yè)務(wù)場(chǎng)景是否存在大數(shù)據(jù)問題很重要,所以我們包含了一些

線索來(lái)幫助確定哪些業(yè)務(wù)問題適合采用大數(shù)據(jù)解決方案,

從分類大數(shù)據(jù)到選擇大數(shù)據(jù)解決方案

如果您花時(shí)間研究過大數(shù)據(jù)解決方案,那么您一定知道它不是一個(gè)簡(jiǎn)單的任務(wù)。本系列將介

紹查找滿足您需求的大數(shù)據(jù)解決方案所涉及的主要步驟.

我們首先介紹術(shù)語(yǔ)''大數(shù)據(jù)〃所描述的數(shù)據(jù)類型。為了簡(jiǎn)化各種大數(shù)據(jù)類型的狂雜性,我們

依據(jù)各種參數(shù)對(duì)大數(shù)據(jù)進(jìn)行了分類,為任何大數(shù)據(jù)解決方案中涉及的各層和高級(jí)組件提供一

個(gè)邏輯架構(gòu)。接下來(lái),我們通過定義原子和復(fù)合分類模式,提出一種結(jié)構(gòu)來(lái)分類大數(shù)據(jù)業(yè)務(wù)

問題。這些模式有助于確定要應(yīng)用的合適的解決方案模式。我們提供了來(lái)自各行各業(yè)的示例

業(yè)務(wù)問題。最后,對(duì)于每個(gè)組件和模式,我們給出了提供了相關(guān)功能的產(chǎn)品。

第1部分將介紹如何對(duì)大數(shù)據(jù)進(jìn)行分類。本系列的后續(xù)文章將介紹以下主題:

?定義大數(shù)據(jù)解決方案的各層和組件的邏輯架構(gòu)

?理解大數(shù)據(jù)解決方案的原子模式

?理解用于大數(shù)據(jù)解決方案的復(fù)合(或混合)模式

?為大數(shù)據(jù)解決方案選擇一種解決方案模式

?確定使用一-個(gè)大數(shù)據(jù)解決方案解決一個(gè)業(yè)務(wù)問題的可行性

?選擇正確的產(chǎn)品來(lái)實(shí)現(xiàn)大數(shù)據(jù)解決方案

依據(jù)大數(shù)據(jù)類型對(duì)業(yè)務(wù)問題進(jìn)行分類

.業(yè)務(wù)問題可分類為不同的大數(shù)據(jù)問題類型。以后,我們將受用此類型確定合適的分類模式(原

子或復(fù)合)和合適的大數(shù)據(jù)解決方案。但第一步是將業(yè)務(wù)問題映射到它的大數(shù)據(jù)類型。下表

列出了常見的業(yè)務(wù)問題并為每個(gè)問題分配了一種大數(shù)據(jù)類型。

按類型對(duì)大數(shù)據(jù)問題分類,更容易看到每種數(shù)據(jù)的特征。這些特征可幫助我們了解如何獲取

數(shù)據(jù),如何將它處理為合適的格式,以及新數(shù)據(jù)出現(xiàn)的頻率。來(lái)自不同來(lái)源的數(shù)據(jù)具有不同

的特征;例如,社交媒體數(shù)據(jù)包含不斷傳入的視頻、圖像和非結(jié)構(gòu)化文本(比如博客文章)。

表1.不同類型的大數(shù)據(jù)業(yè)務(wù)問題

業(yè)務(wù)問題大數(shù)據(jù)問題描述

公用事業(yè)公司推出了智琴儀表,按每小時(shí)或更短的間隔定期測(cè)量水、天然氣

和電力的消耗。這些智慧儀表生成了需要分析的大量間隔數(shù)據(jù).

公用事業(yè):預(yù)測(cè)

機(jī)器生成的行公用事業(yè)公司還運(yùn)行著昂貴而又舞雜的大型系統(tǒng)來(lái)發(fā)電。每個(gè)電網(wǎng)包含監(jiān)視

功耗電壓、電流、頻率和其他重要操作特征的復(fù)雜傳惑器。

要提高操作效率.該公司必須監(jiān)視傳感器所傳送的數(shù)據(jù)。大致案解決方葡可

以使用智戢儀袤分析發(fā)電(供應(yīng))和電力消耗(需求)數(shù)據(jù)。

Web和社交數(shù)電信運(yùn)營(yíng)商需要構(gòu)建許細(xì)的客戶流失模型(包含社交媒體和交曷數(shù)據(jù),比如

據(jù)CDR),勢(shì)。

電信:客戶流失

流失模型的值取決于客戶屬性的質(zhì)量(客戶切據(jù),比如生日、性別、位置

分析

交易數(shù)據(jù)和收入)和客戶的社交行為,

失。

營(yíng)銷部門使用Twitter源來(lái)執(zhí)行情緒分析,以便聿定用戶對(duì)公司及其產(chǎn)品或

市場(chǎng)營(yíng)銷:情緒Web和社交數(shù)服務(wù)的評(píng)?價(jià),尤其是在一個(gè)新產(chǎn)品或版本發(fā)布之后。

分析據(jù)

客戶情緒必須與客戶概要數(shù)相集成*才能得到育意義的結(jié)果,依據(jù)客戶的

人口統(tǒng)計(jì)特征,客戶反覆可能有所不同。

IT部門正在依靠大數(shù)據(jù)解決方室來(lái)分析應(yīng)用程序日志.以便荻取可提高系統(tǒng)

客戶服務(wù):呼叫性能的洞察.來(lái)自各種應(yīng)用程序供應(yīng)商的日志文件具有不同的格式;必須將

人類生成的它們標(biāo)冠化,然后IT部門才能使用它們。

Web和社交數(shù)零售商可結(jié)合使用面部識(shí)別技術(shù)和來(lái)自社交媒體的照片.根據(jù)購(gòu)買行為和位

零售:基于面部

指置向客戶提供個(gè)性化的營(yíng)銷信息。

識(shí)別和社交媒體

此功能對(duì)零售茴忠減度計(jì)劃具有很大的膨響,但它具有嚴(yán)格的息私限制。零

的個(gè)性化消典

生物識(shí)SU施向需要在實(shí)現(xiàn)這些應(yīng)用程序之前進(jìn)行適當(dāng)?shù)呐芩脚偂?/p>

零售商可根據(jù)位置數(shù)據(jù)為客戶提供梏定的促銷活動(dòng)和優(yōu)惠券。驛決方室通常

旨在在用戶進(jìn)入一個(gè)店鋪時(shí)檢測(cè)用戶的位置,或者通過GPS檢測(cè)用戶的位

零售和營(yíng)銷:移

動(dòng)數(shù)據(jù)和宴于位機(jī)器生成的頻

置的目標(biāo)位置數(shù)據(jù)與來(lái)自社交網(wǎng)絡(luò)的客戶偈好數(shù)據(jù)相結(jié)合,使零售商能夠根據(jù)購(gòu)買歷

史記錄針對(duì)性地開展在線和店內(nèi)營(yíng)銷活動(dòng)。通知是通過移動(dòng)應(yīng)用程序、

交易數(shù)據(jù)SMS和電子郵件提供的。

欺詐*理可預(yù)測(cè)給定交易或客戶帳戶遇到欺詐的可能性。解決方案可實(shí)時(shí)分

忻事務(wù),生成建議的立即執(zhí)行的措施,這對(duì)阻止第三方欺詐、第一方欺詐和

機(jī)器生成的數(shù)據(jù)對(duì)帳戶特權(quán)的蓄意濫用至關(guān)重要。

交易數(shù)據(jù)解決方室通常旨在檢測(cè)和阻止多個(gè)行業(yè)的眾多欺詐和風(fēng)險(xiǎn)類型,具中包括:

信用卡和僮己卡欺詐

由帳戶欺詐

FSS.醫(yī)療保技術(shù)欺詐

?。浩墼p檢測(cè)壞賬

醫(yī)療欺詐

人類生成的

醫(yī)療補(bǔ)助計(jì)劃和醫(yī)療保險(xiǎn)欺詐

財(cái)產(chǎn)和災(zāi)害吳瞼欺詐

工傷賠保欺詐

俁險(xiǎn)欺詐

電信欺詐

我們依據(jù)這些常見特征來(lái)評(píng)估數(shù)據(jù),下一節(jié)將詳細(xì)介紹這些特征:

?內(nèi)容的格式

?數(shù)據(jù)的類型(例如,交易數(shù)據(jù)、歷史數(shù)據(jù)或主數(shù)據(jù))

?將提供該數(shù)據(jù)的領(lǐng)率

?意圖:數(shù)據(jù)需要如何處理(例如對(duì)數(shù)據(jù)的臨時(shí)杳詢)

?處理是否必須實(shí)時(shí)、近實(shí)時(shí)還是按批次執(zhí)行。

使用大數(shù)據(jù)類型對(duì)大數(shù)據(jù)特征進(jìn)行分類

按特定方向分析大數(shù)據(jù)的恃征會(huì)有所幫助,例如以下特征:數(shù)據(jù)如何收集、分析和處理。對(duì)

數(shù)據(jù)進(jìn)行分類后,就可以將它與合適的大數(shù)據(jù)模式匹配:

1、分析類型一對(duì)數(shù)據(jù)執(zhí)行實(shí)時(shí)分析還是批量分析。請(qǐng)仔細(xì)考慮分析類型的選擇,因?yàn)檫@

會(huì)影響一些有關(guān)產(chǎn)品、工具、硬件、數(shù)據(jù)源和預(yù)期的數(shù)據(jù)頻率的其他決策。一些用例可能需

要混合使用兩種類型:

2、欺詐檢測(cè);分析必須實(shí)時(shí)或近實(shí)時(shí)地完成。

3、針對(duì)戰(zhàn)略性業(yè)務(wù)決策的趨勢(shì)分析;分析可采用批量模式。

4、處理方法一要應(yīng)用米處埋數(shù)據(jù)的技術(shù)類型(比如預(yù)測(cè)、分析、臨時(shí)查詢和報(bào)告)。業(yè)

務(wù)需求確定了合適的處理方法。可結(jié)合使用各種技術(shù)。處理方法的選擇,有助于識(shí)別要在您

的大數(shù)據(jù)解決方案中使用為合適的工具和技術(shù)。

5、數(shù)據(jù)頻率和大小一預(yù)計(jì)有多少數(shù)據(jù)和數(shù)據(jù)到達(dá)的頻率多高。知道頻率和大小,有助于

確定存儲(chǔ)機(jī)制、存儲(chǔ)格式和所需的預(yù)處理工具。數(shù)據(jù)頻率和大小依賴于數(shù)據(jù)源:

?按需分析,與社交媒體數(shù)據(jù)一樣

?實(shí)時(shí)、持續(xù)提供(天氣數(shù)據(jù)、交易數(shù)據(jù))

?時(shí)序(基于時(shí)間的數(shù)據(jù))

6、數(shù)據(jù)類型一要處理數(shù)據(jù)類型一交易、歷史、主數(shù)據(jù)等。知道數(shù)據(jù)類型,有助于將數(shù)

據(jù)隔離在存儲(chǔ)中。

7、內(nèi)容格式(傳入數(shù)據(jù)的格式)結(jié)構(gòu)化(例如RDMBS)、非結(jié)構(gòu)化(例如音頻、視頻和

圖像)或半結(jié)構(gòu)化。格式確定了需要如何處理傳入的數(shù)據(jù),這是選擇工具、技術(shù)以及從業(yè)務(wù)

角度定義解決方案的關(guān)鍵,

8、數(shù)據(jù)源一數(shù)據(jù)的來(lái)源(生成數(shù)據(jù)的地方),比如Web和社交媒體、機(jī)器生成、人類

生成等。識(shí)別所有數(shù)據(jù)源有助于從業(yè)務(wù)角度識(shí)別數(shù)據(jù)范用。該圖顯示了使用最廣泛的數(shù)據(jù)源。

9、數(shù)據(jù)使用者一處理的數(shù)據(jù)的所有可能使用者的列表:

?業(yè)務(wù)流程

?業(yè)務(wù)用戶

?企業(yè)應(yīng)用程序

?各種業(yè)務(wù)角色中的各個(gè)人員

?部分處理流程

?其他數(shù)據(jù)存儲(chǔ)庫(kù)或企業(yè)應(yīng)用程序

10、硬件一將在其上實(shí)現(xiàn)大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進(jìn)的硬件。理

解硬件的限制,有助于指導(dǎo)大數(shù)據(jù)解決方案的選擇。

圖1描繪用于分類大數(shù)據(jù)的各種類別。定義大數(shù)據(jù)模式的關(guān)鍵類別已識(shí)別并在藍(lán)色方框中

突出顯示。大數(shù)據(jù)模式(將在下一篇文章中定義)來(lái)自這些類別的組合。

圖1.大數(shù)據(jù)分類

RealTime

|AntMJcaij^^rtngjM?:eUanwus

Predctvt

AnaJysw

Processing

Methodology[

翻|?,g??品??X][一[|書]卜卜

y.

r丫

DataFrequencyOndemandCcntmuout

feedsfeeds1R-]|小卬6]皿-?2…用82改i3y

'---------------------*''hwffpermixr.“perwcor^dwrs

_______________--

z、

DataTypeMetaDataMasterDataHi5torcalTramactional

Structured

ContentFormat

Te?t](Videos][oMments)|侑1MO,AMOM<40M

l/[所加j間JStivcrur^d.Un$?ucfu^4txiS^r^iffvcfur9C

\AteOandMachineHumanInternalDataTransactionViaDataViaData

DMBioicDMOn9nMor

DataSourcesSocialMeduigonerg?n?rasdSourest

______________

z、

uie21[Business1[OtherEnterprise1[OthrDets

DataConsumersHUMj[ProcessJ[App&cabz][Repc?to<1es

/X._____________J、

CommodtySuteo<Art

HardwareHardwvareHycfwye

結(jié)束語(yǔ)和致謝

在本系列剩余部分中,我們將介紹大數(shù)據(jù)解決方案的邏輯架構(gòu)和各層,從訪問到使用大數(shù)據(jù)。

我們將提供數(shù)據(jù)源的完整列表,介紹專注于大數(shù)據(jù)解決方案的每個(gè)重要方面的原子模式,我

們還將介紹復(fù)合模式,解釋可如何結(jié)合使用原子模式來(lái)解決特定的大數(shù)據(jù)用例。本系列最后

將提供一些解決方案模式,在廣泛使用的用例與各個(gè)產(chǎn)品之間建立對(duì)應(yīng)關(guān)系。

感謝RakeshR.Shinde在定義本系列的整體結(jié)構(gòu)上提供的指導(dǎo),以及對(duì)本系列的審閱和提

供的寶貴評(píng)論。

大數(shù)據(jù)架構(gòu)和模式(二)如何知道一個(gè)大數(shù)據(jù)解決方案是否適合

您的組織

L如何判斷大數(shù)據(jù)問題是否需要大數(shù)據(jù)解決方案?

2.如何評(píng)估大數(shù)據(jù)解決方案的可行性?

3.可通過大數(shù)據(jù)技術(shù)獲取何種洞察?

4,是否所有大數(shù)據(jù)都存在大數(shù)據(jù)問題?

簡(jiǎn)介

在確定投資大數(shù)據(jù)解決方案之前,評(píng)估可用于分析的數(shù)據(jù);通過分析這些數(shù)據(jù)而獲得的

洞察;以及可用于定義、設(shè)計(jì)、創(chuàng)建和部署大數(shù)據(jù)平臺(tái)的資源。詢問正確的問題是一個(gè)不錯(cuò)

的起點(diǎn)。使用本文中的問題將指導(dǎo)您完成調(diào)查。答案將揭示該數(shù)據(jù)和您嘗試解決的問題的更

多特征。

盡管組織一般情況對(duì)?需要分析的數(shù)據(jù)類型有一些模糊的理解,但具體的細(xì)節(jié)很可能并不清晰。

畢竟,數(shù)據(jù)可能具有之前未發(fā)現(xiàn)的模式的關(guān)鍵,一旦識(shí)別了?種模式,對(duì)額外分析的需求就

會(huì)變得很明顯。要幫助揭示這些未知的未知信息,首先需要實(shí)現(xiàn)一些基本用例,在此過程中,

可以收集以前不可用的數(shù)據(jù)。構(gòu)建數(shù)據(jù)存儲(chǔ)庫(kù)并收集更多數(shù)據(jù)后,數(shù)據(jù)科學(xué)家就能夠更好地

確定關(guān)鍵的數(shù)據(jù),更好地構(gòu)建將生成更多洞察的預(yù)測(cè)和統(tǒng)計(jì)模型。

組織可能也已知道它有哪些信息是不知道的。要解決這些已知的未知,組織首先必須與數(shù)據(jù)

科學(xué)家合作,識(shí)別外部或第三方數(shù)據(jù)源,實(shí)現(xiàn)一些依賴于此外部數(shù)據(jù)的用例。

本文首先嘗試回答大多數(shù)CIO在實(shí)施大數(shù)據(jù)舉措之前通常會(huì)提出的問題,然后,本文將重

點(diǎn)介紹一種將幫助評(píng)估大數(shù)據(jù)解決方案對(duì)組織的可行性的基于維度的方法。

我的大數(shù)據(jù)問題是否需要大數(shù)據(jù)解決方案?

大數(shù)據(jù),曾幾何時(shí)似乎很少出現(xiàn)

組織多半會(huì)選擇以增量方式實(shí)現(xiàn)大數(shù)據(jù)解決方案。不是得個(gè)分析和報(bào)告需求都需要大數(shù)據(jù)解

決方案。如果對(duì)于對(duì)大型數(shù)據(jù)集或來(lái)自多個(gè)數(shù)據(jù)源的臨時(shí)報(bào)告執(zhí)行并行處理的項(xiàng)目,那么可

能沒有必要使用大數(shù)據(jù)解決方案。

隨著大數(shù)據(jù)技術(shù)的到來(lái),組織會(huì)問自己:''大數(shù)據(jù)是否是我的業(yè)務(wù)問題的正確解決方案,或

者它是否為我提供了業(yè)務(wù)機(jī)會(huì)?”大數(shù)據(jù)中是否隱藏著業(yè)務(wù)機(jī)會(huì)?以下是我從CIO那里聽

到的一些典型問題:

?如果我使用大數(shù)據(jù)技術(shù),可能會(huì)獲得何種洞察和業(yè)務(wù)價(jià)值?

?它是否可以擴(kuò)充我現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)?

?我如何評(píng)估擴(kuò)展當(dāng)前環(huán)境或采用新解決方案的成本?

?對(duì)我現(xiàn)有的IT治理有何影響?

?我能否以增量方式實(shí)現(xiàn)大數(shù)據(jù)解決方案?

?我需要掌握哪些具體的技能來(lái)理解和分析構(gòu)建和維護(hù)大數(shù)據(jù)解決方案的需求?

?我的現(xiàn)有企業(yè)數(shù)據(jù)能否用于提供業(yè)務(wù)洞察?

?來(lái)自各種來(lái)源的數(shù)據(jù)的復(fù)雜性在不斷增長(zhǎng)。大數(shù)據(jù)解決方案對(duì)我有幫助嗎?

維度可幫助評(píng)估大數(shù)據(jù)解決方案的可行性

為了回答這些問題,本文提出了一種依據(jù)下圖中所示的維度來(lái)評(píng)估大數(shù)據(jù)解決方案的可行性

的結(jié)構(gòu)化方法。

圖1.評(píng)估大數(shù)據(jù)解決方案的可行性時(shí)要考慮的維度

?來(lái)自可通過分析數(shù)據(jù)獲得的洞察的業(yè)務(wù)價(jià)值

?針對(duì)新數(shù)據(jù)來(lái)源再數(shù)據(jù)使用方式的治理考慮因素

?擁有相關(guān)技能和贊助商的承諾的人員

?捕獲的數(shù)據(jù)量

?各種各樣的數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)格式

?生成數(shù)據(jù)的速度,需要對(duì)它執(zhí)行操作的速度,或者它更改的速度

?數(shù)據(jù)的真實(shí)性,或者數(shù)據(jù)的不確定性和可信賴性

對(duì)于每個(gè)維度,我們都給出了一些關(guān)鍵問題。依據(jù)業(yè)務(wù)上下文,為每個(gè)維度分配一個(gè)權(quán)重和

優(yōu)先級(jí)。評(píng)估會(huì)因業(yè)務(wù)案例和組織的不同而有所不同。您可以考慮在與相關(guān)的業(yè)務(wù)和IT利

益相關(guān)者召開的一系列研討會(huì)中探討這些問題。

業(yè)務(wù)價(jià)值:可通過大數(shù)據(jù)技術(shù)獲取何種洞察?

許多組織想知道,他們?cè)趯ふ业臉I(yè)務(wù)洞察能否通過大數(shù)據(jù)解決方案解決。沒有權(quán)威的指南能

夠用來(lái)定義可從大數(shù)據(jù)獲取的洞察。具體場(chǎng)景需要由組織識(shí)別,而且這些場(chǎng)景在不斷演變。

在確定和識(shí)別在實(shí)現(xiàn)后會(huì)給企業(yè)帶來(lái)重大價(jià)值的業(yè)務(wù)用例和場(chǎng)景的過程中,數(shù)據(jù)科學(xué)家起著

至關(guān)重要的作用。

數(shù)據(jù)科學(xué)家必須能夠理解關(guān)鍵績(jī)效指標(biāo),對(duì)數(shù)據(jù)應(yīng)用統(tǒng)計(jì)算法和復(fù)雜算法來(lái)獲得一個(gè)用例列

表。用例因行業(yè)和業(yè)務(wù)不同而有所不同。研究市場(chǎng)競(jìng)爭(zhēng)對(duì)手的行動(dòng)、發(fā)揮作用的市場(chǎng)力量,

以及客戶在尋找什么,會(huì)很有幫助。下表給出了來(lái)自各行各業(yè)的用例示例.

表1.來(lái)自各行各業(yè)的示例用例

一千一H自<LK女口eBay)k下岬詢玨A*H+尸=53*:tT4=L一*03(CUV>:TT-至攵g

=僉:從鑰jH、三的M?彳也乖際嶼—SQ田*::齊手5H優(yōu)化WM;布危”

也六q1=:必;b*千:<^3^2觸=0<1襁浜4分伍*誰(shuí)狂¥卜君4牛一完?=力QTEEJ*大,I、.

—土心方&】/?注上軍迂8分折:f再IRH生、*均二T92f介g和*某土彳介0S(例文口孑少店內(nèi)啊灰力舌云力際三祎定

的推年.LN皿諛g)。

分”『:HB車可?/吐c*余/生)3=生""r-=g*百r(伊1女口一品郎匚=皿rrfiR)y

■咨電電耐LB勺g—&a'和一下一R:WM主"占3-:y告手泗MaaxiEkm—.

呈I目/X匕g下般0仔戶=53和2e巖個(gè)N=MiSigyiffi=g*Ko

gtrt打1rm歷空分近

=trt宿M=皿和—宓

外,汪yK依EOH曲而分近

GJBQ?1“汨附日田

7m赤HI由一刖分

M測(cè)分折:&k廣晶矽名t-字上N右U?巧?m幣至瑛冽可口€以寸螞3C*至M3I孌的一些

匡】東

二內(nèi)Qf*和際』悔=

jxUte分四

雙許6冽和金^

CRM和一一志

E用戶I值.件分枳分七斤

而運(yùn)W和女怎

中小i^tt

K*kSMR式分田

WiS乍■EFHTinRiiekKXECKQ^KUmAWiSPMHKS3田iE<WKE冠.際加

方幸事76WC阻分句7*WJ.主皿立HP彳亍云力一;比?年時(shí)陰]18三萬(wàn)般許、g-I:許“口速Q(mào)室與

枳的H^T;監(jiān)用至KH狂.0》S/b車迎年總計(jì)用于=卓個(gè)彳于業(yè)檢測(cè)和阻止一種二樣的加i生和

Jxlftg^se^i.環(huán):

行用r利H—d歸際在

歡詐寺金狼.在K”片師詐:

J支木貢大詐和杯球

=rr收送

=rr*卜abVt^AJWi三才綺臉亦在

□于吉京噲?jiān)倜?/p>

工外5會(huì)改作

兇險(xiǎn)E詐

錢的I日nr女卜/ETHT三等攵謗K3”g?十XT如g和"一后E.=L*皿*T*EjN

會(huì)入底用a9?敵照c&r,.

大取fttaeE詬分析

w<?t>和Wft幸應(yīng)

?E湎匕

WLH+e^rfr

注用旬在伏6

我"用分AKftneg^出外

三鉆:25動(dòng)=!?和定SE也計(jì)劃

咫詐*仝蒯

fe£fl£+^^

網(wǎng)€?^仝

臺(tái)理在和晅W分析7

泳常理

4.——關(guān)欠詐2刎

?N?分安£5田]和討=計(jì)劃JfA/七

SAa=曲

fiSMtWaGW十

H*j戶出爾但分折

匹心iQW和依物供包ti±D]里

一晶粒JTOTO5T/分析

血入EKG*MGt?0C4七

=用;舌==理和*4蘇詞W

呼nu注MU2親(GOR)^trf

網(wǎng)今包t+修和“iXK

用=gK分行

公用H業(yè)公司運(yùn)一大ZJ&EW;.V-壽,*應(yīng)F&。三個(gè)EgJ包一在極ITS注.電源?一K

和h他+mr^wiFgj-《0—25。近序-19H/rr/Ay々E?<與*由

公用*業(yè)公司mi在注和j用HddoopHBT豐分“分力;打電(彳知應(yīng))和電力;當(dāng)我(H手)?ne

公EF4fc

w臺(tái)儀CFTJ*由=?rrttiw+r,》tiw;7^M"Mrro*.大wwo用H業(yè)q0司和木彳尬二,犯分;食用

"于F目?jī)HW胃分忻

SEWF行業(yè)r生女口Tlme^X^roerrComcast?1Cox

時(shí)“本ComroMnrcatroos)H^trtTSTUZB用大H51s中介師機(jī)3皿》?1?。EU4乖=L

—HE怎鐺:

21Kqzm二噲F(tuán)用。tCGSafl'二日百

M*8

ML.Hcg)改I?

潛在的客戶正在社交網(wǎng)絡(luò)和評(píng)論站點(diǎn)上生成大量新數(shù)據(jù)。在企業(yè)內(nèi),隨著客戶切換到在線渠

道來(lái)執(zhí)行業(yè)務(wù)和與公司交互,交易數(shù)據(jù)和WebFl志與Fl俱增。

確定數(shù)據(jù)的優(yōu)先級(jí)

首先為企業(yè)內(nèi)存在的數(shù)據(jù)創(chuàng)建一個(gè)清單。識(shí)別內(nèi)部系統(tǒng)和應(yīng)用程序中存在的數(shù)據(jù)以及從第三

方傳入的數(shù)據(jù)。如果業(yè)務(wù)問題可使用現(xiàn)有數(shù)據(jù)解決,那么有可能不需要使用來(lái)自外部來(lái)源的

數(shù)據(jù)。

請(qǐng)考慮構(gòu)建一個(gè)大數(shù)據(jù)解決方案的成本,并權(quán)衡它與帶給業(yè)務(wù)部門的新洞察的價(jià)值。

在有關(guān)現(xiàn)有客戶的歸檔數(shù)據(jù)的上下文中分析此新數(shù)據(jù)時(shí),業(yè)務(wù)人員將獲得對(duì)新業(yè)務(wù)機(jī)會(huì)的洞

察。

主要滿足以下條件,大數(shù)據(jù)可提供可行的解決方案:

?從數(shù)據(jù)中開發(fā)的泡察所生成的價(jià)值,值得在大數(shù)據(jù)解決方案中投入的資本成本

?面向客戶的場(chǎng)景可證明來(lái)自洞察的潛在價(jià)值

評(píng)估通過大數(shù)據(jù)解決方案獲取的業(yè)務(wù)價(jià)值時(shí),請(qǐng)考慮您當(dāng)前的環(huán)境是否可擴(kuò)展并權(quán)衡此投資

的成本。

我當(dāng)前的環(huán)境能否擴(kuò)展?

詢問以下問題,確定您能否擴(kuò)充現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)?

1.當(dāng)前的數(shù)據(jù)集是否非常大,是否達(dá)到了TB或PB數(shù)量級(jí)?

2.現(xiàn)々的倉(cāng)庫(kù)環(huán)境是否包含生成或獲取的所々數(shù)據(jù)的存儲(chǔ)庫(kù)?

3.是否有大量冷數(shù)據(jù)或人們很少接觸的數(shù)據(jù)未分析,可以通過分析這些數(shù)據(jù)獲得業(yè)務(wù)

洞察?

4.您是否需要丟棄數(shù)據(jù),因?yàn)闊o(wú)法存儲(chǔ)或處理它?

5.您是否希望能夠在復(fù)雜且大量的數(shù)據(jù)上執(zhí)行數(shù)據(jù)探索?

6.您是否希望能夠?qū)Ψ遣僮鲾?shù)據(jù)執(zhí)行分析?

7.您是否有興趣使用數(shù)據(jù)執(zhí)行傳統(tǒng)和新類型的分析?

8,您是否試圖延遲對(duì)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的升級(jí)?

9.您是否在尋求途徑降低執(zhí)行分析的總體成本?

如果任何這些問題的答案是''是〃,那么您就可以探索擴(kuò)充現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的方式。

擴(kuò)展我當(dāng)前的環(huán)境的成本是多少?

擴(kuò)展現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)或IT環(huán)境與實(shí)現(xiàn)大數(shù)據(jù)解決方案的成本和可行性取決于:

?現(xiàn)有工具和技術(shù)

?現(xiàn)有系統(tǒng)的可伸縮性

?現(xiàn)有環(huán)境的處理能力

?現(xiàn)有平臺(tái)的存儲(chǔ)能力

?執(zhí)行的治理和策略

?現(xiàn)有IT應(yīng)用程序的異構(gòu)性

?組織中存在的技術(shù)和業(yè)務(wù)技能。

它還依賴于將從新數(shù)據(jù)來(lái)源收集的數(shù)據(jù)量、業(yè)務(wù)用例的復(fù)雜性、處理的分析復(fù)雜性,以及獲

取數(shù)據(jù)和擁有恰當(dāng)技能集的人員的成本?,F(xiàn)有的資源池能否開發(fā)新的大數(shù)據(jù)技能,或者是否

可從外部雇傭擁有稀缺技能的人員?

請(qǐng)注意,大數(shù)據(jù)舉措會(huì)對(duì)其他正在實(shí)施的項(xiàng)H產(chǎn)生影響。從新的來(lái)源獲取數(shù)據(jù)具有很高的成

本。您首先應(yīng)當(dāng)識(shí)別系統(tǒng)和應(yīng)用程序內(nèi)部存在的數(shù)據(jù),以及目前收到的第三方數(shù)據(jù),這一點(diǎn)

很重要。如果業(yè)務(wù)問題可以使用現(xiàn)有數(shù)據(jù)解決,那么有可能不需要使用來(lái)自外部來(lái)源的數(shù)據(jù)。

在生成新工具和應(yīng)用程序之前,請(qǐng)?jiān)u估組織的應(yīng)用程序組合。例如,一個(gè)普通的Hadocp平

臺(tái)可能無(wú)法滿足您的需求,您可能必須購(gòu)買專業(yè)的工具。或者相對(duì)而言,Hadoop的商業(yè)版

本對(duì)當(dāng)前用例而言可能很昂貴,但可能需要用作長(zhǎng)期投資來(lái)支持一個(gè)戰(zhàn)略性的大數(shù)據(jù)平臺(tái)。

考慮大數(shù)據(jù)工具和技術(shù)需要的基礎(chǔ)架構(gòu)、硬件、軟件和維護(hù)的成本。

對(duì)數(shù)據(jù)的治理和控制:對(duì)現(xiàn)有的IT治理有何影響?

在決定是否實(shí)現(xiàn)一個(gè)大數(shù)據(jù)平臺(tái)時(shí),組織可能會(huì)查看新數(shù)據(jù)源和新的數(shù)據(jù)元素類型,而這些

信息當(dāng)前的所有權(quán)尚未明確定義。一些行業(yè)制度會(huì)約束組織獲取和使用的數(shù)據(jù)。例如,在醫(yī)

療行業(yè),通過訪問患者數(shù)據(jù)來(lái)從中獲取洞察是否合法?類似的規(guī)則約束著所有行業(yè)。除了IT

治理問題之外,組織的業(yè)務(wù)流程可能也需要重新定義和修改,讓組織能夠獲取、存儲(chǔ)和訪問

外部數(shù)據(jù)。

請(qǐng)?jiān)谀那闆r的上下文中考慮以下治理相關(guān)問題;

安全性和隱私一為了與當(dāng)?shù)胤ㄒ?guī)一致,解決方案可以訪問哪些數(shù)據(jù)?可以存儲(chǔ)哪些數(shù)據(jù)?

哪些數(shù)據(jù)應(yīng)在移動(dòng)過程中加密?靜止數(shù)據(jù)呢?誰(shuí)可以查看原始數(shù)據(jù)和洞察?

數(shù)據(jù)的標(biāo)準(zhǔn)化一是否有標(biāo)準(zhǔn)約束數(shù)據(jù)?數(shù)據(jù)是否具有專用的格式?是否有部分?jǐn)?shù)據(jù)為非標(biāo)

準(zhǔn)格式?

數(shù)據(jù)可用的時(shí)段一數(shù)據(jù)在一個(gè)允許及時(shí)采取操作的時(shí)段是否可用?

數(shù)據(jù)的所有權(quán)一誰(shuí)擁有該數(shù)據(jù)?解決方案是否擁有適當(dāng)?shù)脑L問權(quán)和權(quán)限來(lái)使用數(shù)據(jù)?

允許的用法:允許如何使用該數(shù)據(jù)?

我能否增量地實(shí)現(xiàn)大數(shù)據(jù)解決方案?

大數(shù)據(jù)解決方案可以采用增量方式實(shí)現(xiàn)。明確地定義業(yè)務(wù)問題的范圍,并以可度量的方式設(shè)

置預(yù)期的業(yè)務(wù)收入提升,這樣做會(huì)很有幫助。

對(duì)「基礎(chǔ)業(yè)務(wù)案例,請(qǐng)仔細(xì)列出問題的范圍和解決方案帶來(lái)的預(yù)期收益。如果該范圍太小,

業(yè)務(wù)收益將無(wú)法實(shí)現(xiàn),如果范圍太大,獲得資金和在恰當(dāng)?shù)钠谙迌?nèi)完成項(xiàng)目就會(huì)很有挑戰(zhàn)性。

在項(xiàng)FI的第一次迭代中定義核心功能,以便能夠輕松地贏得利益相關(guān)者的信任。

人員:是否已有恰當(dāng)?shù)募寄懿⒄{(diào)整了合適的人員?

需要特定的技能來(lái)理解和分析需求,并維護(hù)大數(shù)據(jù)解決方案。這些技能包括行業(yè)知識(shí)、領(lǐng)域

專長(zhǎng),以及有關(guān)大數(shù)據(jù)工具和技術(shù)的技術(shù)知識(shí)。擁有建模、統(tǒng)計(jì)、分析和數(shù)學(xué)方面的專業(yè)經(jīng)

驗(yàn)的數(shù)據(jù)科學(xué)家,是任何大數(shù)據(jù)舉措成功的關(guān)鍵。

在實(shí)施一個(gè)新的大數(shù)據(jù)項(xiàng)目之前,確保已安排了合適的人員:

?您是否獲得利益相關(guān)者和其他愿意投資該項(xiàng)目的業(yè)務(wù)贊助者的支持?

?是否擁有熟悉該領(lǐng)域、能分析大量數(shù)據(jù)、而且能識(shí)別從數(shù)據(jù)生成有意義且有用的洞

察的途徑的數(shù)據(jù)科學(xué)家?

是否擁有可用于獲取洞察的現(xiàn)有數(shù)據(jù)?

所有組織都擁有大量未用于獲取業(yè)務(wù)洞察的數(shù)據(jù)。這些數(shù)據(jù)包括口志文件、錯(cuò)誤文件和來(lái)自

應(yīng)用程序的操作數(shù)據(jù)。不要忽略此數(shù)據(jù),它是寶貴信息的潛在來(lái)源。

數(shù)據(jù)復(fù)雜性是否在增長(zhǎng)?

查找數(shù)據(jù)復(fù)雜性增長(zhǎng)的線索,尤其是在數(shù)據(jù)量、種類、速度和真實(shí)性方面。

數(shù)據(jù)量是否已增長(zhǎng)?

如果滿足以下條件,您可能希望考慮大數(shù)據(jù)解決方案:

?數(shù)據(jù)大小達(dá)到PB和EB級(jí),而且在不久的將來(lái),它們可能增長(zhǎng)到ZB級(jí)別。

?這一數(shù)據(jù)量給使用傳統(tǒng)方法(比如關(guān)系數(shù)據(jù)庫(kù)引擎)存儲(chǔ)、搜索、共享、分析和可

視化數(shù)據(jù)帶來(lái)的技術(shù)和經(jīng)濟(jì)挑戰(zhàn)。

?數(shù)據(jù)處理目前可使用可用硬件上的大規(guī)模并行處理能力。

數(shù)據(jù)種類是否已增多?

如果滿足以下條件,各種各樣的數(shù)據(jù)可能都需要大數(shù)據(jù)解決方案:

?數(shù)據(jù)內(nèi)容和結(jié)構(gòu)無(wú)法預(yù)期或預(yù)測(cè)。

?數(shù)據(jù)格式各不相同,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。

?用戶和機(jī)器能夠以任何格式生成數(shù)據(jù),例如:Microsoft@Word文件、Microsoft

Excel@電子表格、MicrosoftPowerPoint演示文稿、PDF文件、社交媒體、Web和

軟件口志、電子如件、來(lái)自相機(jī)的照片和視頻、信息感知的移動(dòng)設(shè)備、空中感知技

術(shù)、基因組和醫(yī)療記錄。

?以前沒有為了獲得洞察而被挖掘的數(shù)據(jù)來(lái)源不斷地在產(chǎn)生新的數(shù)據(jù)類型。

?領(lǐng)域?qū)嶓w在不同的上下文中具有不同的含義。

數(shù)據(jù)的速度是否已增長(zhǎng)或改變?

考慮您的數(shù)據(jù)是否:

?在快速更改,必須立即響應(yīng)

?擁有過多的傳統(tǒng)技術(shù)和方法,它們不再足以‘實(shí)時(shí)處理傳入的數(shù)據(jù)

您的數(shù)據(jù)是否值得信賴?

如果滿足以下條件,那么請(qǐng)考慮使用大數(shù)據(jù)解決方案:

?數(shù)據(jù)的真實(shí)性或準(zhǔn)確性未知。

?數(shù)據(jù)包含模糊不清的信息。

?不清楚數(shù)據(jù)是否完整。

如果數(shù)據(jù)的量、種類、速度或真實(shí)性具有合理的復(fù)雜性,那么有可能會(huì)適合地采用大數(shù)據(jù)解

決方案。對(duì)于更復(fù)雜的數(shù)據(jù),需要評(píng)估與實(shí)現(xiàn)大數(shù)據(jù)解決方案關(guān)聯(lián)的任何風(fēng)險(xiǎn)。對(duì)于不太復(fù)

雜的數(shù)據(jù),則應(yīng)該評(píng)估傳統(tǒng)的解決方案。

是否所有大數(shù)據(jù)都存在大數(shù)據(jù)問題?

不是所有大數(shù)據(jù)情形都需要大數(shù)據(jù)解決方案。請(qǐng)?jiān)谑袌?chǎng)口尋找線索。競(jìng)爭(zhēng)對(duì)手在做什么?哪

些市場(chǎng)力量在發(fā)揮作用?客戶想要什么?

使用本文中的問題,幫助確定大數(shù)據(jù)解決方案是否適合于您的業(yè)務(wù)情形和您需要的業(yè)務(wù)洞察。

如果認(rèn)為是時(shí)候?qū)嵤┐髷?shù)據(jù)項(xiàng)目了,請(qǐng)閱讀下一篇文章,其中會(huì)介紹如何定義一個(gè)邏輯架構(gòu),

而且將會(huì)確定您的大數(shù)據(jù)解決方案需要的關(guān)鍵組件。

作者:Divakar等來(lái)源:DeveloperWorks

End.

大數(shù)據(jù)架構(gòu)和模式(三)理解大數(shù)據(jù)解決方案的架構(gòu)層

問題導(dǎo)讀

L大數(shù)據(jù)解決方案通常哪些邏輯層組成?

2.本文講了大數(shù)據(jù)來(lái)源有哪些?

3.大數(shù)據(jù)治理包含哪些因素?

概述

這個(gè)''大數(shù)據(jù)架構(gòu)和模式〃系列的第2部分介紹了一種評(píng)估大數(shù)據(jù)解決方案可行性的基

于維度的方法。如果您已經(jīng)使用上一篇文章中的問題和提示分析了自己的情況,并且已經(jīng)決

定開始構(gòu)建新的(或更新現(xiàn)有的)大數(shù)據(jù)解決方案,那么下一步就是識(shí)別定義項(xiàng)目的大數(shù)據(jù)

解決方案所需的組件。

大數(shù)據(jù)解決方案的邏輯層

邏輯層提供了一種組織您的組件的方式。這些層提供了一種方法來(lái)組織執(zhí)行特定功能的組件。

這些層只是邏輯層;這并不意味著支持每層的功能在獨(dú)立的機(jī)器或獨(dú)立的進(jìn)程上運(yùn)行。大數(shù)

據(jù)解決方案通常由以下邏揖層組成:

1、大數(shù)據(jù)來(lái)源

2、數(shù)據(jù)改動(dòng)(massaging)和存儲(chǔ)層

3、分析層

4、使用層

大數(shù)據(jù)來(lái)源:考慮來(lái)自所有渠道的,所有可用于分析的數(shù)據(jù)。要求組織中的數(shù)據(jù)科學(xué)家闡明

執(zhí)行您需要的分析類型所需的數(shù)據(jù).數(shù)據(jù)的格式和起源各不相同:

格式一結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。

速度和數(shù)據(jù)量一數(shù)據(jù)到達(dá)的速度和傳送它的速率因數(shù)據(jù)源不同而不同。

收集點(diǎn)一收集數(shù)據(jù)的位置,直接或通過數(shù)據(jù)提供程序,實(shí)時(shí)或以批量模式收集數(shù)據(jù)。數(shù)據(jù)

可能來(lái)自某個(gè)主要來(lái)源,比如天氣條件,也有可能來(lái)自一個(gè)輔助來(lái)源,比如媒體贊助的天氣

頻道。

數(shù)據(jù)源的位置一數(shù)據(jù)源可能位于企業(yè)內(nèi)或外部。識(shí)別您具有有限訪問權(quán)的數(shù)據(jù),因?yàn)閷?duì)數(shù)

據(jù)的訪問會(huì)影響可用于分析的數(shù)據(jù)范圍。

數(shù)據(jù)改動(dòng)和存儲(chǔ)層:此層負(fù)責(zé)從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時(shí),將它轉(zhuǎn)換為適合數(shù)據(jù)分析方

式的格式。例如,可能需要轉(zhuǎn)換一幅圖,才能將它存儲(chǔ)在HadoopDistributedFileSystem

(HDFS)存儲(chǔ)或關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)倉(cāng)庫(kù)中,以供進(jìn)一步處理。合規(guī)性制度和治

理策略要求為不同的數(shù)據(jù)類型提供合適的存儲(chǔ)。

分析層:分析層讀取數(shù)據(jù)改動(dòng)和存儲(chǔ)層整理(digest)的數(shù)據(jù)。在某些情況下,分析層直接

從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計(jì)分析層需要認(rèn)真地進(jìn)行事先籌劃和規(guī)劃。必須制定如何管理以下任

務(wù)的決策:

?生成想要的分析

?從數(shù)據(jù)中獲取洞察

?找到所需的實(shí)體

?定位可提供這些實(shí)體的數(shù)據(jù)的數(shù)據(jù)源

?理解執(zhí)行分析需要哪些算法和工具。

使用層:

此層使用了分析層所提供的輸出。使用者可以是可視化應(yīng)用程序、人類、業(yè)務(wù)流程或服務(wù)。

可視化分析層的結(jié)果可能具有挑戰(zhàn).有時(shí),看看類似市場(chǎng)中的競(jìng)爭(zhēng)對(duì)手是如何做的會(huì)有所幫

助。

每一層包含多種組件類型,下面將會(huì)介紹這些類型。

圖1.邏輯和垂直層的組件

該圖顯示了邏輯和垂直層為組件

大數(shù)據(jù)來(lái)源

此層包含所有必要的數(shù)據(jù)源,提供了解決業(yè)務(wù)問題所需的洞察。數(shù)據(jù)是結(jié)構(gòu)化、半結(jié)構(gòu)化和

非結(jié)構(gòu)化的數(shù)據(jù),而且來(lái)自許多來(lái)源:

1、企業(yè)遺留系統(tǒng)一這些系統(tǒng)是企業(yè)應(yīng)用程序,執(zhí)行業(yè)務(wù)需要的分析并獲取需要的洞察:

?客戶關(guān)系管理系統(tǒng)

?結(jié)算操作

?大型機(jī)應(yīng)用程序

?企業(yè)資源規(guī)劃

?Web應(yīng)用程序開發(fā)

Web應(yīng)用程序和其他數(shù)據(jù)來(lái)源擴(kuò)充了企業(yè)擁有的數(shù)據(jù)。這些應(yīng)用程序可使用自定義的協(xié)議

和機(jī)制來(lái)公開數(shù)據(jù)。

2、數(shù)據(jù)管理系統(tǒng)(DMS)-數(shù)據(jù)管理系統(tǒng)存儲(chǔ)邏輯數(shù)據(jù)、流程、策略和各種其他類型的文

檔:

?Microsoft@Excel?電子表格

?MicrosoftWord文檔

這些文檔可以轉(zhuǎn)換為可用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔數(shù)據(jù)可公開為領(lǐng)域?qū)嶓w,或者數(shù)據(jù)改動(dòng)

和存儲(chǔ)層可將它轉(zhuǎn)換為領(lǐng)域?qū)嶓w。

3、數(shù)據(jù)存儲(chǔ)一數(shù)據(jù)存儲(chǔ)包含企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、操作數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)。此數(shù)據(jù)通常是結(jié)

構(gòu)化數(shù)據(jù),可直接使用或輕松地轉(zhuǎn)換來(lái)滿足需求。這些數(shù)據(jù)不一定存儲(chǔ)在分布式文件系統(tǒng)中,

具體依賴于所處的上下文,

4、智慧設(shè)備一智慧設(shè)備能夠捕獲、處理和傳輸使用最廣泛的協(xié)議和格式的信息。這方面

的示例包括智能電話、儀表和醫(yī)療設(shè)備。這些設(shè)備可用于執(zhí)行各種類型的分析。絕大多數(shù)智

慧設(shè)備都會(huì)執(zhí)行實(shí)時(shí)分析,但從智慧設(shè)備傳來(lái)的信息也可批量分析。

5、聚合的數(shù)據(jù)提供程序一這些提供程序擁有或獲取數(shù)據(jù),并以復(fù)雜的格式和所需的頻率

通過特定的過濾器公開它,每天都會(huì)產(chǎn)生海量的數(shù)據(jù),它們具有不同的格式,以不同的速度

生成,而且通過各種數(shù)據(jù)提供程序、傳感器和現(xiàn)有企業(yè)提供。

其他數(shù)據(jù)源一有許多數(shù)據(jù)來(lái)自自動(dòng)化的來(lái)源:

地理信息:

?地圖

?地區(qū)詳細(xì)信息

?位置詳細(xì)信息

?礦井詳細(xì)信息

人類生成的內(nèi)容:

?社交媒體

?電子郵件

?博客

?在線信息

傳感器數(shù)據(jù):

?環(huán)境:天氣、降雨量、濕度、光線

?電氣:電流、能源潛力等

?導(dǎo)航裝置

?電離輻射、亞原子粒子等

?靠近、存在等

?位置、角度、位移、距離、速度、加速度

?聲音、聲震動(dòng)等

?汽車、運(yùn)輸?shù)?/p>

?熱量、熱度、溫度

?光學(xué)、光、成像、見光度

?化學(xué)

?壓力

?流動(dòng)、流體、速度

?力、密度級(jí)別等

?來(lái)自傳感器供應(yīng)商的其他數(shù)據(jù)

數(shù)據(jù)改動(dòng)和存儲(chǔ)層

因?yàn)閭魅氲臄?shù)據(jù)可能具有不同的特征,所以數(shù)據(jù)改動(dòng)和存儲(chǔ)層中的組件必須能夠以各種頻率、

格式、大小和在各種通信渠道上讀取數(shù)據(jù):

數(shù)據(jù)獲取一從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲(chǔ)在指定的位置中。

此組件必須足夠智能,能夠選擇是否和在何處存儲(chǔ)傳入的數(shù)據(jù)?。它必須能夠確定數(shù)據(jù)在存儲(chǔ)

前是否應(yīng)改動(dòng),或者數(shù)據(jù)是否可直接發(fā)送到業(yè)務(wù)分析層。

數(shù)據(jù)整理一負(fù)責(zé)將數(shù)據(jù)修改為需要的格式,以實(shí)現(xiàn)分析用途。此組件可擁有簡(jiǎn)單的轉(zhuǎn)換邏

輯或復(fù)雜的統(tǒng)計(jì)算法來(lái)轉(zhuǎn)換源數(shù)據(jù)。分析引擎將會(huì)確定所需的特定的數(shù)據(jù)格式。主要的挑戰(zhàn)

是容納非結(jié)構(gòu)化數(shù)據(jù)格式,比如圖像、音頻、視頻和其他二進(jìn)制格式。

分布式數(shù)據(jù)存儲(chǔ)一負(fù)責(zé)存儲(chǔ)來(lái)自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層中提供了多個(gè)數(shù)據(jù)存儲(chǔ)選項(xiàng),

比如分布式文件存儲(chǔ)(DF5)、云、結(jié)構(gòu)化數(shù)據(jù)源、NOSQL等。

分析層

這是從數(shù)據(jù)中提取業(yè)務(wù)洞察的層:

分析層實(shí)體識(shí)別一負(fù)責(zé)識(shí)別和填充上下文實(shí)體。這是?個(gè)復(fù)雜的任務(wù),需要高效的高性能

流程。數(shù)據(jù)整理組件應(yīng)為這個(gè)實(shí)體識(shí)別組件提供補(bǔ)充,將數(shù)據(jù)修改為需要的格式。分析引擎

將需要上下文實(shí)體來(lái)執(zhí)行分析。

分析引擎一使用其他組件(具體來(lái)講,包括實(shí)體鑒別、模型管理和分析算法)來(lái)處理和執(zhí)

行分析。分析引擎可具有支持并行處理的各種不同的工作流、算法和工具。

模型管理一負(fù)責(zé)維護(hù)各種統(tǒng)計(jì)模型,驗(yàn)證和檢驗(yàn)這些模型,通過持續(xù)培訓(xùn)模型來(lái)提高準(zhǔn)確

性。然后,模型管理組件會(huì)推廣這些模型,它們可供實(shí)體雙別或分析引擎組件使用。

使用層

這一層使用了從分析應(yīng)用程序獲取的業(yè)務(wù)洞察。分析的結(jié)果由組織內(nèi)的各個(gè)用戶和組織外部

的實(shí)體(比如客戶、供應(yīng)商、合作伙伴和提供商)使用。此洞察可用于針對(duì)客戶提供產(chǎn)品營(yíng)

銷信息。例如,借助從分析中獲取的洞察,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶

經(jīng)過通道或店鋪時(shí)向他們提供個(gè)性化的營(yíng)銷信息。

該洞察可用于檢測(cè)欺詐,實(shí)時(shí)攔截交易,并將它們與使用已存儲(chǔ)在企業(yè)中的數(shù)據(jù)構(gòu)建的視圖

進(jìn)行關(guān)聯(lián)。在欺詐性交易發(fā)生時(shí),可以告知客戶可能存在欺詐,以便及時(shí)采取更正操作

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論