大數(shù)據(jù)平臺及方案_第1頁
大數(shù)據(jù)平臺及方案_第2頁
大數(shù)據(jù)平臺及方案_第3頁
大數(shù)據(jù)平臺及方案_第4頁
大數(shù)據(jù)平臺及方案_第5頁
免費預覽已結束,剩余4頁可下載查看

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、行業(yè)大數(shù)據(jù)應用開發(fā)和分析平臺及案例應用A普皇1 .目兄2000年后,隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)中網(wǎng)頁的數(shù)量呈幾何式增長,大規(guī)模數(shù)據(jù)分析相關應用和技術開始倍受關注。至2000年底,全球網(wǎng)頁的數(shù)量已達到40億,互聯(lián)網(wǎng)用戶從網(wǎng)絡中檢索信息越來越不方便,為解決這一問題,谷歌等大型互聯(lián)網(wǎng)公司率先建立了覆蓋數(shù)十億網(wǎng)頁的索引庫,并為互聯(lián)網(wǎng)用戶提供精準的檢索服務,有效地提升了互聯(lián)網(wǎng)內容的檢索效率。隨著網(wǎng)頁庫的不斷增大,需要存儲、管理和處理的數(shù)據(jù)量不斷增大、種類不斷增多,這對互聯(lián)網(wǎng)公司提出新的挑戰(zhàn),傳統(tǒng)的技術在效率和效果上已經(jīng)無法滿足實際的應用需求。為以較低成本實現(xiàn)對以往技術無法達到的數(shù)據(jù)處理規(guī)模,Googl

2、e分別提出分布式系統(tǒng)GoogleFileSystem(GFS)、分布式并行計算框架MapReduce和分布式數(shù)據(jù)庫BigTable等,這些技術奠定了大規(guī)模數(shù)據(jù)處理和應用基礎。隨著大規(guī)模數(shù)據(jù)在互聯(lián)網(wǎng)領域的商業(yè)價值的體現(xiàn),啟發(fā)了社會對數(shù)據(jù)價值的重新審視。年,麥肯錫、世界經(jīng)濟論壇等知名機構和組織對大規(guī)模數(shù)據(jù)分析領域進行了研究總結,隨即世界范圍的“大數(shù)據(jù)"(BigData)熱潮發(fā)起。政府、醫(yī)藥、電信、銀行、制造等經(jīng)過多年積累而掌握了大數(shù)據(jù)的行業(yè)開始關注以“數(shù)據(jù)驅動創(chuàng)新”的領域,并且都想利用這些數(shù)據(jù)(命名為“行業(yè)大數(shù)據(jù)”),從中獲取“知識”,從而幫助提升行業(yè)建設并創(chuàng)造更高的經(jīng)濟價值。行業(yè)大數(shù)據(jù)

3、產業(yè)的發(fā)展急需面向行業(yè)的大數(shù)據(jù)應用開發(fā)和分析平臺的支撐。盡管目前業(yè)界已有諸多數(shù)據(jù)挖掘工具,如KNIME、Clementine、SPSSWEKA等。然而這些工具僅針對數(shù)據(jù)分析單一環(huán)節(jié),并且,這些工具的可擴展性不高,功能擴展具有局限性,還不能有效快捷的行業(yè)訂制化大數(shù)據(jù)應用開發(fā)和部署。建立統(tǒng)一、靈活、易用的行業(yè)大數(shù)據(jù)應用開發(fā)和分析平臺具有重要的研究價值和實際應用價值,它將進一步提升行業(yè)大數(shù)據(jù)的實際價值,推動行業(yè)大數(shù)據(jù)技術的進步,帶動各行業(yè)大數(shù)據(jù)智能應用產業(yè)的發(fā)展。2 .相關現(xiàn)狀圖1傳統(tǒng)數(shù)據(jù)挖掘工具的基本框架為使數(shù)據(jù)挖掘過程方便易用,各廠商開發(fā)了可視化、可配置的數(shù)據(jù)挖掘工具,如KNIME、Clemen

4、tine等(見圖1)。這種界面友好的系統(tǒng)交互模式是可以被借鑒。然而,目前常見的數(shù)據(jù)挖掘工具的基本應用模式(見圖2)無法滿足目前大數(shù)據(jù)應用開發(fā)和分析的實際需求。圖2傳統(tǒng)數(shù)據(jù)挖掘工具的基本應用模式首先,輸入系統(tǒng)的數(shù)據(jù)一般要求事先人工構造并結構化,而大數(shù)據(jù)具有規(guī)模大、結構復雜等特點,以人工的方式構造充足、有效的數(shù)據(jù)耗時費力、成本巨大、維護困難。另一方面,以人工構造的小規(guī)模數(shù)據(jù)為分析對象獲得的分析結果對描述大數(shù)據(jù)實際蘊含的知識的能力有限,甚至結果可能與實際偏離較大,結果的可靠性不高。其次,現(xiàn)有數(shù)據(jù)挖掘工具提供的ETL功能有限,在大數(shù)據(jù)來源多樣、結構復雜、描述不規(guī)范問題面前顯得捉襟見肘,靈活性和實用性較

5、低。輸入系統(tǒng)的數(shù)據(jù)要求是被精心處理過的干凈數(shù)據(jù),這主要是因為傳統(tǒng)的數(shù)據(jù)挖掘算法要求數(shù)據(jù)具有較高的質量,如此才能得到較準確的結果。而在行業(yè)大數(shù)據(jù)應用開發(fā)和分析實際背景下,現(xiàn)有工具還無法滿足實際的應用需求。圖3Clementine提供的用于數(shù)據(jù)分析全過程的功能第三,常見的數(shù)據(jù)挖掘工具功能固化,無法適應靈活多變的行業(yè)大數(shù)據(jù)應用開發(fā)和分析需求。以Clementine為例,其提供的數(shù)據(jù)分析全過程包含的功能(如圖3所示)僅為一些常見且通用的方法。而對于行業(yè)大數(shù)據(jù)應用開發(fā)和分析而言,針對不同的數(shù)據(jù)類型和特點,通用的數(shù)據(jù)處理和分析方法無法滿足實際需求。根據(jù)應用和分析任務本身,靈活訂制開發(fā)專用的流程和算法具有更

6、高的價值。止匕外,盡管常見的數(shù)據(jù)挖掘軟件在提供開發(fā)界面的同時還提供了豐富的API,然而,其在使用上十分復雜,即使是有經(jīng)驗的開發(fā)人員要在其基礎上開發(fā)相關的應用,也需要花費大量的時間了解其API結構,擴展性不強。第四,常見的數(shù)據(jù)挖掘工具結果輸出單一,主要以圖表的形式展現(xiàn),缺乏領域知識表達,需要行業(yè)專家的二次解讀。同時,同樣的分析結果,不同的領域專家會給出不同的解讀,客觀性和一致性不強。3 .行業(yè)大數(shù)據(jù)應用開發(fā)和分析解決方案(1)傳統(tǒng)的開發(fā)模式到面向服務的開發(fā)模式的轉變:傳統(tǒng)的開發(fā)模式以項目驅動開發(fā),針對具體需求,設計復雜的代碼架構和接口。然而,這種開發(fā)模式產生的軟件的性能和質量完全依賴于開發(fā)人員的

7、技術水平,并且開發(fā)成本巨大。面向服務的架構(ServiceOrientedArchitecture)是一個組件模型,它將應用的不同功能單元稱為服務,通過這些服務之間定義良好的結構和契約聯(lián)系起來。接口獨立于其它條件采用中立的方式定義。面向服務的開發(fā)模式更注重業(yè)務分析,通過清洗的業(yè)務流程描述和完成業(yè)務流程的各項服務的裝配形式完成應用的開發(fā),功能由具體構件完成,但不拘泥于具體實現(xiàn)細節(jié),以完成應用功能為主要目的。面向服務的開發(fā)模式具有質量標準統(tǒng)一、技術資產積累快、復用率高等特點。應用開發(fā)隨需組裝構件,完成業(yè)務流程,開發(fā)效率高(2)數(shù)據(jù)挖掘應用將受益于面向服務的開發(fā)模式:圖4行業(yè)數(shù)據(jù)挖掘應用的宏觀過程行

8、業(yè)數(shù)據(jù)挖掘是由數(shù)據(jù)驅動且面向服務的。宏觀上,行業(yè)數(shù)據(jù)挖掘應用以各種類型待分析的數(shù)據(jù)為輸入,經(jīng)過挖掘過程,為行業(yè)數(shù)據(jù)分析需求提供滿足服務對象領域知識的挖掘結果(如圖4所示),該過程滿足面向服務的架構的定義。微觀上,數(shù)據(jù)挖掘過程及各部分完成的任務是一個數(shù)據(jù)驅動且面向各種數(shù)據(jù)處理服務的(如圖5所示)。圖5面向服務數(shù)據(jù)挖掘過程以面向服務的開發(fā)模式實現(xiàn)數(shù)據(jù)挖掘應用的開發(fā),可以簡化復雜的數(shù)據(jù)挖掘算法流程,適應靈活多變的行業(yè)大數(shù)據(jù)應用開發(fā)和分析需求,提升高質量代碼的服用,提升大數(shù)據(jù)應用開發(fā)和分析效率。(3)核格行業(yè)應用開發(fā)和分析平臺架構:核格行業(yè)大數(shù)據(jù)應用開發(fā)和分析平臺專業(yè)面向支持面向服務的大數(shù)據(jù)應用開發(fā)和

9、分析模式,其基本架構如圖6所示。圖6面向服務數(shù)據(jù)挖掘過程(4)核格行業(yè)應用開發(fā)和分析平臺核心功能:1)可視化拖拽式應用開發(fā)與分析過程:2)軟件代碼自動生成和動態(tài)應用部署:3)數(shù)據(jù)分析業(yè)務邏輯裝配:4)數(shù)據(jù)處理服務裝配:5)豐富的數(shù)據(jù)挖掘模型算法基礎構件:6)個性化服務構件創(chuàng)建:4 .應用案例快速消費品(FastMovingConsumerGoodsFMCG)是指那些使用壽命短,消費速度快的消費品。從其定義可以看出,該類產品依靠消費者高頻次和重復的使用與消耗,并通過規(guī)?;氖袌隽縼慝@得利潤和價值。因此,該類商品具有如下一些屬性:(1)產品周轉周期短;(2)進入市場的通路短而寬;(3)售后服務的重

10、點主要體現(xiàn)在對客戶的意見迅速反饋并有效處理。此外,快速消費品與其它類型消費品相比,其客戶購買策略和購買過程有著明顯的差別??焖傧M品屬于沖動型購買產品,即興的采購決策,主要取決于個人偏好,產品的固有屬性(如外觀、包裝、廣告促銷、價格、銷售點等)對其銷售量起著重要作用。因此,消費者評價分析和產品屬性改進的及時性是決定營銷方案的重要依據(jù),相關數(shù)據(jù)的搜集和整理具有重要的情報價值。快消品的消費者調查數(shù)據(jù)應以高效、準確、客觀的方式獲取。傳統(tǒng)的研究消費者的方法主要基于消費問卷調查等結構化數(shù)據(jù)完成。對于快消品來說,這類方法存在諸多弊端。首先,調查問卷主要以銷售方主觀的問題設置為主,這種方式與調查目的相悖。其

11、次,調查問卷數(shù)據(jù)搜集的效率存在不足,發(fā)放問卷的過程十分繁瑣,并且很可能會適得其反。第三,調查問卷的結果準確性存在不足,不同的消費者其體驗存在差異,搜集數(shù)據(jù)量足夠大的調查結果十分困難,而在調查結果不足的情況下分析的結論可信度不高。以非結構化的電商消費者評價數(shù)據(jù)作為消費者調查數(shù)據(jù)具有較高的可行性。首先,寶潔公司是世界上最早開始實踐商業(yè)智能的公司,并已經(jīng)與很多第三方電商平臺(如阿里巴巴)合作獲得,高效的獲得自身產品的屬性及消費者評價數(shù)據(jù)。其次,電商消費者的評價數(shù)據(jù)具有時效性和客觀性。第三,其能夠反映消費者對使用產品的真實感受。最后,從電商數(shù)據(jù)中不僅可以獲取消費者評價數(shù)據(jù),還能夠獲得全方位的關于本產品

12、和同類相關產品的屬性及評價數(shù)據(jù),為快消品的消費者評價分析和產品屬性改進提供重要的依據(jù)。(1)任務描述:圖6基于電商消費者評價數(shù)據(jù)的產品分析利用電商消費者評價數(shù)據(jù)可以實現(xiàn):1)產品滿意度分析:根據(jù)消費者對產品的評價數(shù)據(jù),可以分析出該消費者對產品的整體評價。同時,根據(jù)這些評價數(shù)據(jù),以關鍵詞展示的形式,可以獲得消費者對產品整體的評價關鍵內容。并根據(jù)消費者情感隨時間變化趨勢分析,掌握該產品隨時間變化在市場中的用戶滿意度。利用該結果可以有效掌握快消品的市場銷售狀況和發(fā)展趨勢,為產品的更新?lián)Q代提供參考。2)產品屬性滿意度分析:根據(jù)電商產品數(shù)據(jù),可以獲得關于產品的各項屬性信息,例如圖6(a)中所示的寶潔沙宣

13、洗發(fā)水包含的功效、凈含量、適用對象、保質期等屬性信息。同時,根據(jù)消費者對產品的評價數(shù)據(jù),不僅可以獲得關于產品更多方面的屬性信息,還能夠獲得對該屬性或方面的觀點評價信息,例如,從評價“應該是正品!味道不錯,比超市便宜”中可以獲得關于產品質量、味道、價格三方面的正面評價信息。同樣根據(jù)消費者對具體產品屬性的情感隨時間變化趨勢分析,可以掌握該產品隨時間變化在市場中的用戶滿意度。利用該結果可以有效掌握快消品的市場銷售狀況和發(fā)展趨勢與產品屬性之間的關聯(lián),針對具體關聯(lián)為產品的更新?lián)Q代提供參考o3)產品滿意度因果分析:產品及其屬性滿意度分析為分析者提供產品面向方面的定量參考值,而用戶評價包含的語義主要反映在評

14、價內容當中。針對產品存在的問題,應具體改進產品的哪一方面,并且改進的程度可以從產品的具體評價中獲得。通過對消費者評價內容進行關鍵詞提取和歸納,可以實現(xiàn)產品滿意度的因果分析,列出評價關鍵結論。從而為決策者提供出定量的報表分析結果之外,基于規(guī)則的知識表達的決策支持。4)同級競爭產品比較分析:對旗下產品的分析和改進,在一定程度上可以借鑒同級競爭產品被用戶接受的特點,并在其基礎上進行進一步提升。另一方面,通過掌握其他同類產品的不足,可以使旗下產品在設計和改進時避免同樣問題的發(fā)生,如此可以有效節(jié)約產品研發(fā)成本。有效利用電商數(shù)據(jù)進行消費者評價分析和屬性改進需要解決如下幾點關鍵問題:(1)多源數(shù)據(jù)集成:圖7

15、多源數(shù)據(jù)融合目前,電商是快消品的主要銷售渠道之一,電商平臺已有多家,其結構各異,數(shù)據(jù)展示效果多樣,內容不一。如何實現(xiàn)多源半結構化數(shù)據(jù)的集成是有效利用電商數(shù)據(jù)進行消費者評價分析和屬性改進的基礎問題之一。(2)半結構化電商數(shù)據(jù)的產品屬性抽?。簣D8半結構化電商數(shù)據(jù)的產品屬性抽取電商數(shù)據(jù)屬于半結構化數(shù)據(jù),產品屬性信息隱藏在其中,如何有效的從其中抽取出各產品的屬性信息,是實現(xiàn)面向產品屬性的態(tài)度挖掘的基礎問題。(3)同類產品屬性的記錄鏈接:產品名稱潔凈去屑男士洗發(fā)水產品名稱男士去屑洗發(fā)露產品功效去屑止癢產品功效去屑止癢,深層修復產品型號潔凈去屑男士洗發(fā)水型號活力運動薄荷型產品品牌沙宣價格55.60元產品價

16、格62.00元品牌清揚產品容量700ml凈容量750ml保質期36個月保質期36個月L_1圖9同類產品屬性鏈接同類產品比較的對象是產品的屬性,然而,不同旗下產品的屬性描述不禁相同,將同種屬性實現(xiàn)記錄鏈接,并列出不同屬性,是實現(xiàn)競爭產品分析的關鍵問題。(4)基于弱監(jiān)督學習的面向方面的態(tài)度挖掘:目前用于態(tài)度挖掘的方法主要是基于有監(jiān)督的分類方法,該類方法要求訓練數(shù)據(jù)集滿足“強監(jiān)督假設”條件,即事先假定帶標注的訓練數(shù)據(jù)包含充分、清晰且準確的監(jiān)督信息來構造強泛化能力的分類模型。然而,這一假設在實際的大數(shù)據(jù)應用條件下是無法滿足的。我們提出的解決方案是對假設條件放寬,采用“弱監(jiān)督學習”方法實現(xiàn)態(tài)度分類模型的

17、訓練,然后用于實際的產品態(tài)度挖掘應用。圖10基于弱監(jiān)督學習的態(tài)度挖掘流程基于弱監(jiān)督學習的產品評價態(tài)度挖掘的基本流程如圖10所示。在該流程中主要包含三個關鍵服務功能,一是用于標注數(shù)據(jù)的服務,二是模型迭代訓練服務,三是利用訓練好的最優(yōu)化態(tài)度挖掘分類器對為分析的產品評價數(shù)據(jù)進行態(tài)度預測。實現(xiàn)這三部分功能的方法有很多,根據(jù)目前的業(yè)務流程,利用核格大數(shù)據(jù)應用開發(fā)和分析平臺,根據(jù)圖10內容,可以直接畫出業(yè)務邏輯(如圖11所示)。利用核格大數(shù)據(jù)應用開發(fā)和分析平臺中包含的數(shù)據(jù)標注構件、弱監(jiān)督模型貝葉斯模型訓練構件和貝葉斯模型預測構件實現(xiàn)滿足業(yè)務邏輯的服務裝配(如圖12所示)。最后配置數(shù)據(jù)數(shù)據(jù)源和輸出結果路徑(

18、如圖13所示),實現(xiàn)批量化的基于弱監(jiān)督學習的用戶評價數(shù)據(jù)態(tài)度挖掘分析。圖11基于弱監(jiān)督學習的態(tài)度挖掘業(yè)務邏輯封裝圖12基于弱監(jiān)督學習的態(tài)度挖掘服務裝配圖13靈活的參數(shù)配置用于分類的模型很多,如支持向量機、最大嫡模型等,利用核格大數(shù)據(jù)應用開發(fā)和分析平臺,可以在不改變業(yè)務邏輯的情況下,動態(tài)的裝配不同的分類模型于業(yè)務流程中,從而實現(xiàn)根據(jù)分析需求靈活、快速的裝配出不同的大數(shù)據(jù)應用,并獲得不同的比較結果。Word常用快捷鍵查找文字、格式和特殊項Ctrl+G使字符變?yōu)榇煮wCtrl+B為字符添加下劃線Ctrl+U刪除段落格式Ctrl+Q復制所選文本或對象Ctrl+C剪切所選文本或對象Ctrl+X粘貼文本或對象Ctrl+V撤消上一操作Ctrl+Z重復上一操作Ctrl+Y單倍彳f距Ctrl+1雙倍行距Ctrl+21.5倍行品巨Ctrl+5在段前添加一行間距Ctrl+0段落居中Ctrl+E分散對齊Ctrl+Shift+D取消左側段落縮進Ctrl+Shift+M創(chuàng)建懸掛縮進Ctrl+T減小懸掛縮進量Ctrl+Shift+T取消段落格式Ctrl+Q創(chuàng)建與當前或最近使用過的文檔類型相同的新文檔Ctrl+N打開文檔Ctrl+O撤消拆分文檔窗口Alt+Shift+C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論