格力大數(shù)據(jù)項目工作說明書_第1頁
格力大數(shù)據(jù)項目工作說明書_第2頁
格力大數(shù)據(jù)項目工作說明書_第3頁
格力大數(shù)據(jù)項目工作說明書_第4頁
格力大數(shù)據(jù)項目工作說明書_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

格力大數(shù)據(jù)項目工作說明書格力大數(shù)據(jù)項目工作說明書格力大數(shù)據(jù)項目工作說明書資料僅供參考文件編號:2022年4月格力大數(shù)據(jù)項目工作說明書版本號:A修改號:1頁次:1.0審核:批準:發(fā)布日期:格力大數(shù)據(jù)項目工作說明書北京西塔網(wǎng)絡科技股份有限公司二零一六年一月1 項目目標 32 建設及服務內(nèi)容 4 需求調(diào)研及數(shù)據(jù)標準化 4 大數(shù)據(jù)基礎平臺搭建 4 數(shù)據(jù)采集 4 分層存儲設計 5 數(shù)據(jù)加工處理 5 數(shù)據(jù)分析挖掘 5 內(nèi)存數(shù)據(jù)庫 5 交互式探查分析 6 數(shù)據(jù)可視化應用 6 語音智能分析 6 文本、視頻、圖片存儲 6 大數(shù)據(jù)平臺運維監(jiān)控 6 大數(shù)據(jù)平臺任務調(diào)度 7 ETL過程可視化 7 培訓工作 73 建設方案 84 時間進度與里程碑 85 費用支付 96 需求變更過程 9 變更依據(jù) 9 變更請求處理流程 97 雙方責任 108 項目組織架構(gòu) 129 假定條件 12

項目目標在珠海格力電器股份有限公司的范圍內(nèi),分期實現(xiàn)格力工業(yè)大數(shù)據(jù)平臺項目的數(shù)據(jù)集成、連接、處理、分析、挖掘等相關功能。本期項目包括設計、搭建大數(shù)據(jù)平臺,接入商技一部、商技二部、計算機中心的銷售訂單等相關數(shù)據(jù),實現(xiàn)設備故障診斷、故障預測、產(chǎn)品統(tǒng)計、實時查詢、營銷支持、智能搜索等功能。故障診斷的業(yè)務目標:大數(shù)據(jù)平臺處理、分析商用空調(diào)運行時采集回傳的工況數(shù)據(jù),及時、準確定位運行故障并給出大致原因,為維護部門維修空調(diào)設備和系統(tǒng)提供信息支撐,降低故障定位的時間、范圍和工作量,縮短停機時長并提高客戶滿意度、忠誠度。故障預測的業(yè)務目標:大數(shù)據(jù)平臺利用數(shù)據(jù)挖掘、機器學習技術(shù),通過學習業(yè)已存在的設備故障數(shù)據(jù)、信息,尤其是發(fā)生故障的前兆數(shù)據(jù),歸納故障發(fā)生的特點、規(guī)律知識,并利用流計算相關技術(shù)及時發(fā)現(xiàn)潛在的故障及風險,及時預警,減少停機的次數(shù)及停機時長。另外發(fā)現(xiàn)停機模式、規(guī)律可以進一步應用到產(chǎn)品設計、改進過程中。產(chǎn)品統(tǒng)計的業(yè)務目標:大數(shù)據(jù)平臺利用集成的產(chǎn)品及銷售數(shù)據(jù)進行統(tǒng)計分析,用于分析產(chǎn)品的銷售情況,客戶情況,銷售規(guī)律、特點及變化趨勢,用于指導產(chǎn)品的個性化設計及產(chǎn)品的推廣銷售。實時查詢的業(yè)務目標:大數(shù)據(jù)平臺利用NewSQL存儲技術(shù)存放設備數(shù)據(jù),提供特定編號設備、一段時間內(nèi)工況信息的實時查詢功能,用于業(yè)務人員分析、判斷特定設備在查詢時間范圍內(nèi)的工作狀態(tài),總結(jié)、發(fā)現(xiàn)業(yè)務規(guī)律。營銷支持的業(yè)務目標:大數(shù)據(jù)平臺利用集成的產(chǎn)品及銷售數(shù)據(jù)進行分析,發(fā)現(xiàn)其中先后、重復購買及交叉購買情況和規(guī)律,提醒、推薦客戶購買特定的產(chǎn)品和服務,提高產(chǎn)品和服務的銷量。智能搜索的業(yè)務目標:大數(shù)據(jù)平臺提供通過語音輸入完成產(chǎn)品及銷售數(shù)據(jù)的查詢、統(tǒng)計及分析的功能。建設及服務內(nèi)容以下所有內(nèi)容基于1月19日版本的需求文檔。詳見《格力大數(shù)據(jù)需求說明》文檔,建設內(nèi)容為基于Hadoop生態(tài)系統(tǒng)構(gòu)建大數(shù)據(jù)平臺,內(nèi)容包括商用空調(diào)、家用空調(diào)、銷售等歷史數(shù)據(jù)的入庫,ETL處理,數(shù)據(jù)倉庫、離線計算、內(nèi)存計算、實時計算、即席查詢、可視化展示等內(nèi)容。具體內(nèi)容如下:需求調(diào)研及數(shù)據(jù)標準化 包括功能商技一部、商技二部、銷售、審計部門的需求調(diào)研、數(shù)據(jù)調(diào)研以及數(shù)據(jù)標準化。大數(shù)據(jù)基礎平臺搭建 基于Hadoop搭建大數(shù)據(jù)平臺,包括HDFS、MapReduce、HBase、Hive、Spark,MySql集群。使用HDFS存儲原始數(shù)據(jù),供離線分析挖掘;使用Spark/MapReduce執(zhí)行離線任務;使用HBase做實時查詢;使用Hive/SparkSQL做數(shù)據(jù)倉庫;使用MySql集群存儲分析結(jié)果書,供上層應用查詢。 數(shù)據(jù)采集 大數(shù)據(jù)采集包括非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)的采集,非結(jié)構(gòu)化數(shù)據(jù)采用FlumeNG采集,Oracle/SQLServer/MySQL關系數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)采用Sqoop收集。此外還有實時流數(shù)據(jù)采用分布式消息隊列采集。 Flume收集非結(jié)構(gòu)化數(shù)據(jù),F(xiàn)lume是一個高可用的,高可靠的,分布式的海量數(shù)據(jù)采集、聚合和傳輸?shù)南到y(tǒng),F(xiàn)lume支持定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時,F(xiàn)lume提供對數(shù)據(jù)進行簡單處理,并寫入到HDFS中。 Sqoop收集結(jié)構(gòu)化數(shù)據(jù),Sqoop(發(fā)音:skup),主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql、postgresql...)間進行數(shù)據(jù)的傳遞,可以將一個關系型數(shù)據(jù)庫(例如:MySQL,Oracle,Postgres等)中的數(shù)據(jù)導進到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導進到關系型數(shù)據(jù)庫中。Sqoop,類似于其他ETL工具,使用元數(shù)據(jù)模型來判斷數(shù)據(jù)類型并在數(shù)據(jù)從數(shù)據(jù)源轉(zhuǎn)移到Hadoop時確保類型安全的數(shù)據(jù)處理。Sqoop專為大數(shù)據(jù)批量傳輸設計,能夠分割數(shù)據(jù)集并創(chuàng)建Hadoop任務來處理每個區(qū)塊。 實時數(shù)據(jù)處理,通過采集層數(shù)據(jù)通過消息隊列組件Kafka接入到SparkStreaming里,SparkStreaming實時處理后把結(jié)果存到Hbase或Mysql等關系數(shù)據(jù)庫中供用戶查詢。分層存儲設計 通過將給定文件、數(shù)據(jù)集或應用程序的必需數(shù)據(jù)特征對數(shù)據(jù)進行分層存儲設計,滿足不同的應用場景。提供數(shù)據(jù)利用率與使用效率。將常用數(shù)據(jù)存儲在高速設備上,而不太常用的數(shù)據(jù)存儲在低速設備上。在宏觀上,數(shù)據(jù)可以在不同的設備之間進行數(shù)據(jù)復制遷移,分層保存。數(shù)據(jù)加工處理 對數(shù)據(jù)進行分析和加工。包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理。經(jīng)過加工清洗后的數(shù)據(jù)根據(jù)不同的數(shù)據(jù)類型,選擇不同數(shù)據(jù)存儲方式,可以存入HDFS供離線挖掘,或者存儲到實時性高的MPP數(shù)據(jù)庫進行統(tǒng)計分析。數(shù)據(jù)分析挖掘 大數(shù)據(jù)分析系統(tǒng)以機器學習、數(shù)據(jù)挖掘等作為核心技術(shù),構(gòu)建于大數(shù)據(jù)管理系統(tǒng)和云計算平臺之上。其中,大數(shù)據(jù)管理系統(tǒng)提供數(shù)據(jù)的存儲與查詢功能,云計算平臺提供分布式并行計算服務。通過分布式計算與統(tǒng)計分析服務器訪問大數(shù)據(jù)系統(tǒng),實現(xiàn)KPI與報表統(tǒng)計分析服務。 采用SparkMLlib做為數(shù)據(jù)挖掘和機器學習框架,MLlib是Spark的標準機器學習框架,MLlib相對于其他機器學習庫包具有更加優(yōu)異的性能或者更容易入門。MLlib機器學習庫具有完整的機器學習框架和各類別機器學習算法,滿足各種場合的需求。Mllib隨著Spark版本一起發(fā)布和應用。本系統(tǒng)采用MLlib構(gòu)建在Hadoop之上對大數(shù)據(jù)進行挖掘處理,實現(xiàn)故障診斷、故障預測、配件庫存優(yōu)化等深度挖掘。內(nèi)存數(shù)據(jù)庫 內(nèi)存數(shù)據(jù)庫是將全部數(shù)據(jù)駐留內(nèi)存的分析型數(shù)據(jù)庫系統(tǒng),采用內(nèi)存計算技術(shù),從根本上解決了數(shù)據(jù)倉庫由于磁盤I/O導致的性能瓶頸問題,具有性能高、成本低、靈活、可擴展等眾多優(yōu)良特性,尤其適合做為大數(shù)據(jù)的計算引擎、分析引擎使用。把熱點數(shù)據(jù)加載到內(nèi)存數(shù)據(jù)庫中,提供交互式探查分析、智能查詢分析等功能。交互式探查分析 基于內(nèi)存數(shù)據(jù)庫快速查詢,使用明細數(shù)據(jù),免去清洗、聚合過程,更快速地分析和揭露數(shù)據(jù)中蘊含的問題,直接由業(yè)務人員使用,免去提需求、澄清、確認溝通環(huán)節(jié),快速實現(xiàn)分析意圖,提高了發(fā)現(xiàn)和解決問題的效率使用時可由全部數(shù)據(jù)快速過濾出關注的部分數(shù)據(jù)進行分析;關注數(shù)據(jù)的特征可進一步由明細數(shù)據(jù)刻畫、佐證;可按需保存分析場景、導出明細數(shù)據(jù)付諸解決。 優(yōu)異的用戶體驗,以客戶體驗為中心設計,側(cè)重易理解(業(yè)務視角,選擇、過濾、分析)、易用(平鋪、圖形操作)、去除干擾(功能隱藏)、快速響應(內(nèi)存計算)、增加趣味性(改分檔數(shù))。數(shù)據(jù)可視化應用 提供通過實時查詢、產(chǎn)品統(tǒng)計功能,不做個性化推送。語音智能分析大數(shù)據(jù)平臺提供語言智能分析,通過錄入語言,將語言轉(zhuǎn)換為文本,并對文本進行分詞和語義分析,提交到大數(shù)據(jù)平臺完成產(chǎn)品產(chǎn)品及銷售數(shù)據(jù)的查詢、統(tǒng)計及分析的功能。文本、視頻、圖片存儲大數(shù)據(jù)平臺增加文本、音視頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)的存儲。大數(shù)據(jù)平臺運維監(jiān)控提供格力大數(shù)據(jù)平臺管理、運維工具及說明,包括服務器和運維系統(tǒng)都正常運行,運維系統(tǒng)可以對集群所有物理機進行性能監(jiān)控,包括但不限于以下指標:CPU使用率、內(nèi)存使用率、硬盤利用率、網(wǎng)絡流量、IO負載、系統(tǒng)負載均值、ETL監(jiān)控、數(shù)據(jù)質(zhì)量監(jiān)控、等服務器性能指標進行監(jiān)控。運維要考慮大數(shù)據(jù)平臺的可擴展性,支持:在線添加節(jié)點服務擴展組件的升級異常處理:掛了的節(jié)點如何恢復,記錄日志方便追蹤大數(shù)據(jù)平臺任務調(diào)度任務調(diào)度系統(tǒng)能夠?qū)Ω黝惾蝿者M行配置、啟動、跟蹤。同時,應并具備任務聯(lián)動能力,即可以將多個任務通過流程組裝成一個聯(lián)合任務,各任務之間存在相互制約關系,任務調(diào)度管理能夠根據(jù)各任務的執(zhí)行狀態(tài)、結(jié)果來自動的啟動后續(xù)任務,任務間允許并發(fā)及串行兩種模式。要求各任務的配置應當為可視化的配置。對于任務啟動至少包括定時啟動和條件啟動兩種模式。同時允許管理員進行任務的手動執(zhí)行。任務執(zhí)行可設定優(yōu)先級,比如按銷售>

技術(shù)>

質(zhì)量>

售后(銷售量大的>銷售量小的>

生產(chǎn)

>檢驗來設定。 ETL過程可視化ETL盡量滿足可配置性及可視化操作,如果甲方購買了第三方ETL可視化工具如kettle、Dataflow、Syncsoft等工具,乙方應支持甲方做集成工作。培訓工作從格力大數(shù)據(jù)平臺未來的使用及運行來看,北京西塔提供的培訓將達到如下的目標:完成知識的轉(zhuǎn)移承建單位開發(fā)完成一個軟件系統(tǒng)后,將通過培訓工作實現(xiàn)知識的轉(zhuǎn)移,不僅包括軟件系統(tǒng)的使用方法,同樣還包括業(yè)務理念、系統(tǒng)運行維護方法、技術(shù)開發(fā)方法等滿足系統(tǒng)未來業(yè)務拓展需要的各項技能與方法。實現(xiàn)全員的應用應用系統(tǒng)的建設目標即要建設一個全員參與使用的系統(tǒng),因此培訓的目標之一,也是要使業(yè)務人員均可以熟練使用該系統(tǒng),增強業(yè)務人員的知識儲備,提高整個使用應用系統(tǒng)的業(yè)務人員素質(zhì)。保障系統(tǒng)的安全運行對格力大數(shù)據(jù)平臺的技術(shù)管理人員進行技術(shù)培訓,使其能掌握有關軟件產(chǎn)品及系統(tǒng)的使用、維護、管理,達到能獨立進行管理、故障處理、日常測試維護、個性化應用開發(fā)等工作目的,以保障北京西塔所提供的應用系統(tǒng)能夠正常、安全地運行。 通過以上培訓使用戶系統(tǒng)管理員能夠獨立完成平臺的設置、管理、故障恢復、應急處理等,能夠進行日常的數(shù)據(jù)庫備份及恢復操作、能夠獨立處理常見突發(fā)事件及操作員提出的常見操作問題。建設方案 詳見《格力大數(shù)據(jù)項目技術(shù)方案.docx》。時間進度與里程碑 格力工業(yè)大數(shù)據(jù)平臺建設。項目工期要求:總工期10個月分3個階段:里程碑階段性成果與提交物時間(月)付款1.項目簽約人員進場30%2.、基礎平臺搭建&業(yè)務模型設計數(shù)據(jù)調(diào)研報告、數(shù)據(jù)標準化文檔需求規(guī)格說明書功能設計說明書220%3.業(yè)務需求開發(fā)ETL、業(yè)務模型開發(fā)、大數(shù)據(jù)服務接口開發(fā)、大數(shù)據(jù)標準可視化系統(tǒng)開發(fā)、MPP內(nèi)存數(shù)據(jù)庫、交互式探查分析、智能語音搜索330%4.大數(shù)據(jù)管理系統(tǒng)大數(shù)據(jù)運維監(jiān)控系統(tǒng)大數(shù)據(jù)任務管理系統(tǒng)大數(shù)據(jù)安全管理系統(tǒng)210%5.項目終驗產(chǎn)品配置說明應用系統(tǒng)部署架構(gòu)說明平臺監(jiān)控、維護說明310%費用支付以合同為準。需求變更過程變更依據(jù)1.變更請求除特殊緊急情況,只處理書面變更請求。2.變更標準當工作說明書中建設內(nèi)容所說明的工作項因某種原因(如實際業(yè)務變更、可實現(xiàn)性變更等)發(fā)生增加、減少或變更時,認為變更發(fā)生。3.變更申請樣式 詳見《需求變更申請表.docx》。變更請求處理流程客戶項目經(jīng)理將書面變更請求提交項目經(jīng)理項目經(jīng)理與技術(shù)經(jīng)理或軟件架構(gòu)師研究可行性項目經(jīng)理將研究結(jié)果與變更請求一同提交項目控制委員會審批控制委員會將審批結(jié)果提交所有相關人若審批通過,項目經(jīng)理將變更請求提交項目團隊執(zhí)行相應修改項目管理計劃以便后續(xù)跟蹤雙方責任甲方:珠海格力電器股份有限公司乙方:北京西塔網(wǎng)絡科技股份有限公司甲方責任自合同簽定后,成立項目領導協(xié)調(diào)小組并委派高層經(jīng)理參與項目委員會,協(xié)調(diào)解決實施過程中的各種問題;共同審核批準項目實施計劃;共同進行項目實施過程中的重大事件的決策;共同根據(jù)項目過程中的進度、質(zhì)量、技術(shù)、資源、風險等實行宏觀監(jiān)控;幫助協(xié)調(diào)項目組織中甲方相關方的工作關系自合同簽訂后,委派項目經(jīng)理或協(xié)調(diào)人在項目的各個階段,包括需求調(diào)研、系統(tǒng)開發(fā)、系統(tǒng)實施、驗收測試用例制定、驗收測試、合同收尾與上線后支持等,協(xié)調(diào)項目組織中甲方或其它相關方的工作關系,包括相關的業(yè)務人員、技術(shù)人員等有責任根據(jù)雙方確認的實施進度提供必要的工作環(huán)境和工作支持,及時應乙方的要求向乙方提供實施過程中所需的各種資料和數(shù)據(jù)、配合乙方人員的工作在項目的各個階段乙方提交評審請求后,包括需求、設計、驗收測試用例與驗收報告,甲方有責任在2個工作日內(nèi)提供反饋確認在項目實施過程中,能及時應乙方的通知組織有關人員參與測試與培訓工作。甲方需提供給乙方一個20人的辦公場所,以及宿舍、出入證。甲方需要參與項目開發(fā)維護人員需要具備以下條件:開發(fā)人員:熟悉java或scala語言,具有一定的軟件開發(fā)、設計經(jīng)驗。運維人員:深入理解linux系統(tǒng),運維體系結(jié)構(gòu),精于容量規(guī)劃、架構(gòu)設計、 性能優(yōu)化;精通一門以上腳本語言(shellperlpython等);熟悉 Hadoop大數(shù)據(jù)生態(tài)圈,包括HDFS、YARN、Hive、HBase、Spark 等使用人員:有一定的計算機知識,能熟練使用SQL語言以及瀏覽器。乙方責任乙方承諾所提供的大數(shù)據(jù)相關軟件具有自主知識產(chǎn)權(quán),不侵犯任何第三者的合法權(quán)益。負責甲方項目實施范圍內(nèi)的開發(fā)與實施工作

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論