【《基于hadoop的電商大數(shù)據(jù)探析平臺設(shè)計》9500字】_第1頁
【《基于hadoop的電商大數(shù)據(jù)探析平臺設(shè)計》9500字】_第2頁
【《基于hadoop的電商大數(shù)據(jù)探析平臺設(shè)計》9500字】_第3頁
【《基于hadoop的電商大數(shù)據(jù)探析平臺設(shè)計》9500字】_第4頁
【《基于hadoop的電商大數(shù)據(jù)探析平臺設(shè)計》9500字】_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄。其它地區(qū)的大數(shù)據(jù)市場規(guī)模還很大。美國的數(shù)據(jù)處理技術(shù)有三個方面:商業(yè)服務(wù),醫(yī)療保健,以及教育和訓(xùn)練。在這些行業(yè)中,商務(wù)服務(wù)業(yè)的比重超過80%。其次是交通、金融、零售。比如美國的Uber。Uber在66個不同的國家,擁有449個不同的城市。Uber有超過一千萬的使用者,它在這個行業(yè)中占有絕對優(yōu)勢。在這項令人艷羨的成就的背后,在于運用大量的數(shù)據(jù)和背后的價值,獲取創(chuàng)意,做出合理的商業(yè)決定,以更改游戲的規(guī)則。數(shù)據(jù)分析能幫Uber解決定價政策,偽造用戶賬號,假乘車,排名等問題。Uber可以利用Hadoop和Spark等技術(shù)來采集Uber的每一次出行記錄。Uber的數(shù)據(jù)分析員通過使用這一信息來理解顧客的喜好,從而為顧客提供高效的服務(wù)。Uber公司的數(shù)據(jù)分析師對這些資料進(jìn)行了詳盡的研究,包括:對乘客需求進(jìn)行預(yù)估、票價確定、交通服務(wù)質(zhì)量較低等。Uber公司采取“激增定價”戰(zhàn)略,以獲取更多的利益和更多的乘客。該公司擁有大型、精密的資料處理中心及一系列高級的管理體系。該軟件可以根據(jù)使用者的需要,自動地調(diào)整線路以適應(yīng)使用者的需要,并將相關(guān)的資訊提供給旅客,讓他們可以自行決定自己的行程。通過即時的數(shù)據(jù)統(tǒng)計,他們經(jīng)常會在乘客晚到達(dá)的時間為乘客提供免費的交通工具,但是通過快速價格計算,他們可以得到比平時高出兩三倍的價格。他們正在采用一種基于機(jī)器學(xué)習(xí)的運算法則來進(jìn)行定價,以便對市場的需求做出更大的預(yù)期,從而幫助他們吸引更多的駕駛員。Uber確實有大量的用案例來說明資料分析的重要意義。亞馬遜作為一家高度信息化的公司,亞馬遜需要處理海量的各類數(shù)據(jù),亞馬遜網(wǎng)站創(chuàng)造了大量的交易數(shù)據(jù)。亞馬遜通過對業(yè)務(wù)和用戶行為進(jìn)行分析,并對其進(jìn)行個性化分析。其中包括店鋪運營信息,例如店鋪銷售額、訂單數(shù)量、具體商品銷售額、報表、訂單的下單時間、用戶的收貨地址等,及時了解店鋪運營情況,以助于公司決策;CPC網(wǎng)站上的廣告數(shù)據(jù)REF_Ref102461059\r\h,商家大量投入廣告是非常昂貴的,所以需要分析廣告給商品銷量帶來的效率,亞馬遜根據(jù)用戶的行為點擊廣告的次數(shù)和具體下單量來分析廣告的投入產(chǎn)出率,以助于企業(yè)做出相應(yīng)決策;產(chǎn)品數(shù)據(jù)分析,包括數(shù)據(jù)流、銷售額、各時間段的產(chǎn)品數(shù)據(jù)、銷售額,用來判斷商品是否需要升級改進(jìn)以及具體方向。通過對海量數(shù)據(jù)的處理分析,亞馬遜個性化推薦、預(yù)測個人行為,給用戶帶來良好的體驗。Bruce等人收集了用戶在社交網(wǎng)站上的點擊量,并從中抽取相應(yīng)的信息,以此來分析用戶的使用時間和規(guī)則,并且根據(jù)用戶的點擊量,建立一種識別綜合統(tǒng)計信息的模型。Qing等人將用戶在社會化網(wǎng)站上發(fā)布的海量社會化文字進(jìn)行了自然語言的加工,并通過與該話題相關(guān)的綜合統(tǒng)計信息來增強(qiáng)其語意表達(dá)能力,進(jìn)而構(gòu)建出基于該特征的用戶肖像模型,實現(xiàn)了對其進(jìn)行個性化的推薦。第二章相關(guān)技術(shù)介紹2.1Hadoop平臺Hadoop體系結(jié)構(gòu)是一種基于云計算的基礎(chǔ)架構(gòu),它的優(yōu)勢在于它可以讓基礎(chǔ)薄弱的使用者在海量數(shù)據(jù)的基礎(chǔ)上,通過相應(yīng)的界面實現(xiàn)相應(yīng)的功能,從而獲得更多的應(yīng)用。此外,Hadoop的體系結(jié)構(gòu)還可以適應(yīng)各種語言的轉(zhuǎn)換,它的跨平臺特性也得到了廣泛的關(guān)注,比如C++,Java等等。Hadoop并不是一種技術(shù),它只是一種技術(shù)的總稱,比如Hadoop就包含了HDFS,MapReduce,HBase等開放的子框架。在Hadoop中,MapReduce和HDFS都是典型的Hadoop技術(shù),當(dāng)然還有其它一些非常流行的開放源碼項目。本次將會在Hadoop體系結(jié)構(gòu)中介紹Zookeeper、Hive和HBase的部分。Hadoop體系結(jié)構(gòu)如圖2-1所示。圖2-1Hadoop體系結(jié)構(gòu)圖2.2Spring框架介紹Spring框架可以幫助處理J2EE層次上的問題,其目的是貫穿整個開發(fā)過程,包括表現(xiàn)層、業(yè)務(wù)層和持久層。Spring框架被使用后,為了提高您的系統(tǒng)的開放性,您必須繼續(xù)使用Spring和原始框架。Spring框架的一些主要特點是:(1)Spring體系結(jié)構(gòu)不同于其他體系結(jié)構(gòu),它包括不同的商業(yè)對象和不同的管理模式;(2)Spring體系結(jié)構(gòu)的內(nèi)部結(jié)構(gòu)采用分層結(jié)構(gòu),可以對需要的構(gòu)件進(jìn)行任意選取,各個構(gòu)件可以單獨工作而不會相互影響;(3)Spring框架起初只是為了在開發(fā)過程中協(xié)助開發(fā)人員進(jìn)行測試,但在實踐中它卻是一種非常有用的架構(gòu);(4)Spring框架在使用時不會和其它框架產(chǎn)生沖突,并且Spring框架可以成為能夠滿足很多系統(tǒng)需求的基本框架的備選框架。2.3分布式數(shù)據(jù)庫—HBaseHBase是一種基于HDFS的分布式存儲系統(tǒng)。HBase不同于MySQL這種普通數(shù)據(jù)庫,MySQL經(jīng)常通過索引進(jìn)行相關(guān)查詢。而HBase則可以通過行健完成毫秒級快速查詢,也可以使用行健與單元格值相結(jié)合的方式實現(xiàn)多維查詢。所以對于HBase表中行健的設(shè)計尤為重要,合理的行健不僅可以提高HBase的查詢速度,更能夠在HBase表的行列發(fā)生變化時保證查詢效率。除此之外,HBase能夠?qū)崟r讀寫以及隨機(jī)讀取,因此具有良好的可擴(kuò)展性和可操作性。ZooKeeper組件能夠?qū)base中的各區(qū)域服務(wù)器進(jìn)行統(tǒng)一調(diào)度,并提供集群中各節(jié)點的配置權(quán)限。在HBase進(jìn)行shell操作時,任何HBase中的節(jié)點都可以隨時進(jìn)入并進(jìn)行數(shù)據(jù)的讀寫控制。HBase的體系架構(gòu)如圖2-2所示。圖2-2HBase的體系構(gòu)架2.4漏斗模型漏斗模型分析是根據(jù)用戶行為分析指標(biāo)對用戶行為的數(shù)據(jù)進(jìn)行定性和定量的分析,通過追蹤或記錄用戶行為事件,可以快速的了解到事件的趨勢走向和用戶的完成情況。以渠道訪問的用戶留存為例,我們對APP端有過訪問行為的渠道用戶進(jìn)行留存分析。從圖中可以看出8月14日~8月20日的次日留存率在41%以上,周留存率在22%以上。但在8月17日的次日留存率突然飆升到67%,一般是進(jìn)行了活動策劃或功能優(yōu)化才會留存率這么高。常用的分析模型有:行為事件分析、用戶留存分析、漏斗模型分析、行為路徑分析和福格模型分析。第三章需求分析3.1可行性分析3.1.1經(jīng)濟(jì)可行性商家在使用了該電商行業(yè)綜合統(tǒng)計信息系統(tǒng)以后,可以更加準(zhǔn)確地掌握消費者的信息,從而制定相應(yīng)的市場營銷戰(zhàn)略。這種方式可以增加商戶的收入,相對于系統(tǒng)的研發(fā)費用來說,這個系統(tǒng)的研發(fā)費用僅占了總體費用的5%左右,所以在商業(yè)上是非常具有競爭力的。3.1.2技術(shù)可行性可以在系統(tǒng)開發(fā)期間使用已有技術(shù),將其發(fā)展成一個階段的產(chǎn)物,將來會有很大的使用價值,而且具體的實現(xiàn)方式很簡單。本系統(tǒng)采用了Hadoop技術(shù)與HBase數(shù)據(jù)庫相結(jié)合的方法。由于目前的數(shù)據(jù)信息都是由數(shù)據(jù)庫來存儲,所以從技術(shù)上來說,這個體系是可以實現(xiàn)的。3.1.3操作可行性由于這個軟件在開發(fā)的早期就考慮了它的操作界面,以及其他的開發(fā)界面,以及一些簡單的操作名字,使得用戶可以很好地理解這個軟件的操作。在短時間內(nèi),使用者就可以使用它,熟悉它的主要功能。另外,本軟件的用戶主要是針對電子商務(wù)平臺的運營人員,這些人都是熟悉計算機(jī)的。因此,在操作這一點毋庸置疑,是可行的。3.2功能需求分析3.2.1數(shù)據(jù)來源Web頁面數(shù)據(jù)采集通過Javascript實現(xiàn),基于HTML5在各Web瀏覽器通用性,不需要考慮用戶終端系統(tǒng)差異,IOS和Android均適用同一套Javascript代碼。當(dāng)用戶在頁面進(jìn)行訪問、點擊、滾動等操作時,會將當(dāng)前用戶對頁面的行為,按照約定內(nèi)容、格式上報給服務(wù)端。Web頁面數(shù)據(jù)的采集,相比APP頁面數(shù)據(jù),定制化更高,更適用于較復(fù)雜的用戶行為上報。具體應(yīng)用中上報的埋點如圖4-5所示:圖3-1會場上報埋點示例該埋點包括用戶訪問APP的設(shè)備信息、用戶信息、訪問終端載體信息、編碼格式、訪問頁面信息、事件ID、事件參數(shù)、訪問渠道信息等等。3.2.2數(shù)據(jù)分析數(shù)據(jù)分析主要工作是對資料的分析。而數(shù)據(jù)分析的前提就是要對這些亂七八糟的數(shù)據(jù)進(jìn)行整理和整理,為后續(xù)的數(shù)據(jù)分析打下基礎(chǔ)。通常,在進(jìn)行數(shù)據(jù)分析之前,對數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)清洗包括數(shù)據(jù)分析和數(shù)據(jù)預(yù)處理。服務(wù)端存儲的埋點數(shù)據(jù)作為初始數(shù)據(jù),會存在異常,以及和后續(xù)平臺要求數(shù)據(jù)格式不同的情況,需要進(jìn)行數(shù)據(jù)清洗得到能輸入特征構(gòu)建的數(shù)據(jù)集。主要包括處理原始數(shù)據(jù)重復(fù)、缺失、空數(shù)值等異常,以及數(shù)據(jù)格式轉(zhuǎn)換,實現(xiàn)平臺數(shù)據(jù)一致性。3.2.3數(shù)據(jù)儲存數(shù)據(jù)庫是整個軟件系統(tǒng)的重要組成部分,其性能的好壞直接關(guān)系到整個軟件系統(tǒng)的運行。大數(shù)據(jù)分析系統(tǒng)需要更多的數(shù)據(jù)存儲和讀取數(shù)據(jù)。此外,由于Hadoop數(shù)據(jù)分析平臺是在Linux虛擬機(jī)上部署的,因此,所選用的數(shù)據(jù)庫必須具備良好兼容的Windows和Linux環(huán)境,并能在Windows和Linux環(huán)境下穩(wěn)定地進(jìn)行數(shù)據(jù)傳送。在Hadoop大數(shù)據(jù)平臺上采集到的所有數(shù)據(jù),都會被存儲在數(shù)據(jù)庫中。數(shù)據(jù)存儲在數(shù)據(jù)庫中,使得前后兩個平臺之間的數(shù)據(jù)調(diào)用更為方便和快速。HBase是本次畢業(yè)設(shè)計的首選,它與當(dāng)前多種主流開發(fā)語言兼容。3.2.4分析結(jié)果展示展示所采用的技術(shù)主要是ECharts架構(gòu),它具有數(shù)據(jù)展示的能力,具有大量的直觀、生動的圖形,可以根據(jù)不同的用戶的需求,通過特定的規(guī)則將其引入到用戶的視野中。此外,可交互性和高度個人化的特點也是人們信任的一個因素。3.3數(shù)據(jù)庫需求HBase具有良好的運行性能、經(jīng)濟(jì)性和安全性,所以HBase作為主要數(shù)據(jù)庫。電商數(shù)據(jù)平臺Hadoop技術(shù)的大數(shù)據(jù)分析,需要存儲與被解析用戶的有關(guān)的信息,從而保證數(shù)據(jù)庫的安全,避免用戶的個人資料外泄。所以無論從什么角度看,HBase都滿足了該平臺的要求,是一種非常實用的方法,可以用于電商平臺的綜合統(tǒng)計信息研究。在進(jìn)行數(shù)據(jù)庫的設(shè)計時,要確保各個資料庫的關(guān)系,以防止不斷地建立資料表。提高了對系統(tǒng)的反應(yīng)能力,同時確保了數(shù)據(jù)的準(zhǔn)確性。

第四章系統(tǒng)設(shè)計4.1系統(tǒng)整體設(shè)計本文主要包括兩大部分:一是采用Java語言編寫HiveSQL,對綜合統(tǒng)計信息進(jìn)行分析,并將分析后的數(shù)據(jù)寫入HBase數(shù)據(jù)庫;第二種方法是利用Spring架構(gòu)建立一個前臺電商網(wǎng)站和后臺可視化系統(tǒng),利用ECharts技術(shù)展示HBase中的數(shù)據(jù)結(jié)果,并展示用戶區(qū)域分析與展示、用戶渠道分析與展示、用戶需求類型分析等多種功能。在圖4-1中顯示了整個系統(tǒng)的發(fā)展過程。圖4-1總體系統(tǒng)開發(fā)流程圖4.2功能設(shè)計由圖4-2可知,該系統(tǒng)具有以Hadoop為基礎(chǔ)的綜合性數(shù)據(jù)平臺,包括:“用戶漏斗”模型、最多購買商品、最多購物車、最多瀏覽、最多收藏、一段時間用戶流量、一天的全面數(shù)據(jù)、綜合統(tǒng)計信息漏斗模型。系統(tǒng)整體功能設(shè)計如圖4-2所示。圖4-2系統(tǒng)功能設(shè)計本系統(tǒng)所使用的可視化技術(shù),是基于Web服務(wù)器實現(xiàn)的。本文介紹了應(yīng)用ECharts的有關(guān)軟件和技術(shù)進(jìn)行數(shù)據(jù)信息的可視化。其主要作用是實現(xiàn)最直觀、形象、生動的圖形,同時,ECharts的相關(guān)部件和技術(shù)也具備很好的互動和個人化的特性,它不僅能提高用戶的使用體驗,還能提高用戶對數(shù)據(jù)的敏感度。能夠清晰地看到商品的信息。HBsae數(shù)據(jù)庫HBsae數(shù)據(jù)庫圖4-3可視化流程設(shè)計

第五章系統(tǒng)實現(xiàn)5.1開發(fā)環(huán)境部署該系統(tǒng)在Linux環(huán)境下運行,包括操作系統(tǒng)、硬件平臺和其它相關(guān)應(yīng)用軟件。(1)硬體環(huán)境CPU:3級及以上;4GB或更高的記憶體。(2)軟體操作系統(tǒng):Windows7/XP,Centos;本系統(tǒng)支持各種軟件的開發(fā);解析度應(yīng)選用標(biāo)準(zhǔn)清晰或更高。Hadoop環(huán)境的構(gòu)建流程是這樣的:表5.1Hadoop環(huán)境構(gòu)建流程(1)安裝vm、jdk、hadoop、Hive(2)配置jdk、hadoop環(huán)境(3)修改hadoop相關(guān)文件(4)格式化hdfs(5)啟動hadoop集群,啟動狀態(tài)如圖5-1所示圖5-1Hadoop集群啟動5.2信息處理與分析鑒于數(shù)據(jù)量問題,當(dāng)前數(shù)據(jù)采用導(dǎo)入方式,重在解釋分析處理過程,數(shù)據(jù)來自阿里巴巴天池大數(shù)據(jù)大賽的公開數(shù)據(jù)集5.2.1信息預(yù)處理刪除文件的首行記錄:sed-i'small_user.csv請查看頭5行的數(shù)據(jù):頭5small_user.csv,具體的實施見圖5-2。圖5-2數(shù)據(jù)清洗5.2.2數(shù)據(jù)存儲在hive創(chuàng)建表(1)儲存信息,建立數(shù)據(jù)表的語句如下所示:通過HiveSQL提供的create命令創(chuàng)建數(shù)據(jù)表,數(shù)據(jù)表包含用戶編號、商品編號、綜合統(tǒng)計信息類型等字段。建表語句如下所示:在Hive中建立表格的特定實現(xiàn)見圖5-3。圖5-3在Hive中創(chuàng)建表創(chuàng)建一個存儲分析的表格,用于Hive:在圖圖5-4創(chuàng)建了一個存儲分析表格。圖5-4創(chuàng)建存儲分析的表HiveSql提供了load命令,該命令是將HDFS中的數(shù)據(jù)加載到Hive數(shù)據(jù)倉庫指定的表中。過下面的命令來裝載信息到Hive,具體如圖5-5所示。loaddatainpath'/small_user.csv'overwriteintotableshop;圖5-5將信息加載到Hive5.2.3數(shù)據(jù)分析(1)商品銷量前10數(shù)據(jù)分析過程通過HiveSQL提供的select查詢命令對數(shù)據(jù)進(jìn)行分析。以商品銷量前10數(shù)據(jù)分析為例,查詢的字段為商品id、銷量,通過where過濾綜合統(tǒng)計信息為購買的用戶,同時對結(jié)果進(jìn)行分組和排序。分析查詢語句如下所示:圖5-6商品銷量前10數(shù)據(jù)分析(2)商品銷量類型前10分析過程圖5-7商品銷量類型前10數(shù)據(jù)分析(3)用戶10001082行為分析圖5-8綜合統(tǒng)計信息分析分析結(jié)果寫入表:(4)用戶購物排名前10圖5-9用戶購物排名前10分析分析結(jié)果寫入表:5.2.4RFM模型用戶分層最近一次購物,R值越高,代表使用者的消費頻率就越高,而F值越高,就代表使用者的忠誠度就越高。第一名的使用者給5分,前1/5的用戶打5分,1/5-2/5的用戶打4分,2/5-3/5的用戶打3分,3/5-4/5的用戶打2分,5/5-5/5的用戶打4分。在圖5-10中顯示了RFM模型的用戶層次劃分。圖5-10RFM模型用戶分層5.3數(shù)據(jù)可視化5.3.1獨立訪客漏斗模型當(dāng)系統(tǒng)開發(fā)完畢時,將其部署并在eclipse編譯器中執(zhí)行。在瀏覽器中鍵入對應(yīng)的網(wǎng)址,就可以直接訪問到主控界面。在菜單欄中選取相應(yīng)的模塊,可以看到相應(yīng)的顯示效果。其中,一個獨立的游客漏斗模型的可視化步驟是:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)單擊獨立的游客漏斗模型模塊,并在圖5-11中看到一個獨立訪客漏斗模型的分布。圖5-11獨立訪客漏斗模型界面圖5-11中顯示了一個獨立訪客漏斗模型,它將index的接口以注釋的方式暴露出來,然后使用SpringJPA來查詢數(shù)據(jù)庫中的數(shù)據(jù)。數(shù)據(jù)庫查詢主要是通過JpaRepository提供的SpringJPA封裝的公共查詢界面來完成數(shù)據(jù)查詢!沒有定義的書簽,當(dāng)查詢結(jié)束時,將數(shù)據(jù)存儲在SpringMVC模型范圍中,然后使用JSTL和EL表達(dá)式在網(wǎng)頁端進(jìn)行數(shù)據(jù)采集,并使用Layui進(jìn)行頁面渲染和展示。5.3.2購買數(shù)量最多的商品最大采購項目可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)點擊最多的項目,可以看到最多的項目分布,見圖5-12。圖5-12購買數(shù)量最多的商品界面從圖5-12可以看出,在采購最多的項目中,編號“4157431”是最多的,而其它20名則是以條形圖顯示,總體上相差不大。5.3.3加入購物車次數(shù)最多的商品添加最多購物車的可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)按一下最常加入購物車的項目,可以看到最多的物品分配,見圖5-13。圖5-13加入購物車次數(shù)最多的商品界面從圖5-13可以看出,在購買最多的商品中,編號“2331370”是最多的一種,其它20名的排名都是用條形圖表顯示的,總體上沒有太大的差別。在實施上,首先由用戶端請求后端接口獲取數(shù)據(jù),而這個接口則是利用SpringMVC向外部公開,從Web頁面上獲取key,從數(shù)據(jù)庫中檢索出符合要求的數(shù)據(jù),并將其上傳到list中。后臺程式會把清單與商品資訊組合一起傳到前端網(wǎng)頁,最后會向使用者顯示。5.3.4瀏覽次數(shù)最多的商品最常見的產(chǎn)品可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)點擊瀏覽最多的商品模塊,會在圖5-14中看到最多的項目。圖5-14瀏覽次數(shù)最多的商品界面從圖5-14可以看出,在被人瀏覽最多的項目中,編號“812879”的商品是排名前20的,而其它前20名則通過柱狀圖顯示出來,顯示為“812879”的商品是有絕對優(yōu)勢的。5.3.5收藏次數(shù)最多的商品最受歡迎的產(chǎn)品可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)點擊最受歡迎的項目,并在圖5-15中找到最受歡迎的項商品。圖5-15收藏次數(shù)最多的商品界面(柱狀圖)從圖5-15可以看出,在最受歡迎的項目中,“2279428”是最受歡迎的,而在其它20名中,排名前20的商品“2279428”占據(jù)了壓倒性的優(yōu)勢。5.3.6一段時間內(nèi)的用戶流量一段用戶業(yè)務(wù)的可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主界面;(3)按一段時期的用戶流量模塊,觀察一段時期的用戶流量分布,具體見圖5-16。圖5-16一段時間內(nèi)的用戶流量界面(折線圖)從圖5-16可以看出,從用戶流量的分布來看,11月27到12月2日是最多的,其余時間的流量都比較小。5.3.7一天時間內(nèi)的綜合統(tǒng)計信息一日的全面統(tǒng)計數(shù)據(jù)可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主要接口;(3)按一日期間的全面統(tǒng)計數(shù)據(jù)模塊,可以看到一日期間的整體統(tǒng)計數(shù)據(jù)分布情況,具體見圖5-17。圖5-17一天時間內(nèi)的綜合統(tǒng)計信息界面從圖5-17可以看出,從一天的整體數(shù)據(jù)來看,最高的是5-6點,中午的數(shù)據(jù)相對降低,從下午到傍晚的數(shù)據(jù)會越來越多。5.3.8用戶總行為漏斗模型對于漏斗模型,用戶總線可視化步驟:(1)在Eclipse中開始一個程序;(2)將網(wǎng)址輸入到網(wǎng)頁的主要接口;(3)按一下用戶總行為漏斗模式模組,查看用戶總行為的漏斗模式,具體見圖5-18。圖5-18用戶總行為漏斗模型界面

第六章總結(jié)本文基于Hadoop實現(xiàn)的電商行業(yè)綜合統(tǒng)計信息系統(tǒng)設(shè)計與實現(xiàn),本此設(shè)計完成的主要工作有:(1)在了解了國內(nèi)外的研究狀況后,結(jié)合對相關(guān)技術(shù)的深入學(xué)習(xí),確定了系統(tǒng)的基本要求,并進(jìn)行了整個系統(tǒng)的流程設(shè)計;(2)利用Java語言及Spring架構(gòu),開發(fā)了一個具有基本網(wǎng)絡(luò)瀏覽、購物功能的前端電子商務(wù)網(wǎng)頁,并生成相應(yīng)的綜合統(tǒng)計數(shù)據(jù);(3)運用Hadoop技術(shù),對數(shù)據(jù)進(jìn)行了全面的統(tǒng)計分析,包含了一個獨立的游客漏斗模型、購買最多的商品、最多的購物車、最多瀏覽、最有收藏、一段時間的用戶流量、一天中的全面數(shù)據(jù)、全面的數(shù)據(jù)、綜合統(tǒng)計信息漏斗模型。利用Hadoop技術(shù)開發(fā)的電商大數(shù)據(jù)分析系統(tǒng),能在最短的時間內(nèi)了解到網(wǎng)站的銷售狀況,從而為企業(yè)提供最佳的網(wǎng)絡(luò)營銷戰(zhàn)略,降低市場的盲目。在開發(fā)過程中,我們使用了Hadoop平臺,JAVA語言,HBase數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論