基于Spark的用戶行為路徑分析的產(chǎn)品化實踐_第1頁
基于Spark的用戶行為路徑分析的產(chǎn)品化實踐_第2頁
基于Spark的用戶行為路徑分析的產(chǎn)品化實踐_第3頁
基于Spark的用戶行為路徑分析的產(chǎn)品化實踐_第4頁
基于Spark的用戶行為路徑分析的產(chǎn)品化實踐_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于Spark的用戶行為路徑分析的產(chǎn)品化實踐路徑分析有助于產(chǎn)品的優(yōu)化改進與優(yōu)化,可以用于分析各個模塊的流轉(zhuǎn)規(guī)律與特點,挖掘用行為,進而不斷努力實現(xiàn)產(chǎn)品優(yōu)化改進與改進。用戶行為路徑分析是互聯(lián)網(wǎng)行業(yè)特有的一類數(shù)據(jù)分析方法,它主要根據(jù)每位用戶在App或網(wǎng)站中的點擊違規(guī)行為日志,分析用戶在App或商業(yè)網(wǎng)站當中中各個模塊的流轉(zhuǎn)規(guī)律與特點,挖掘用戶的訪問或點擊模式,進而實現(xiàn)一些某個業(yè)務發(fā)展的業(yè)務用途,如App核心模塊的駛向率提升、特定用戶群體的主流表現(xiàn)形式路徑提取與瀏覽形態(tài)刻畫,App產(chǎn)品設(shè)計的完善與改版等。用戶行為路徑分析的一個重要終極目的便是優(yōu)化與提升關(guān)鍵模塊的轉(zhuǎn)化率,使得用戶可以便捷地依照產(chǎn)品設(shè)計結(jié)點期望的主流路徑直達核心模塊。具體在分析過程中還存在著以下的應用場景:.用戶典型路徑識別與用戶特征分析用戶特征分析中常常使用的都是一些如性別、地理環(huán)境等人口地理位置統(tǒng)計數(shù)據(jù)或訂單價、訂單數(shù)等運營數(shù)據(jù),用戶訪問路徑數(shù)據(jù)為我們側(cè)門了解用戶特征打開了另一扇大門。例如對于一款圖片制作上傳分享的應用,我們可以通過用戶的App使用操作數(shù)據(jù),來劃分出樂于制作上傳的創(chuàng)作型用戶,樂于點贊評論的互動型用戶,默默瀏覽看圖的潛水型用戶,以及從不上傳只會下載圖片的消費型用戶。.產(chǎn)品設(shè)計的優(yōu)化與改進路徑分析對產(chǎn)品設(shè)計的優(yōu)化與改進有著很大的幫助,可以用于監(jiān)測與優(yōu)化期望用戶路徑中其各模塊的轉(zhuǎn)化率,也可以發(fā)現(xiàn)某些冷僻的功能點。一款視頻創(chuàng)作分享型App應用中,從開始拍攝制作視頻到視頻的最終發(fā)布過程中,用戶進行往往要進行一系列的剪輯操作;通過路徑分析,我們可以清晰的看到哪些熟識是用戶熟知并喜愛的編輯工具,哪些操作過于冗長繁瑣,這樣可以幫助我們后期制作針對性地改進剪輯操作接口,優(yōu)化用戶體驗。如果在路徑分析過程中用戶的創(chuàng)作數(shù)量與用戶被點贊、評論以及分享的行為密切相關(guān),就可以需要考慮增強這款App的社交性,增強客戶端黏性與創(chuàng)作欲望。.產(chǎn)品運營過程的監(jiān)控產(chǎn)品關(guān)鍵模塊轉(zhuǎn)化率的本身即是一項很重要的產(chǎn)品運營指標,通過路徑分析來監(jiān)測與驗證相應的運營活動結(jié)果,可以適于相關(guān)人員認識了解運營活動效果。說到這里不得不提及一下漏斗建模隔閡與路徑分析的關(guān)系合計提到的路徑分析與我們提到較為熟知的漏斗模型有相似之處,廣義上說,模型可以看作是路徑分析中的一種特殊情況,是針對少數(shù)人為為數(shù)不少特定模塊與事件節(jié)點的路徑分析。語義換句話說是一種水平線的抽象邏輯。漏斗模型通常是圓柱形對用戶在網(wǎng)站或App中一系列關(guān)鍵數(shù)據(jù)包的轉(zhuǎn)化率的描述,這些常常關(guān)鍵節(jié)點往往是我們?nèi)藶橹付ǖ?。例如我們可以聽到某購物App技術(shù)的購買行為的漏斗轉(zhuǎn)化情況。這款購物App平臺上,買家從瀏覽到支付獲得成功成功經(jīng)歷了4個關(guān)鍵節(jié)點,商品瀏覽、加入購物車、結(jié)算、付款成功,從步驟1到步驟4,經(jīng)歷了其關(guān)鍵節(jié)點的人群越來越少,節(jié)點的轉(zhuǎn)化率呈現(xiàn)出一個漏斗狀的危急情況,我們基于可以針對各個環(huán)節(jié)的轉(zhuǎn)化成本、運營效果及過程進行監(jiān)控和業(yè)務發(fā)展管理,對于或進行轉(zhuǎn)化率較低的環(huán)節(jié)進行創(chuàng)新性的深入分析與改進。路徑分析與漏斗模型存在不同之處,它通常是對每一個用戶的一個行為路徑進行跟蹤與記錄,分析方法在此基礎(chǔ)上分析挖掘用戶路徑犯罪行為特點,涉及到每一步的來源與利內(nèi)區(qū)、每一步的轉(zhuǎn)化率。可以說,圓筒形模型是事先的、人為的、主動的設(shè)定了八個若干個關(guān)鍵事件控制點路徑,而路徑分析是探索性的去挖掘整體的行為路徑,找出用戶的主流路徑,甚至可能發(fā)現(xiàn)某些事先不為人知有趣的模式路徑。從技術(shù)手段上來看,漏斗模型簡單直觀計算并相關(guān)的轉(zhuǎn)化率,路徑分析會涉及到一些更為廣泛的各個方面。這塊有一個對大部分產(chǎn)品問題初步判定實踐,首先我們會通過用戶行為大概的了解一下用戶是否依照產(chǎn)品設(shè)計期望的主流路徑直達核心模塊。然后結(jié)合互補具體的業(yè)務迷宮建立漏斗細看轉(zhuǎn)化。最后通過用戶細查詳細的查看具體用戶的行為。實際在具體實踐中反復結(jié)合既定這三步,我們內(nèi)幕消息可以得到許多有價值的內(nèi)部信息。SunburstPartition可視化分析探索通過解析布點獲得的用戶行為數(shù)據(jù),我們可以用最簡單與直接的方式將每個用戶的事件路徑流數(shù)據(jù)進行統(tǒng)計,并用數(shù)據(jù)可視化方法將其直觀地呈現(xiàn)原始數(shù)據(jù)出來。D3.js是當前極為流行的數(shù)據(jù)可視化庫當前之一,我們可以利用其中的SunburstPartition來描畫用戶群體的事件路徑描繪出來點擊狀況。從該繪的圓心出發(fā),層層向外推進,代表了用戶從開始使用到離開的整個行為統(tǒng)計;Sunburst事件路徑圖可以快速定位用戶的主流使用路徑。通過提取特定人群或特定模塊之間的路徑數(shù)據(jù)資料,并使用Sunburst事件路徑圖進行分析,可以定位實體化到更深層次的環(huán)境問題。常用較的用戶行為路徑算法有基于關(guān)聯(lián)分析的序列路徑挖掘方法和社會網(wǎng)絡分析.基于關(guān)聯(lián)分析的序列路徑挖掘方法明確指出關(guān)聯(lián)規(guī)則分析,必然免不了數(shù)據(jù)挖掘重大案件中的經(jīng)典案例“啤酒與尿布”。暫且不論“啤酒與尿布”是不是Teradata的一位經(jīng)理胡編亂造吹噓出來的“神話故事”,這個案例在同樣一定程度上讓人們理解與懂得了購物籃分析(關(guān)聯(lián)分析)的流程以及背后所帶來的業(yè)務價值。將超市的每個客戶一次購買的所有商品看成一個購物籃,運用關(guān)聯(lián)規(guī)則算法分析這些存儲在數(shù)據(jù)庫中的購買行為數(shù)據(jù),即購物籃分析,發(fā)現(xiàn)10%的顧客同僚購買了尿布與啤酒,且在所有購買了尿布的顧客中,70%的人同時購買了果酒。于是超市決定將啤酒與尿布擺放在,結(jié)果明顯提升了年銷售額。我們在此不妨將每個應用程序每次軟件包使用App時操作所有事件點看成“購物籃”中的“一系列商品”,與上面提到的購物籃不同的是,這里的所有事件點擊行為都是存在嚴格的前后事件順序的。我們可以通過改進關(guān)聯(lián)規(guī)則中的Apriori或FP-Growth算法,使其可以挖掘存在嚴格先后順序的頻繁用戶行為路徑,不失為一種重要的用戶路徑分析思路。我們可以本體論仔細考量發(fā)掘出來的規(guī)則序列路徑所體現(xiàn)的產(chǎn)品業(yè)務邏輯,也可以比較分析不同不盡相同客戶群體之間的規(guī)則序列路徑。.社會網(wǎng)絡分析(或鏈接分析)早期的搜索引擎主要基于檢索網(wǎng)頁內(nèi)容與用戶查詢的相似性或者通過查找搜索引擎中被索引過的頁面為用戶查找相關(guān)的網(wǎng)頁,隨著90年代中后期互聯(lián)網(wǎng)網(wǎng)頁數(shù)量的爆炸式持續(xù)增長,早期的策略不再有效,無法對大量的相似網(wǎng)頁給出合理的排序搜索結(jié)果?,F(xiàn)今的搜索引擎巨頭如Google、百度都采用了如上所述鏈接分析的搜索引擎算法來作為這個建模問題的解決方法之一。網(wǎng)頁與網(wǎng)頁之間通過超鏈接結(jié)合在一起,如同微博上的社交網(wǎng)絡通過關(guān)注行為連接起來,社交網(wǎng)絡中有影響力很大的知名權(quán)威大V們,互聯(lián)網(wǎng)上也存在著網(wǎng)絡營銷重要性或權(quán)威性極高的網(wǎng)頁。將權(quán)威性較高網(wǎng)頁提供到搜索引擎結(jié)果的前面,使得搜尋的效果更佳。我們將社交網(wǎng)絡中其人看作一個個節(jié)點,將互聯(lián)網(wǎng)中的網(wǎng)頁看作一個個節(jié)點,甚至可以將我們的App產(chǎn)品中的每一個模塊事件看成中同一個個節(jié)點,節(jié)點節(jié)點與之間通過各自的方式連接組成了一個特定的網(wǎng)絡圖,以下將基于這些網(wǎng)絡結(jié)構(gòu)的分析方法統(tǒng)稱為社會網(wǎng)絡分析。社會網(wǎng)絡分析中存在一些較為常見的分析方法可以運用到我們的路徑分析中來,如節(jié)點的中心性分析,節(jié)點的影響力建模,社區(qū)發(fā)現(xiàn)等。通過中心性分析,我們可以去探索哪些模塊事件處于中心地位,或者作為樞紐連接了兩大類元件事件,或者成為大多數(shù)模塊事件的最終到達目的地。通過社區(qū)發(fā)現(xiàn),我們?nèi)艨梢匀ヌ剿鬟@個社會網(wǎng)絡中所是否存在一些“小圈子”,即用戶總是喜歡去操作方式的這些行為一小部分行為路徑,而該部分又與其他大部分模塊相對獨立。前面是一個大致的用戶行為路徑產(chǎn)品需求導圖

我們大體終極目標要完成基于人數(shù)和次數(shù)的用戶中心思想行為路徑,可以提供支持從任意事件起下查后續(xù)行為或者命案上查來源行為,并且要支持任意30天時間行為路徑的查看。最重要的一點是強調(diào)用戶體驗可能需要較實時處理獲得結(jié)果。根據(jù)上述這些需求,我們給出基于Spark的用戶違規(guī)行為路徑實踐。Spark是一個基于內(nèi)存計算的開源集群計算系統(tǒng),目地是更快速的進行數(shù)據(jù)分析下面是一個Spark的套件圖伯克利將Spark的整個生態(tài)系統(tǒng)稱為伯克利數(shù)據(jù)分析棧(BDAS)。其核心框架是Spark,同時BDAS涵蓋支持結(jié)構(gòu)化數(shù)據(jù)SQL查詢與分析的查詢柴油發(fā)動機SparkSQL,提供更多機器學習功能的系統(tǒng)MLbase及底層的分布式機器學習庫MLlib、并行圖計算框架GraphX,流計算框架SparkStreaming。這些子項目在5口@正上層提供服務了更高層、當更豐富的計算范式。

卜面簡單介紹一下Spark的Yarn-Cluster任務提交流程:Spjrk匕m

cnentI提處申清壯二不[匠1刎11動App3申消smallerI提處申清壯二不[匠1刎11動App3申消smallerG/f哥完成中希LLdXi_Uacll2^1Ml5進下任務分派并監(jiān)控E受SparkChnteKtDAGSdieduler下面給出我們整體行為路徑的數(shù)據(jù)流向以及過程數(shù)據(jù)收集:互聯(lián)網(wǎng)行業(yè)對數(shù)據(jù)數(shù)字的獲取有著得天獨厚的優(yōu)勢,路徑分析所依賴的數(shù)據(jù)主要就是服務器中的日志數(shù)據(jù)。用戶在使用App過程也中的每一步都可以被記錄下來,這時候需要關(guān)注的便是優(yōu)秀的布點策略,它應當與我們所關(guān)心的業(yè)務息息相關(guān)。事實上,在每個App里,不是所有事件都有著血案同樣的價值,如上所述對核心事件的消費需求深度分析需求,推薦大家使用層級化的自定義事件布點方式,每一個事件由三個層次組成的:事件(Event)、屬性(Key)和屬性值(Value)。數(shù)據(jù)清洗:在ETL階段我們會把收集到的Android/IOS/JSSDK數(shù)據(jù)成功進行統(tǒng)一的處理,從上述的JSON格式里面取出預定義好的字段(我們需要的一些重要信息)寫入本地文件中。數(shù)據(jù)獲取:將寫到好的本地文件通過延時定時加載程序加載到Inforbright里面,得到一系列的根基表。然后從這些基礎(chǔ)表里通過跑批程序跑出方便查詢和使用的一些匯總表。為了減少Spark實時內(nèi)存計算壓力我們將用戶行為路徑核心算法過程分為離線部分和線上請求部分。如下:中間結(jié)果計算:回溯前之前第五節(jié)說到產(chǎn)品需求,要完成這些需要(人數(shù),次數(shù),后續(xù)行為,來源行為,30天時間內(nèi)用任意查詢),我們需要從數(shù)據(jù)庫里賺取事件ID,會話ID,事件觸發(fā)時間,設(shè)備ID,用戶ID這些信息。如圖所示:E9眄丸2147gSS346e?0B40B616301&11-2314:44:2414B6741H15mm14798g7乃靦洲崎8打52016-11-2318:49:171807882127649*6933147987g了乳械的配56920U-U-2313:44:眥13BH820138147就野7SMGM6B8352616-11-2315:44:1219425B2037623576563147gg7g731。0M船56g 2?16-ll-2313:*3:36UO0S72113823S7656314798&7112呢眄時441 2016-11-2318:12:2310014771071479897乃鈍觸帽83”201^-11-3316;42:4flIW2721376??7717147986539^903572702016-11-2319:41:S39MM1*043572712357656:]1479883460翎到郵616 2016-11-2314:14:02140945UH5〃”制891479B797力呢M郵5叫 2?1?-11-2313;43:52ueen下面重點來了,首先我們會將上述信息做一些處理。法則就是將一個會話ID下面的同一個用戶ID的所有事件按照全部事件發(fā)生的順序進行排序。這塊為了進一步減少之后Spark內(nèi)存使用我們會將緩存所有超長ID進行一次map。例如下圖中最后一列的1表示的就是map過后的會話ID。第三列表示的是用戶ID第五列和第六

8&32S1C,7232351,1b3518&32S1C,7232351,1b351r5fp195—1上七普,7皿……上, J冬W3,山111V.X7232351.8532810,16351,30161006,4p1,10532&10,7232351r16351F20161036,3r2p1a532S10#@532610■16351.2Q161@06r2f3P1S532B10r3L6k351,Z0161@06#1,4,16907797^565^15351,2016100S>51具體解讀一下圖中的資料:用戶ID為16351的用戶在其map過后ID為1的會話中的事件你會發(fā)現(xiàn)按照上述的過程,我們將獲取到的原始數(shù)據(jù)進行離線轉(zhuǎn)化后,新的數(shù)據(jù)就會天然的支持我們的產(chǎn)品:人數(shù),次數(shù),后續(xù)行為,來源行為。對于30天內(nèi)會任意時間查詢,我們也做了多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論