用戶行為數(shù)據(jù)分析的項目計劃書-課件_第1頁
用戶行為數(shù)據(jù)分析的項目計劃書-課件_第2頁
用戶行為數(shù)據(jù)分析的項目計劃書-課件_第3頁
用戶行為數(shù)據(jù)分析的項目計劃書-課件_第4頁
用戶行為數(shù)據(jù)分析的項目計劃書-課件_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

用戶行為數(shù)據(jù)分析項目計劃書用戶行為數(shù)據(jù)分析項目計劃書

2019/5/4

修改記錄版本修改日期修改人修改內(nèi)容審核人V1.01技術(shù)開發(fā)部創(chuàng)建,初稿 用戶行為數(shù)據(jù)分析項目計劃書版本修改日期修改人修改內(nèi)容審核人1用戶行為數(shù)據(jù)分析項目計劃書V1.01V1.01V1.01V1.01V1.01V1.01

數(shù)據(jù)采集方式分析 數(shù)據(jù)分析模型需求 描述和示例 網(wǎng)站用戶身份識別; web日志缺陷;漏斗模 型 數(shù)據(jù)分析模型與數(shù)據(jù) 庫表的對應(yīng)關(guān)系 WEKA開源數(shù)據(jù)挖 掘工具 統(tǒng)計分析系統(tǒng)項目周 期和項目開發(fā)進度 Analysis.mpp技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書V1.01 數(shù)據(jù)采集方式分析2用戶行為數(shù)據(jù)分析項目計劃書目錄一、項目背景5二、相關(guān)術(shù)語5 1.Web數(shù)據(jù)挖掘5 1)Web數(shù)據(jù)挖掘分類6 2)Web數(shù)據(jù)的特點7 3)典型Web挖掘的處理流程7 4)常用的數(shù)據(jù)挖掘技術(shù)7 5)Web商業(yè)智能BI(BusinessIntelligence)8 2.網(wǎng)站流量統(tǒng)計10 3.統(tǒng)計指標(biāo)/術(shù)語10 4.用戶分析--網(wǎng)站用戶的識別13 5.WEB日志的作用和缺陷15 6.漏斗模型(FunnelModel)17 7.目前提供此服務(wù)產(chǎn)品/企業(yè)18三、項目目的18四、項目需求18 1.頁面統(tǒng)計18 2.用戶行為指標(biāo)19 3.潛在用戶特征分析19 4.指定UserCookie的分析20 5.用戶趨勢分析20五、項目系統(tǒng)設(shè)計20六、項目詳細設(shè)計21 1.數(shù)據(jù)收集21 2.數(shù)據(jù)模型22 1)統(tǒng)計PV量(趨勢)22 2)消重統(tǒng)計獨立IP量/IP的平均訪問頁面量(趨勢)22 3)消重統(tǒng)計獨立UV量/UV的平均訪問頁面量(趨勢)23 4)統(tǒng)計URL的訪問來源Ref的量/Ref排行(趨勢)23 5)統(tǒng)計Ref=URL的去訪URL*/跳出的量/去訪/跳出排行(趨勢)23 6)統(tǒng)計分析/預(yù)測/規(guī)律特定用戶的行為(趨勢)24 7)統(tǒng)計新訪客/老訪客(趨勢)24 8)頁面平均停留時間/頁面平均時長(趨勢)24 9)搜索引擎列表24 10)搜索引擎關(guān)鍵詞25 11)搜索引擎關(guān)鍵詞(各搜索引擎)25 12)老用戶回頭率(用戶黏性)25 13)新增用戶增加/流失(用戶黏性)25 14)不活躍用戶激活(用戶黏性)26 15)用戶瀏覽深度(用戶黏性)26技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書目錄一、項目背景3用戶行為數(shù)據(jù)分析項目計劃書

16)用戶訪問興趣分析(用戶黏性)26 17)性別結(jié)構(gòu)(訪客特征分析)26 18)年齡結(jié)構(gòu)(訪客特征分析)26 19)學(xué)歷結(jié)構(gòu)(訪客特征分析)26 20)收入結(jié)構(gòu)(訪客特征分析)27 21)操作系統(tǒng)類型(客戶端信息)27 22)操作系統(tǒng)語言(客戶端信息)27 23)操作系統(tǒng)時區(qū)(客戶端信息)27 24)瀏覽器(客戶端信息)27 25)顯示器顏色(客戶端信息)27 26)屏幕分辨率(客戶端信息)28 27)國家/省份-地址位置(客戶端信息)28 28)城市-地址位置(客戶端信息)28 29)接入商(客戶端信息)28 30)場所(客戶端信息)283.數(shù)據(jù)處理284.數(shù)據(jù)展示28 1)參考網(wǎng)站29 2)趨勢–曲線圖趨勢35

3)忠誠度/用戶黏性39 4)用戶客戶端瀏覽器41 5)來源分析:Ref分析、站內(nèi)/站外、站外統(tǒng)計41 6)用戶行為45七、項目約束45八、項目資源45九、項目周期46十、項目交付48十一、其他信息48技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書 16)用戶訪問興趣分析(用戶黏4用戶行為數(shù)據(jù)分析項目計劃書一、項目背景

數(shù)據(jù)挖掘技術(shù)是近年來計算機技術(shù)發(fā)展的熱點之一。通過對歷史積累的大量數(shù)據(jù)的有效挖掘,可以發(fā)現(xiàn)隱藏的規(guī)律或模式,為決策提供支持,而這些規(guī)律或模式是不能夠依靠簡單的數(shù)據(jù)查詢得到,或者是不能在可接受的時間內(nèi)得到。這些規(guī)律或模式可以進一步在專業(yè)人員的識別下成為知識。數(shù)據(jù)挖掘面對的任務(wù)是復(fù)雜的,通常包括分類、預(yù)測、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)和聚類分析等。

企業(yè)網(wǎng)站的績效考評就是指企業(yè)網(wǎng)站訪問情況的績效考評,在網(wǎng)絡(luò)營銷評價方法中,網(wǎng)站訪問統(tǒng)計分析是重要的方法之一,通過網(wǎng)站訪問統(tǒng)計報告,不僅可以了解網(wǎng)絡(luò)營銷所取得的效果,而且可以從統(tǒng)計數(shù)字中發(fā)現(xiàn)許多有說服力的問題。網(wǎng)站訪問量統(tǒng)計分析無論對于某項具體的網(wǎng)絡(luò)營銷活動還是總體效果都有參考價值,也是網(wǎng)絡(luò)營銷評價體系中最具有說服力的量化指標(biāo)。

銷售預(yù)測在提高企業(yè)的經(jīng)濟效益及決策支持水平方面占有重要的地位。隨著企業(yè)信息化水平的提高,企業(yè)銷售數(shù)據(jù)的日益豐富,管理者對其中隱藏的銷售預(yù)測信息的渴望日益強烈。用傳統(tǒng)的方法來分析這些海量數(shù)據(jù)中的銷售信息非常困難,已不能適應(yīng)時代的要求。如何找到更好的方法挖掘出銷售數(shù)據(jù)中隱藏的銷售預(yù)測信息。二、相關(guān)術(shù)語1.Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘建立在對大量的網(wǎng)絡(luò)數(shù)據(jù)進行分析的基礎(chǔ)上,采用相應(yīng)的數(shù)據(jù)挖掘算法,在具體的應(yīng)用模型上進行數(shù)據(jù)的提取、數(shù)據(jù)篩選、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和模式分析,最后做出歸納性的推理、預(yù)測客戶的個性化行為以及用戶習(xí)慣,從而幫助進行決策和管理,減少決策的風(fēng)險。Web數(shù)據(jù)挖掘涉及多個領(lǐng)域,除數(shù)據(jù)挖掘外,還涉及計算機網(wǎng)絡(luò)、數(shù)據(jù)庫與數(shù)據(jù)倉儲、人工智能、信息檢索、可視化、自然語言理解等技術(shù)。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書一、項目背景 數(shù)據(jù)挖掘技術(shù)是5用戶行為數(shù)據(jù)分析項目計劃書1)Web數(shù)據(jù)挖掘分類Web數(shù)據(jù)挖掘可分為四類:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘和Web用戶性質(zhì)挖掘。其中,Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用記錄挖掘是Web1.0時代就已經(jīng)有了的,而Web用戶性質(zhì)挖掘則是伴隨著Web2.0的出現(xiàn)而出現(xiàn)的。2.1Web內(nèi)容挖掘(WCM,WebContentMining)2.2Web結(jié)構(gòu)挖掘(WSM,WebStructureMining)的基本思想是將Web看作一個有向圖,他的頂點是Web頁面,頁面間的超鏈就是圖的邊。然后利用圖論對Web的拓?fù)浣Y(jié)構(gòu)進行分析。2.3Web使用記錄挖掘(WUM,WebUsageMining)Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘。它是通過挖掘相關(guān)的Web日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的喜好、滿意度,可以發(fā)現(xiàn)潛在用戶,增強站點的服務(wù)競爭力。Web使用記錄數(shù)據(jù)除了服務(wù)器的日志記錄外,還包括代理服務(wù)器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢、等一切用戶與站點之間可能的交互記錄。Web使用記錄挖掘方法主要有以下兩種:(1)將網(wǎng)絡(luò)服務(wù)器的日志文件作為原始數(shù)據(jù),應(yīng)用特定的預(yù)處理方法進行處理后再進行挖掘;(2)將網(wǎng)絡(luò)服務(wù)器的日志文件轉(zhuǎn)換為圖表,然后再進行進一步的數(shù)據(jù)挖掘。通常,在對原始數(shù)據(jù)進行預(yù)處理后就可以使用傳統(tǒng)的數(shù)據(jù)挖掘方法進行挖掘。2.4Web用戶性質(zhì)挖掘Web用戶性質(zhì)挖掘是伴隨著Web2.0的出現(xiàn)而出現(xiàn)的?;赗SS、Blog、SNS、Tag以及WiKi等互聯(lián)網(wǎng)軟件的廣泛應(yīng)用,Web2.0幫助人們從Web1.0時代各大門戶網(wǎng)站“填鴨”式的信息轟炸,過渡到了“人人對話”,每個普通用戶既是信息的獲取者,也是信息的提供者。[4]面對Web2.0的誕生,Web數(shù)據(jù)挖掘技術(shù)又面臨著新的挑戰(zhàn)。如果說Web使用記錄挖掘是挖掘網(wǎng)站訪問者在各大網(wǎng)站上留下的痕跡,那么Web用戶性質(zhì)挖掘則是要去Web用戶的老巢探尋究竟。在Web2.0時代,網(wǎng)絡(luò)徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定制服務(wù)創(chuàng)造自己的互聯(lián)網(wǎng),它一方面給予互聯(lián)網(wǎng)用戶最大的自由度,另一方面給予有心商家有待發(fā)掘的高含金量信息數(shù)據(jù)。通過對Web用戶自建的RSS、Blog等Web2.0功能模塊下客戶信息的統(tǒng)計分析,能夠幫助運營商以較低成本獲得準(zhǔn)確度較高的客戶興趣傾向、個性化需求以及新業(yè)務(wù)發(fā)展趨勢等信息。有關(guān)Web2.0下的數(shù)據(jù)挖掘正在進一步的研究中。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書1)Web數(shù)據(jù)挖掘分類Web6用戶行為數(shù)據(jù)分析項目計劃書2)Web數(shù)據(jù)的特點1)異構(gòu)數(shù)據(jù)庫環(huán)境。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,因而每一站點的信息和組織都不一樣,這就構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)庫。2)分布式數(shù)據(jù)源。Web頁面散布在世界各地的Web服務(wù)器上,形成了分布式數(shù)據(jù)源。3)半結(jié)構(gòu)化。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點。Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,是一種非完全結(jié)構(gòu)化的數(shù)據(jù),稱之為半結(jié)構(gòu)化數(shù)據(jù)。4)動態(tài)性強。Web是一個動態(tài)性極強的信息源,信息不斷地快速更新,各站點的鏈接信息和訪問記錄的更新非常頻繁。5)多樣復(fù)雜性。Web包含了各種信息和資源,有文本數(shù)據(jù)、超文本數(shù)據(jù)、圖表、圖像、音頻數(shù)據(jù)和視頻數(shù)據(jù)等多種多媒體數(shù)據(jù)。3)典型Web挖掘的處理流程包括如下四個過程:

1)查找資源:根據(jù)挖掘目的,從Web資源中提取相關(guān)數(shù)據(jù),構(gòu)成目標(biāo)數(shù)據(jù)集,Web數(shù)據(jù)挖掘主要從這些數(shù)據(jù)通信中進行數(shù)據(jù)提取。其任務(wù)是從日標(biāo)Web數(shù)據(jù)(包括Web文檔、電子郵件、電子文檔、新聞組、網(wǎng)站日志、網(wǎng)絡(luò)數(shù)據(jù)庫中的數(shù)據(jù)等)中得到數(shù)據(jù)。

2)數(shù)據(jù)預(yù)處理:在進行Web挖掘之前對“雜質(zhì)”數(shù)據(jù)進行過濾。例如消除數(shù)據(jù)的不一致性;將多個數(shù)據(jù)源中的數(shù)據(jù)統(tǒng)一為一個數(shù)據(jù)存儲等。預(yù)處理數(shù)據(jù)的效果直接影響到挖掘算法產(chǎn)生的規(guī)則和模式。數(shù)據(jù)預(yù)處理主要包括站點識別、數(shù)據(jù)選擇、數(shù)據(jù)凈化、用戶識別和會話識別等。

3)模式發(fā)現(xiàn):利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的及最終可以理解的信息和知識。常用的模式發(fā)現(xiàn)技術(shù)包括:路徑分析、關(guān)聯(lián)規(guī)則挖掘、時序模式發(fā)現(xiàn)、聚類和分類等技術(shù)。4)模式分析:利用合適的工具和技術(shù)對挖掘出來的模式進行分析、解釋、可視化,把發(fā)現(xiàn)的規(guī)則模式轉(zhuǎn)換為知識。4)常用的數(shù)據(jù)挖掘技術(shù)6.1路徑分析技術(shù)

我們通常采用圖的方法來分析Web頁面之問的路徑關(guān)系。G=(V,E),其中:V是頁面的集合,E是頁面之間的超鏈接集合,頁面定義為圖中的頂點,而頁面聞的超鏈接定義為圖技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書2)Web數(shù)據(jù)的特點1)異構(gòu)數(shù)7用戶行為數(shù)據(jù)分析項目計劃書中的有向邊。頂點v的人邊表示對v的引用,出邊表示v引用了其他的頁面,這樣形成網(wǎng)站的結(jié)構(gòu)圖,從圖中可以確定最頻繁的訪問路徑。路徑分析技術(shù)常用于進行改進站點的結(jié)構(gòu)。如70%的用戶訪問/company/product時,是從/company開始,經(jīng)過/company/new/company/products/company/product。此時可以將路徑放在比較顯著的地方,方便了用戶訪問,也提高了該產(chǎn)品的點擊率。6.2關(guān)聯(lián)規(guī)則技術(shù)

關(guān)聯(lián)規(guī)則挖掘技術(shù)主要用于從用戶訪問序列數(shù)據(jù)庫的序列項中挖掘出相關(guān)的規(guī)則,就是要挖掘出用戶在一個訪問期限(Session),從服務(wù)器上訪問的頁面文件之間的聯(lián)系,這些頁面之間并不存在直接的參引(Reference)關(guān)系。使用關(guān)聯(lián)規(guī)則可以發(fā)展很多相關(guān)信息或產(chǎn)品服務(wù)。例如:某信息A和B,同時被很多用戶瀏覽,則說明A和B有可能相關(guān)。同時點擊的用戶越多,其相關(guān)度就可能越高。系統(tǒng)可以利用這種思想為用戶推薦相關(guān)信息或產(chǎn)品服務(wù)。如當(dāng)當(dāng)電子書店就采用了這一模式用以推薦相關(guān)書目。當(dāng)你選擇某本圖書時,系統(tǒng)會自動給你推薦信息,告知“很多讀者在購買此書時還購買的其他書目”。ACM數(shù)字圖書館也采用了這一思想,推出信息推薦服務(wù)“PeertoPeer”。6.3序列模式挖掘技術(shù)

序列模式數(shù)據(jù)挖掘技術(shù)就是要挖掘出交易集之間的有時間序列關(guān)系的模式。它與關(guān)聯(lián)挖掘技術(shù)都是從用戶訪問下的日志中尋找用戶普遍訪問的規(guī)律,關(guān)聯(lián)挖掘技術(shù)注重事務(wù)內(nèi)的關(guān)系,而序列模式技術(shù)則注重事務(wù)之間的關(guān)系。發(fā)現(xiàn)序列模式,便于預(yù)測用戶的訪問模式,有助于開展基于這種模式的有針對性的廣告服務(wù)。依賴于發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則和序列模式,能夠在服務(wù)器方動態(tài)地創(chuàng)立特定的有針對性的頁面。以滿足訪問者的特定需求。6.4聚類分類技術(shù)

分類規(guī)則可挖掘出某些共同的特性,而這一特性可對新添加到數(shù)據(jù)庫中的數(shù)據(jù)項進行分類。在Web數(shù)據(jù)挖掘中,分類技術(shù)可根據(jù)訪問用戶而得到個人信息、共同的訪問模式以及訪問某一服務(wù)器文件的用戶特征。而聚類技術(shù)則是對符合某一訪問規(guī)律特征的用戶進行用戶待征挖掘。發(fā)現(xiàn)分類規(guī)則可以識別一個特殊群體的公有屬性的描述,這種描述可以用于分類新的檢索。如政府機關(guān)的用戶一般感興趣的頁面是/company/product。聚類可以從Web訪問信息數(shù)據(jù)庫巾聚集出具有相似特性的用戶群。在Web事務(wù)日記中聚類用戶信息或數(shù)據(jù)項能夠便于開發(fā)和執(zhí)行未來的市場戰(zhàn)略。這些事務(wù)信息可以用在:在找出用戶共同興趣后,進行合作式信息推薦,共同體的成員町以互相推薦新的滾動信息;自動給一個特定的用戶聚類發(fā)送銷售郵件,為用戶聚類動態(tài)地改變一個特殊的站點等。5)Web商業(yè)智能BI(BusinessIntelligence)深入分析訪問數(shù)據(jù),從訪問數(shù)據(jù)中挖掘財富。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書中的有向邊。頂點v的人邊表示對8用戶行為數(shù)據(jù)分析項目計劃書web-ia/1、文本挖掘技術(shù)和聚類模型分析的網(wǎng)站自動分類;2、用戶訪問興趣聚類;3、用戶等級自動分類;4、用途分析;5、新產(chǎn)品推廣預(yù)測分析和精算分析;等一系列基于數(shù)學(xué)模型的TrueBI決策分析工具,幫助企業(yè)進行產(chǎn)品BI分析、用戶BI分析、服務(wù)質(zhì)量測評、新產(chǎn)品市場預(yù)測與分析等一系列TrueBI服務(wù)。一、異常訪問分析一般情況下,正常的用戶訪問網(wǎng)站都是通過瀏覽器(IE、FireFox等)向網(wǎng)站發(fā)送URL請求,操作是一個手動平緩的過程。所謂“異常訪問”,是指不是通過瀏覽器,而是通過程序進行的一個高速機械化的連續(xù)URL請求過程。這包括不良程序黑客攻擊、搜索引擎蜘蛛程序?qū)W(wǎng)站的訪問等。“異常訪問”主要包括5個功能:異常訪問分析、搜索引擎訪問分析、發(fā)生錯誤分析、異常URL分析、時段訪問分析。通過“異常訪問分析”,可以讓用戶發(fā)現(xiàn)異常訪問行為和訪問規(guī)律,通過對URL請求頻度、服務(wù)器處理時間、請求流量等時序圖形趨勢分析,確定黑客攻擊點,排查軟件錯誤、診斷服務(wù)器處理能力、網(wǎng)站Internet帶寬限制“瓶頸”所在點。

二、頻道關(guān)聯(lián)分析頻道關(guān)聯(lián)分析應(yīng)用對象是內(nèi)容管理者。網(wǎng)站在內(nèi)容服務(wù)層面被抽象為“頻道--子頻道--內(nèi)容”,組成“網(wǎng)站結(jié)構(gòu)樹”。數(shù)據(jù)挖掘的經(jīng)典故事是“啤酒和尿布”關(guān)聯(lián)發(fā)現(xiàn),說的是對某個商場的數(shù)據(jù)挖掘發(fā)現(xiàn),購買啤酒的人有很多同時購買尿布。關(guān)聯(lián)分析的目的,是發(fā)現(xiàn)在一個事物中,各個元素的關(guān)聯(lián)關(guān)系,通過關(guān)聯(lián)關(guān)系的發(fā)現(xiàn),指導(dǎo)“關(guān)系設(shè)置”,進而引導(dǎo)事物向有利于管理者主觀傾向的方向發(fā)展。Web-DM中的“頻道關(guān)聯(lián)分析”,針對Web的具體應(yīng)用情況,對經(jīng)典的“關(guān)聯(lián)分析”算法進行了改進,使關(guān)聯(lián)分析速度更快,分析結(jié)果也更加有效。簡單的結(jié)果可能不能給管理者更多的指導(dǎo)。Web-DM不僅僅簡單地給出關(guān)聯(lián)分析中的“支持度”和“置信度”指標(biāo),在此基礎(chǔ)上,提出了“置信差”指標(biāo),進一步提高關(guān)聯(lián)分析結(jié)果的可用性。在給出關(guān)聯(lián)分析技術(shù)指標(biāo)的同時,給出包含關(guān)聯(lián)項的訪問Session,使用戶可以更加詳細觀察和研究關(guān)聯(lián)分析的結(jié)果。

三、特定關(guān)聯(lián)分析“頻道關(guān)聯(lián)分析”是在內(nèi)邏輯層面的關(guān)聯(lián)分析,對于“廣告”和用戶特別關(guān)心的Page關(guān)聯(lián)分析是網(wǎng)站管理者希望掌握的數(shù)據(jù)。哪些Page對于廣告的貢獻有多大?看廣告的人更多的看了哪些Page?特別推出的內(nèi)容與網(wǎng)站的其他URL有哪些關(guān)聯(lián)?關(guān)聯(lián)程度如何?Web-DM的“特定關(guān)聯(lián)分析”給出深入分析結(jié)果,同時以簡單直觀的形式展示給用戶。以提供新聞或本地新聞為主的門戶網(wǎng)站,管理人員關(guān)心網(wǎng)站總體訪問情況,整體訪問趨勢,內(nèi)容編輯人員關(guān)心熱門新聞和冷門新聞以及TOP排名,經(jīng)營人員關(guān)心訪問者從哪個頻道登錄網(wǎng)站、從哪個頻道的哪個頁面離開網(wǎng)站,其訪問行為呈現(xiàn)什么規(guī)律,設(shè)計人員關(guān)心網(wǎng)站頻道的如何設(shè)置以及頁面版面的如何布局,維護人員關(guān)心錯誤是怎么產(chǎn)生的、如何跳轉(zhuǎn)的、網(wǎng)站是否收到惡意攻擊等。商務(wù)網(wǎng)站主要針對在網(wǎng)站上已經(jīng)注冊的客戶群,作為網(wǎng)站的經(jīng)營者不僅要掌握用戶在網(wǎng)上技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書web-ia/1、文本挖掘技術(shù)和聚9···用戶行為數(shù)據(jù)分析項目計劃書關(guān)心哪些商品,更重要的是要掌握匿名用戶怎么變成注冊用戶,轉(zhuǎn)化率是多少,匿名用戶是直接訪問的還是通過搜索引擎鏈接來的,購買行為如何,營業(yè)額是多少等。對于電子郵件市場推廣,通過沉默用戶分析其沉默時間,根據(jù)發(fā)出量、返回量、成交量來判斷市場推廣效果。對于廣告市場推廣,通過曝光量、點擊量、成交量來反映市場推廣的效果。2.網(wǎng)站流量統(tǒng)計流量統(tǒng)計是什么是指通過各種科學(xué)的方式,準(zhǔn)確的紀(jì)錄來訪某一頁面的訪問者的流量信息,目前而言,必須具備可以統(tǒng)計:統(tǒng)計獨立的訪問者數(shù)量(獨立用戶、獨立訪客);可以統(tǒng)計獨立的IP地址數(shù)量;可以統(tǒng)計頁面被刷新的數(shù)量。其他附加信息。3.統(tǒng)計指標(biāo)/術(shù)語頁面瀏覽數(shù)(pageviews)PV(pageview),即頁面瀏覽量,或點擊量;通常是衡量一個網(wǎng)絡(luò)新聞頻道或網(wǎng)站甚至一條網(wǎng)絡(luò)新聞的主要指標(biāo)。高手對PV的解釋是,一個訪問者在24小時(0點到24點)內(nèi)到底看了你網(wǎng)站幾個頁面。這里需要強調(diào):同一個人瀏覽你網(wǎng)站同一個頁面,不重復(fù)計算PV量,點100次也算1次。說白了,PV就是一個訪問者打開了你的幾個頁面。PV之于網(wǎng)站,就像收視率之于電視,從某種程度上已成為投資者衡量商業(yè)網(wǎng)站表現(xiàn)的最重要尺度。PV的計算:當(dāng)一個訪問者訪問的時候,記錄他所訪問的頁面和對應(yīng)的IP,然后確定這個IP今天訪問了這個頁面沒有。如果你的網(wǎng)站到了23點,單純IP有60萬條的話,每個訪問者平均訪問了3個頁面,那么PV表的記錄就要有180萬條。影響PV的因素:新聞發(fā)布的時間訪問的周期突發(fā)事件獨立訪客數(shù)(uniquevisitor)UV(uniquevisitor):指訪問某個站點或點擊某條新聞的不同IP地址的人數(shù)。在同一天內(nèi),UV只記錄第一次進入網(wǎng)站的具有獨立IP的訪問者,在同一天內(nèi)再次訪問該網(wǎng)站則不計數(shù)。獨立IP訪問者提供了一定時間內(nèi)不同觀眾數(shù)量的統(tǒng)計指標(biāo),而沒有反應(yīng)出網(wǎng)站的全面活動。每個訪問者的頁面瀏覽數(shù)(PageViewsperuser)技術(shù)開發(fā)部···用戶行為數(shù)據(jù)分析項目計劃書關(guān)心哪些商品,更重要的是要掌10·用戶行為數(shù)據(jù)分析項目計劃書PageViewsperuser:這是一個平均數(shù),即在一定時間內(nèi)全部頁面瀏覽數(shù)與所有訪問者相除的結(jié)果,即一個用戶瀏覽的網(wǎng)頁數(shù)量。這一指標(biāo)表明了訪問者對網(wǎng)站內(nèi)容或者產(chǎn)品信息感興趣的程度,也就是常說的網(wǎng)站“粘性”。重復(fù)訪客者數(shù)(repeatvisitors)repeatvisitors:重復(fù)訪問者。是指在一定時期內(nèi)不止一次訪問一個網(wǎng)站的獨立用戶。瀏覽數(shù)PageViews:網(wǎng)頁(含文件及動態(tài)網(wǎng)頁)被訪客瀏覽的次數(shù)。PageView的計算范圍包括了所有格式的網(wǎng)頁,例如:.htm、.html、.asp、.cfm、asa、cdx、htmls、shtm、shtml、txt等等,可以由用戶根據(jù)實際情況自己設(shè)定。訪問數(shù)Visits:也稱為登陸數(shù),一個登陸是指客戶開始訪問網(wǎng)站到離開網(wǎng)站的過程。其中:相鄰兩次點擊頁面時間間隔在30分鐘以內(nèi)(系統(tǒng)默認(rèn)30分鐘,用戶可以修改默認(rèn)值)為一次登陸,大于30分鐘為兩次登陸。用戶數(shù)UniqueVisitors:也稱為唯一客戶數(shù),是指一天內(nèi)訪問本網(wǎng)站的唯一IP個數(shù)。點擊數(shù)Hits:是指日志文件中的總記錄條數(shù)。停留時間VisitingTimes:也稱為訪問時長,是用同一個訪問過程中最后一個頁面的訪問時間減去第一個頁面的訪問時間,得到此訪問在網(wǎng)站上的停留時間。首頁瀏覽數(shù):網(wǎng)站首頁被訪客瀏覽的次數(shù)。過濾瀏覽數(shù)FilterPageViews:網(wǎng)站中的某些頁面并不是獨立的頁面,而是附屬于某個頁面,如滾動條頁面就是附屬于首頁的頁面,用戶可以將這些附屬頁面設(shè)置為過濾頁面,過濾頁面被訪客瀏覽的次數(shù)即為過濾瀏覽數(shù)。有效瀏覽數(shù)EffectivePageViews:去除過濾頁面后的其他所有頁面被訪客瀏覽的次數(shù),即有效瀏覽數(shù)=瀏覽數(shù)-過濾瀏覽數(shù)。平均訪問瀏覽數(shù):一次訪問平均產(chǎn)生的瀏覽數(shù),即平均訪問瀏覽數(shù)=瀏覽數(shù)÷訪問數(shù)。重復(fù)訪問數(shù)ReturningVisitsduringaday:一天內(nèi)訪問兩次以上的用戶數(shù)。曝光數(shù):廣告彈出次數(shù)。廣告點擊數(shù):用戶點擊彈出廣告的次數(shù),即Click數(shù)。返回數(shù):通過電子郵件進行市場推廣時,用戶通過點擊郵件中的鏈接地址訪問網(wǎng)站的次數(shù)。注冊數(shù):用戶通過電子郵件和廣告訪問本網(wǎng)站,并最終轉(zhuǎn)換為注冊用戶的數(shù)量。返回率:廣告彈出后,被用戶點擊的程度,即返回率=點擊數(shù)÷曝光數(shù)×100%??蛻艮D(zhuǎn)化率:客戶轉(zhuǎn)化率包含兩方面含義:用戶通過廣告訪問本網(wǎng)站,并最終轉(zhuǎn)化成注冊用戶的程度,即客戶轉(zhuǎn)化率=注冊數(shù)÷點擊數(shù)×100%;用戶通過郵件上的鏈接地址訪問本網(wǎng)站,并最終轉(zhuǎn)化成注冊用戶的程度,即客戶轉(zhuǎn)化率=注冊數(shù)÷返回數(shù)×100%。發(fā)送字節(jié)數(shù):從服務(wù)器端向客戶端發(fā)出的字節(jié)數(shù)。接收字節(jié)數(shù):服務(wù)器端從客戶端接收的字節(jié)數(shù)??傋止?jié)數(shù):是發(fā)送字節(jié)數(shù)和接收字節(jié)數(shù)的總和,即總字節(jié)數(shù)=發(fā)送字節(jié)數(shù)+接收字節(jié)數(shù)。行為/路徑:在一個訪問過程中,客戶訪問過的所有頁面的軌跡稱為路徑,或稱為行為。特定行為:由用戶自行定義的行為,包含若干行為步驟,其中行為步驟不受限制,即可以任意設(shè)定行為步驟。進而分析出滿足設(shè)定行為的發(fā)生次數(shù)及各個步驟之間的轉(zhuǎn)化率。特定行為轉(zhuǎn)化率:在特定行為中,兩個步驟之間的轉(zhuǎn)化率。行為入口:客戶開始訪問網(wǎng)站的第一個頁面。在Web-IA中,根據(jù)入口給出典型行為分析。行為出口:客戶訪問網(wǎng)站的最后一個頁面。在Web-IA中,根據(jù)出口給出典型行為分析。沉默時間:注冊用戶最后一次訪問網(wǎng)站到分析日的天數(shù)。沉默用戶:在沉默時間內(nèi)未訪問網(wǎng)站的注冊用戶。技術(shù)開發(fā)部·用戶行為數(shù)據(jù)分析項目計劃書PageViewsperu11用戶行為數(shù)據(jù)分析項目計劃書重復(fù)訪問用戶比例:一天內(nèi)訪問兩次以上用戶占總用戶數(shù)的比例,該值越大表明用戶品質(zhì)越高,理想值為100%。用戶粘著度指數(shù):一天內(nèi)的總訪問數(shù)與總用戶數(shù)之比,該值越大表明用戶品質(zhì)越高。重度訪問用戶:按每次訪問的停留時間劃分,把停留時間超過20分鐘的用戶歸為重度訪問用戶;也可以按照每次訪問產(chǎn)生的瀏覽數(shù)劃分,把一次訪問瀏覽超過10個頁面的用戶歸為重度訪問用戶。對于重度訪問用戶,包括以下四個指標(biāo),每個指標(biāo)值越大,表明用戶品質(zhì)越高。重度用戶比例(次數(shù))=(瀏覽數(shù)≥11頁面的訪問數(shù))÷總訪問數(shù)重度用戶比例(時長)=(>20分鐘的訪問數(shù))÷總訪問數(shù)重度用戶指數(shù)=(>20分鐘的瀏覽數(shù))÷(>20分鐘的訪問數(shù))重度訪問量比列=(>20分鐘的瀏覽數(shù))÷總瀏覽數(shù)輕度訪問用戶:按每次訪問的停留時間劃分,把停留時間不超過1分鐘的用戶歸為輕度訪問用戶。對于輕度訪問用戶,包括以下三個指標(biāo),每個指標(biāo)值越小,表明用戶品質(zhì)越高。輕度用戶比例=(0-1分鐘的訪問數(shù))÷總訪問數(shù)輕度用戶指數(shù)=(0-1分鐘的瀏覽數(shù))÷(0-1分鐘的訪問數(shù))輕度訪問量比例=(0-1分鐘的瀏覽數(shù))÷總瀏覽數(shù)拒絕率:一次訪問只訪問一個頁面的訪問次數(shù)占總訪問數(shù)的比例,比例越小,表明用戶品質(zhì)越高。拒絕率(一個頁面)=只訪問1個頁面的訪問數(shù)÷總訪問數(shù)拒絕率(首頁)=只訪問首頁的訪問數(shù)÷總訪問數(shù)地區(qū):訪問客戶的來源地區(qū),是根據(jù)IP地區(qū)對照表,查詢訪問客戶的IP地址落在哪個IP區(qū)段內(nèi),而得到其對應(yīng)的地區(qū)。地區(qū)包括國內(nèi)地區(qū)和國外地區(qū),國內(nèi)地區(qū)以省為單位,國外地區(qū)以國家為單位。時段:按照一天24個小時自然時間段進行劃分。趨勢:趨勢分為兩種,第一種是以時段為單位的一天24小時發(fā)展趨勢。第二種是以日為單位的周、月、以及指定區(qū)間發(fā)展趨勢。IP地址:IP地址由4個數(shù)組成,每個數(shù)可取值0~255,各數(shù)之間用一個點號"."分開,例如:6。頁面:網(wǎng)站中的所有格式的網(wǎng)頁(含文件及動態(tài)網(wǎng)頁),例如:.htm、.html、.asp、.cfm、asa、cdx、htmls、shtm、shtml、txt等等,可以由用戶根據(jù)實際情況自己設(shè)定屬于頁面的文件格式。特定頁面:對于需要特殊分析的頁面,通過設(shè)置,從眾多頁面中獨立出來,進行特定分析的頁面。過濾頁面:網(wǎng)站中的某些頁面并不是獨立的頁面,而是附屬于某個頁面,如滾動條頁面就是附屬于首頁的頁面,用戶可以將這些附屬頁面設(shè)置為過濾頁面。過濾后的瀏覽數(shù)方能真正反映網(wǎng)站的訪問情況。離開頁面:客戶訪問網(wǎng)站的最后一個頁面。未定義頁面:頁面功能沒有定義的頁面,即沒有歸類到任何頻道的頁面。頻道/欄目:將網(wǎng)站中的各種內(nèi)容根據(jù)功能歸類,劃分出若干邏輯上的頻道或欄目。網(wǎng)站:網(wǎng)站是由WebServer組成,專業(yè)版一個網(wǎng)站只有一個WebServer,企業(yè)版和商務(wù)版一個網(wǎng)站至少由一個WebServer組成。熱點:將一個網(wǎng)頁中包含的各個鏈接根據(jù)功能歸類劃分出若干板塊,比如新聞板塊、財經(jīng)板塊、體育板塊、科技板塊等,每個板塊成為一個熱點。進而分析出該頁面上的各個熱點板塊被點擊的情況。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書重復(fù)訪問用戶比例:一天內(nèi)訪問兩次12用戶行為數(shù)據(jù)分析項目計劃書匯總:對多網(wǎng)站的分析進行匯總。同期比較:對任意兩個日、周、月、以及指定區(qū)間的瀏覽數(shù)(或訪問數(shù)、或用戶數(shù)、停留時間)進行比較。比較對象可以是頁面、頻道、欄目、廣告、地區(qū)等。聚合:對日期的聚合,比如周聚合就是將7天的數(shù)據(jù)合在一起為一個分析項,聚合目的就是以聚合項為單位分析網(wǎng)站發(fā)展的趨勢。環(huán)比:在趨勢分析中,當(dāng)前日期數(shù)據(jù)與上一日期數(shù)據(jù)的比成為環(huán)比。跳轉(zhuǎn):狀態(tài)代碼為302的訪問請求。熱門:最受歡迎的頁面或頻道,即瀏覽數(shù)排名前若干位(可由用戶自行定義)的頁面或頻道。冷門:最不受歡迎的頁面或頻道,即瀏覽數(shù)排名后若干位(可由用戶自行定義)的頁面或頻道。廣告:通過在別的網(wǎng)站上彈出窗口等方式介紹本網(wǎng)站的一種商業(yè)活動。郵件:通過發(fā)送電子郵件,郵件中包含鏈接地址,吸引用戶通過點擊郵件中包含的鏈接地址訪問本網(wǎng)站,實際上也是廣告的一種。搜索引擎:在互聯(lián)網(wǎng)上為您提供信息"檢索"服務(wù)的網(wǎng)站。關(guān)鍵字:通過搜索引擎"檢索"的內(nèi)容。Excel輸出:將分析結(jié)果以Excel表格形式輸出。網(wǎng)站拓?fù)浣Y(jié)構(gòu):網(wǎng)站的拓?fù)浣Y(jié)構(gòu)是由網(wǎng)站匯總、網(wǎng)站分析和頻道分析三類節(jié)點構(gòu)成。其中,網(wǎng)站匯總下可以有部門匯總,網(wǎng)站分析下可以有子網(wǎng)站,頻道分析下可以有子頻道。用戶根據(jù)網(wǎng)站拓?fù)浣Y(jié)構(gòu),來查詢所需要的分析結(jié)果。匿名用戶:登陸網(wǎng)站不用確認(rèn)身份,便可訪問網(wǎng)站內(nèi)容的用戶。認(rèn)證用戶:通過身份認(rèn)證后,方可訪問網(wǎng)站內(nèi)容的用戶。一般情況,用戶通過注冊成為認(rèn)證用戶。日志文件:在Web-IA中,日志文件是指被分析網(wǎng)站的工作日志。瀏覽器:客戶端通過什么瀏覽器訪問網(wǎng)站。操作系統(tǒng):客戶端通過什么操作系統(tǒng)訪問網(wǎng)站。運營商:客戶端接入互聯(lián)網(wǎng)的服務(wù)提供商,比如中國電信、中國網(wǎng)通、教研網(wǎng)等。接入方式:客戶端接入互聯(lián)網(wǎng)的方式,比如撥號、專線、ISDN、ADSL等。狀態(tài)代碼:也稱作錯誤代碼,是為服務(wù)器所接收每個請求(網(wǎng)頁點擊)分配的3位數(shù)代碼。4.用戶分析--網(wǎng)站用戶的識別

用戶分析是網(wǎng)站分析中一個重要的組成部分,在分析用戶之前我們必須首先能夠識別每個用戶,分辨哪些是”NewCustomer”,哪些是”RepeatCustomer”。這樣不但能夠更加清晰地了解到底有多少用戶訪問了你的網(wǎng)站,分辨他們是誰(用戶ID、郵箱、性別年齡等);同時也能夠幫助你更好地跟蹤你的用戶,發(fā)現(xiàn)它們的行為特征、興趣愛好及個性化的設(shè)置等,以便于更好地把握用戶需求,提升用戶體驗。

通常當(dāng)你的網(wǎng)站提供了注冊服務(wù),而用戶注冊并登陸過你的網(wǎng)站,那么用戶可以更容易地被識別,因為網(wǎng)站一般都會保存注冊用戶的詳細信息;但是你的網(wǎng)站并不需要注冊,而用戶的行為以瀏覽為主,這是用戶識別就會顯得較為困難,下面提供了幾種常用的用戶識別的方法:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書匯總:對多網(wǎng)站的分析進行匯總。同131)2)3)4)用戶行為數(shù)據(jù)分析項目計劃書識別用戶的幾種方法當(dāng)用戶并未注冊登錄的情況下,識別用戶的唯一途徑就只剩下用戶瀏覽行為的點擊流數(shù)據(jù),通常情況下它們會保存在WEB日志里面。而WEB日志本身存在的缺陷可能導(dǎo)致用戶識別的不準(zhǔn)確性,所以我們在選擇用戶識別方法的過程中,在條件允許的情況下盡量選擇更為準(zhǔn)確的方法:基于IP的用戶識別

IP地址是最容易獲取的信息,任何的WEB日志中均會包含,但其局限性也較為明顯:偽IP、代理、動態(tài)IP、局域網(wǎng)共享同一公網(wǎng)IP出口??這些情況都會影響基于IP來識別用戶的準(zhǔn)確性,所以IP識別用戶的準(zhǔn)確性比較低,目前一般不會直接采用IP來識別用戶。獲取難度:★準(zhǔn)確度:★基于IP+Agent的用戶識別

同樣基于最簡單形式的WEB日志,我們可以增加一項——Agent,來提高單一IP方式識別用戶的準(zhǔn)確性。Agent也是WEB日志中一般都會包含的信息,通過IP+Agent的方式可以適當(dāng)提高IP代理、公用IP這類情況下用戶的分辨度,同時通過Agent還可以識別網(wǎng)絡(luò)爬蟲等特殊“用戶”,但同樣準(zhǔn)確度也欠高。獲取難度:★準(zhǔn)確度:★★基于cookie的用戶識別當(dāng)你通過自定義Apache日志格式或者JavaScript的方法獲得用戶cookie的時候,其實你已經(jīng)找到了一個更有效的用戶識別的手段。cookie在未被清除的其前提下可以認(rèn)為是跟某個訪問客戶端電腦綁定的(一個客戶端有可能包含多個cookie),所以用cookie來標(biāo)識用戶其實指的是用戶使用的客戶端電腦,而并非用戶本身。

用cookie識別用戶的方法當(dāng)然也存在缺陷:最常見的就是cookie被清除而導(dǎo)致用戶無法與原先記錄實現(xiàn)對應(yīng);同時由于客戶端電腦會被共用,或者用戶會在不同的電腦上訪問你的網(wǎng)站,這個時候cookie就無法直接對應(yīng)到該用戶了。獲取難度:★☆準(zhǔn)確度:★★☆基于用戶ID的用戶識別

基于用戶ID的用戶識別是最為準(zhǔn)確,因為一般情況下用戶不同共享他的用戶ID,所以我們可以認(rèn)為數(shù)據(jù)中的userid唯一地指向該用戶,幾乎不存在偏差。當(dāng)然要使用用戶ID來識別用戶是需要一定的前提條件的:網(wǎng)站必須是提供用戶注冊登錄服務(wù)的,并且可以通過一些手段在點擊流數(shù)據(jù)中記錄userid。技術(shù)開發(fā)部1)2)3)4)用戶行為數(shù)據(jù)分析項目計劃書識別用戶的幾種方法145)6)用戶行為數(shù)據(jù)分析項目計劃書獲取難度:★★準(zhǔn)確度:★★★所以對于一個需要用戶ID注冊登錄的網(wǎng)站來說,用戶唯一標(biāo)識符的選擇可以遵從以下順序:當(dāng)用戶注冊登錄時以userid為準(zhǔn),當(dāng)用戶在未登錄狀態(tài)瀏覽時以用戶的cookie為準(zhǔn),當(dāng)用戶未登錄且cookie無法獲取的情況下以IP+Agent為準(zhǔn);這樣就能從最大程度上識別唯一用戶。

這里推薦一個網(wǎng)站日志中cookie項的自定義設(shè)置方法,以便更好地識別用戶。cookie是從用戶端存放的cookie文件記錄中獲取的,這個文件里面一般在包含一個cookieid的同時也會記下用戶在該網(wǎng)站的userid(如果你的網(wǎng)站需要注冊登陸并且該用戶曾經(jīng)登錄過你的網(wǎng)站且cookie未被刪除),所以在記錄日志文件中cookie項的時候可以優(yōu)先去查詢cookie中是否含有用戶ID類的信息,如果存在則將用戶ID寫到日志的cookie項,如果不存在則查找是否有cookieid,如果有則記錄,沒有則記為”-”,這樣日志中的cookie就可以直接作為最有效的用戶唯一標(biāo)識符被用作統(tǒng)計。當(dāng)然這里需要注意該方法只有網(wǎng)站本身才能夠?qū)崿F(xiàn),因為用戶ID作為用戶隱私信息只有該網(wǎng)站才知道其在cookie的設(shè)置及存放位置,第三方統(tǒng)計工具一般很難獲取。獲取用戶信息的途徑通過以上的方法實現(xiàn)用戶身份的唯一標(biāo)識后,我們可以通過一些途徑來采集用戶的基礎(chǔ)信息、特征信息及行為信息,然后為每位用戶建立起詳細的Profile:1)用戶注冊時填寫的用戶注冊信息及基本資料;2)從網(wǎng)站日志中得到的用戶瀏覽行為數(shù)據(jù);3)從數(shù)據(jù)庫中獲取的用戶網(wǎng)站業(yè)務(wù)應(yīng)用數(shù)據(jù);4)基于用戶歷史數(shù)據(jù)的推導(dǎo)和預(yù)測;5)通過直接聯(lián)系用戶或者用戶調(diào)研的途徑獲得的用戶數(shù)據(jù);6)有第三方服務(wù)機構(gòu)提供的用戶數(shù)據(jù)。識別并獲取用戶信息的價值通過用戶身份識別及用戶基本信息的采集,我們可以通過網(wǎng)站分析的各種方法在網(wǎng)站是實現(xiàn)一些有價值的應(yīng)用:基于用戶特征信息的用戶細分;基于用戶的個性化頁面設(shè)置;基于用戶行為數(shù)據(jù)的關(guān)聯(lián)推薦;基于用戶興趣的定向營銷;參考:webdataanalysis/data-collection-and-preprocessing/5.WEB日志的作用和缺陷

AvinashKaushik將點擊流數(shù)據(jù)的獲取方式分為4種:logfiles、webbeacons、JavaScripttags和packetsniffers,其中包嗅探器(packetsniffers)比較不常見,最傳統(tǒng)的獲取方式是通過技術(shù)開發(fā)部5)6)用戶行為數(shù)據(jù)分析項目計劃書獲取難度:★★準(zhǔn)確度:★★15;2)

用戶行為數(shù)據(jù)分析項目計劃書WEB日志文件(logfiles)而beacons和JavaScript是目前較為流行的方式,GoogleAnalytics目前就是采用beacons+JavaScript來獲取數(shù)據(jù)的,我們可以來簡單看一下傳統(tǒng)的網(wǎng)站日志和beacons+JavaScript方式各自的優(yōu)缺點:1)WEB日志文件

優(yōu)勢:簡單方便,不需要修改網(wǎng)頁代碼,可以自定義日志格式;較多的現(xiàn)成的日志分析工具的支持(AWStats、Webalizer等);獲取網(wǎng)絡(luò)爬蟲數(shù)據(jù)的唯一途徑;可以收集底層數(shù)據(jù)供反復(fù)的分析。 缺陷:數(shù)據(jù)的質(zhì)量較低,網(wǎng)站日志包含所有日志數(shù)據(jù),包括CSS、圖片、腳本文件的請求信息,所以過濾和預(yù)處理來提升數(shù)據(jù)質(zhì)量必不可少;頁面緩存導(dǎo)致瀏覽無日志記錄,這個是比較致命的。

beacons+JavaScript

優(yōu)勢:只需要在頁面代碼中操作,不需要配置服務(wù)器;數(shù)據(jù)的獲取有較高的可控性,可以只在需要統(tǒng)計的頁面植入代碼;能夠獲取點擊、響應(yīng)等數(shù)據(jù);不需要擔(dān)心緩存等的影響,數(shù)據(jù)的準(zhǔn)確度較高;可用第三方cookie實現(xiàn)多網(wǎng)站跟蹤比較。 缺陷:當(dāng)瀏覽器禁止接收圖片或者禁用JS時,都可能導(dǎo)致數(shù)據(jù)獲取的失敗;只在應(yīng)用服務(wù)層操作,無法獲取后臺的數(shù)據(jù);對圖片、文件等請求信息的獲取難度相對較大;過多地JS可能導(dǎo)致頁面性能的下降,雖然這方面的影響一般可以忽略。無論通過何種方式,最終數(shù)據(jù)都是通過日志文件來記錄的,只是通過JS可以更容易控制想要獲取的數(shù)據(jù),并通過在URL帶參數(shù)的方式記錄到日志文件中共解析和統(tǒng)計。所以底層的數(shù)據(jù)形式無非就是記錄在日志文件中的那幾項,在WEB日志格式一文中,已經(jīng)對網(wǎng)站日志的類型和組成做了基本的介紹,這里就再來解析下WEB日志中各項對網(wǎng)站數(shù)據(jù)分析的作用,以及存在的不確定性和缺陷。3)日志的不準(zhǔn)確性

WEB日志在技術(shù)層面的獲取方式及各類外部因素的影響使基于網(wǎng)站日志的數(shù)據(jù)分析會存在許多的不準(zhǔn)確性,下面來介紹下WEB日志中那些項目可能造成數(shù)據(jù)的不準(zhǔn)確,以及造成這些缺陷的原因。

a)客戶端的控制和限制 由于一些瀏覽網(wǎng)站的用戶信息都是有客戶端發(fā)送的,所以用戶的IP、Agent都是可以人為設(shè)置的;另外cookie可以被清理,瀏覽器出于安全的設(shè)置,用戶的可以在訪問過程中限制cookie、referrer的發(fā)送。這些都會導(dǎo)致用戶訪問數(shù)據(jù)的丟失或者數(shù)據(jù)的不準(zhǔn)確,而這類問題目前很難得到解決。

b)緩存 瀏覽器緩存、服務(wù)器緩存、后退按鈕操作等都會導(dǎo)致頁面點擊日志的丟失及referrer的丟失,目前主要的處理方法是保持頁面信息的不斷更新,可以在頁面中添加隨機數(shù)。當(dāng)然如果你使用的JavaScript的方法,那么就不需要擔(dān)心緩存的問題。

技術(shù)開發(fā)部;2) 用戶行為數(shù)據(jù)分析項目計劃書1)WEB日志文件 優(yōu)勢16而用戶行為數(shù)據(jù)分析項目計劃書c)跳轉(zhuǎn)

一些跳轉(zhuǎn)導(dǎo)致referrer信息的丟失,致使用戶的訪問足跡中斷無法跟蹤。解決方法是將referer通過URL重寫,作為URL參數(shù)帶入下一頁面,不過這樣會是頁面的URL顯得混亂。d)代理IP、動態(tài)IP、局域網(wǎng)(家庭)公用IP

IP其實準(zhǔn)確性并不高,現(xiàn)在不止存在偽IP,而且局域網(wǎng)共享同一公網(wǎng)IP、代理的使用及動態(tài)IP分配方式,都可能使IP地址并不是與某個用戶綁定的,所以如果有更好的方法,盡量不要使用IP來識別用戶。e)session的定義與多cookie

不同的網(wǎng)站對session的定義和獲取方法可能差異,比如非活動狀態(tài)session的失效時間、多進程同時瀏覽時sessionid的共享等,所以同一個網(wǎng)站中session的定義標(biāo)準(zhǔn)必須統(tǒng)一才能保證統(tǒng)計數(shù)據(jù)的準(zhǔn)確。cookie的不準(zhǔn)確一方面是由于某些情況下cookie無法獲取,另一方面是由于一個客戶端可以有多個cookie,諸如chrome、Firefox等瀏覽器的cookie存放路徑都會與IE的cookie存放路徑分開,所以如果你是用不同的瀏覽器瀏覽同一網(wǎng)站,很有可能你的cookie就是不同的。f)停留時間停留時間并不是直接獲取的,而是通過底層日志中的數(shù)據(jù)計算得到的,因為所有日志中的時間都是時刻的概念,即點擊的時間點。這里不得不提的是一個session的最后一個頁面的停留時間是無法計算得到的,可以來看一下停留時間的計算過程:

假設(shè)一個用戶在一個session里面依次點擊了A->B->C這3個頁面,并在點完C之后關(guān)閉了瀏覽器,或者長時間的禁止導(dǎo)致了session的中斷。那么我們可以從日志中獲得的數(shù)據(jù)為3個頁面的點擊時間(HitTime),假設(shè)A、B、C點擊時間分別為HTA、HTB、HTC,那么A和B頁面的停留時間(StayTime)就可以通過計算得到:STA=HTB-HTA,STB=HTC-HTB,而因為我們無法獲取session結(jié)束的時間,所以STC是無法通過計算得到的,所以一般session最后頁面的停留時間是0,session得停留時間,即一次訪問的時間(Timeonsite)是HTC-HTA,其實是從打開第一個頁面到打開最后一個頁面的時間間隔,也是不準(zhǔn)確的。

另外,我們也無法獲知用戶在瀏覽一個頁面的時候到底做了什么,是不是一直在閱讀博客上的文章或者瀏覽網(wǎng)站上展示的商品,用戶也有可能在期間上了個廁所、接了通電話或者放空的片刻,所以計算得到的停留時間并不能說明用戶一直處于Engagement的狀態(tài)。參考:webdataanalysis/data-collection-and-preprocessing/effect-of-we/6.漏斗模型(FunnelModel)漏斗模型不僅顯示了用戶在進入流程到實現(xiàn)目標(biāo)的最終轉(zhuǎn)化率,同時還可以展示整個關(guān)鍵路徑中每一步的轉(zhuǎn)化率。

單一的漏斗模型對于分析來說沒有任何意義,我們不能單從一個漏斗模型中評價網(wǎng)站某個關(guān)鍵流程中各步驟的轉(zhuǎn)化率的好壞,所以必須通過趨勢、比較和細分的方法對流程中各步技術(shù)開發(fā)部而用戶行為數(shù)據(jù)分析項目計劃書c)跳轉(zhuǎn) 一些跳轉(zhuǎn)導(dǎo)致17

用戶行為數(shù)據(jù)分析項目計劃書驟的轉(zhuǎn)化率進行分析:趨勢(Trend):從時間軸的變化情況進行分析,適用于對某一流程或其中某個步驟進行改進或優(yōu)化的效果監(jiān)控;比較(Compare):通過比較類似產(chǎn)品或服務(wù)間購買或使用流程的轉(zhuǎn)化率,發(fā)現(xiàn)某些產(chǎn)品或應(yīng)用中存在的問題;細分(Segment):細分來源或不同的客戶類型在轉(zhuǎn)化率上的表現(xiàn),發(fā)現(xiàn)一些高質(zhì)量的來源或客戶,通常用于分析網(wǎng)站的廣告或推廣的效果及ROI。 所以,漏斗模型適用于網(wǎng)站中某些關(guān)鍵路徑的轉(zhuǎn)化率的分析,以確定整個流程的設(shè)計是否合理,各步驟的優(yōu)劣,是否存在優(yōu)化的空間等。試著去了解用戶來你的網(wǎng)站的真正目的,為他們提供合理的訪問路徑或操作流程,而不是一味地去提高轉(zhuǎn)化率。7.目前提供此服務(wù)產(chǎn)品/企業(yè)北京藍太平洋科技開發(fā)有限公司webdss/(目前公司就購買的此產(chǎn)品IIS日志分析)般若網(wǎng)絡(luò)科技有限公司web-ia/Web商業(yè)智能Bi,深入分析訪問數(shù)據(jù),從訪問數(shù)據(jù)中挖掘財富。WEKA懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)開源軟件。官方網(wǎng)址:cs.waikato.ac.nz/ml/weka/WEKA作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機器學(xué)習(xí)算法,包括對數(shù)據(jù)進行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。WEKA提供的接口文檔可以實現(xiàn)自定義的數(shù)據(jù)挖掘算法。三、項目目的四、項目需求1.頁面統(tǒng)計頁面PageView訪問數(shù)頁面Ref跳入頁面UserView用戶數(shù)

技術(shù)開發(fā)部 用戶行為數(shù)據(jù)分析項目計劃書般若網(wǎng)絡(luò)科技有限公司web-18用戶行為數(shù)據(jù)分析項目計劃書頁面IP獨立IP數(shù)頁面Out跳出2.用戶行為指標(biāo)用戶行為指標(biāo)主要反映用戶是如何來到網(wǎng)站的、在網(wǎng)站上停留了多長時間、訪問了那些頁面等,主要的統(tǒng)計指標(biāo)包括:·用戶在網(wǎng)站的停留時間;·用戶來源網(wǎng)站(也叫“引導(dǎo)網(wǎng)站”);·用戶所使用的搜索引擎及其關(guān)鍵詞;·在不同時段的用戶訪問量情況等?!び脩魠^(qū)域分布·用戶對在線支付功能的使用情況·用戶對在線教室功能的使用情況·用戶瀏覽網(wǎng)站的方式時間設(shè)備、瀏覽器名稱和版本、操作系統(tǒng)用戶瀏覽網(wǎng)站的方式相關(guān)統(tǒng)計指標(biāo)主要包括:·用戶瀏覽器的名稱和版本;·用戶瀏覽器的版本分布;·訪問者電腦分辨率顯示模式;·用戶所使用的操作系統(tǒng)名稱和版本;·用戶所在地理區(qū)域分布狀況等。3.潛在用戶特征分析(/網(wǎng)易郵箱廣告分區(qū)域/分學(xué)歷/分職業(yè)投放)1、最常瀏覽該網(wǎng)站的用戶性別分布2、最常瀏覽該網(wǎng)站的用戶年齡分布3、最常瀏覽該網(wǎng)站的用戶學(xué)歷分布4、最常瀏覽該網(wǎng)站的用戶婚姻狀況分布5、最常瀏覽該網(wǎng)站的用戶職業(yè)分布6、最常瀏覽該網(wǎng)站的用戶收入分布7、最常瀏覽該網(wǎng)站的用戶區(qū)域分布最后:那些人是我們潛在的用戶?技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書頁面IP獨立IP數(shù)2.用19用戶行為數(shù)據(jù)分析項目計劃書首頁有多少PV數(shù)?UV數(shù)?有多少獨立IP訪問?都從那些網(wǎng)址跳入?用戶又跳出到哪里去了?頻道/欄目首頁–網(wǎng)站欄目分類的優(yōu)勢有多少PV數(shù)?UV數(shù)?有多少獨立IP訪問?都從那些網(wǎng)址跳入?用戶又跳出到哪里去了?新/舊功能頁面–聽課行為/記筆記行為有多少PV數(shù)?UV數(shù)?有多少獨立IP訪問?都從那些網(wǎng)址跳入?用戶又跳出到哪里去了?用戶都是用那個頁面進入到聽課功能頁面的?是否和我們設(shè)定/假象的用戶行為一致?4.指定UserCookie的分析用戶瀏覽軌跡特征;用戶頁面時長特征;用戶操作軌跡特征;新學(xué)員/老學(xué)員的操作行為差異?功能選擇差異?瀏覽/關(guān)注點差異?5.用戶趨勢分析用戶瀏覽的趨勢;使用產(chǎn)品的趨勢;五、項目系統(tǒng)設(shè)計如何獲取流量統(tǒng)計信息

獲取網(wǎng)站訪問統(tǒng)計資料通常有兩種方法:一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計分析軟件來進行網(wǎng)站流量監(jiān)測;另一種是采用第三方提供的網(wǎng)站流量分析服務(wù)。兩種方法各有利弊,采用第一種方法可以方便地獲得詳細的網(wǎng)站統(tǒng)計信息,并且除了訪問統(tǒng)計軟件的費用之外無需其他直接的費用,但由于這些資料在自己的服務(wù)器上,因此在向第三方提供有關(guān)數(shù)技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書首頁有多少PV數(shù)?UV數(shù)?有20

用戶行為數(shù)據(jù)分析項目計劃書據(jù)時缺乏說服力;第二種方法則正好具有這種優(yōu)勢,但通常要為這種服務(wù)付費,雖然也有一些免費網(wǎng)站流量統(tǒng)計服務(wù),但由于在功能方面會有一定的限制,或者通常需要在網(wǎng)站上出現(xiàn)服務(wù)商的標(biāo)識甚至廣告,對于商業(yè)網(wǎng)站來說使用免費服務(wù)肯那個不太合適。此外,如果必要,也可以根據(jù)需要自行開發(fā)網(wǎng)站流量統(tǒng)計系統(tǒng)。具體采取哪種形式,或者哪些形式的組合,可根據(jù)企業(yè)網(wǎng)絡(luò)營銷的實際需要決定。在線流量統(tǒng)計網(wǎng)站有哪些?Google網(wǎng)站訪問統(tǒng)計(GoogleAnalytics):google/analytics/ITSUN網(wǎng)站流量統(tǒng)計:itsun51yes網(wǎng)站流量統(tǒng)計:count.51yes六、項目詳細設(shè)計1.數(shù)據(jù)收集

目前日志服務(wù)/格式:IIS:主站chinaacc(ASP語言)Negios:論壇bbs.chinaacc(PHP語言)Apache/Tomcat:博客.chinaacc(PHP語言/Java/JSP語言)SysLog:(C語言)

其他格式日志:自定義的日志格式

Apache服務(wù)器: mod_uid:lexa.ru/programs/mod-uid-eng.html mod_usertrack:

/docs/2.0/mod/mod_usertrack.html

chedong//archives/001077.html Nginx服務(wù)器:

/NginxHttpUserIdModule數(shù)據(jù)的收集方式:1、在各個應(yīng)用上通過JS程序收集數(shù)據(jù),統(tǒng)一訪問日志服務(wù)器,記錄日志,做日志分析;(推薦:將數(shù)據(jù)服務(wù)和數(shù)據(jù)捕獲分離、數(shù)據(jù)格式統(tǒng)一)2、由各個應(yīng)用服務(wù)器配置日志,保持格式的簡單一致性,再匯總?cè)罩咀龇治觯?/p>

技術(shù)開發(fā)部 用戶行為數(shù)據(jù)分析項目計劃書IIS:主站chinaacc21

用戶行為數(shù)據(jù)分析項目計劃書日志包含信息:時間Date訪問URL URL來訪IP地址IP來訪來源 Ref用戶唯一標(biāo)識UserCookieID統(tǒng)計時間范圍為:每小時的00分鐘-59分鐘注:要考慮用戶操作的時間的不確定性。用戶可能在25分-下一小時的10分在操作,以絕對的時間范圍來分析,分析數(shù)據(jù)會有偏差。2.數(shù)據(jù)模型1)統(tǒng)計PV量(趨勢)

統(tǒng)計要素:Date+URL 描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL的瀏覽量PV(匯總數(shù)); 例如:09:00–10:00之間,訪問博客首頁.chinaacc的有259次; 數(shù)據(jù)庫表:log_date_collect"匯總統(tǒng)計站點的每小時/30分鐘的pv/獨立ip/uv"2)消重統(tǒng)計獨立IP量/IP的平均訪問頁面量(趨勢)

統(tǒng)計要素:Date+URL+IP

描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL的這一IP,訪問頁面次數(shù)(更詳細記錄);所有次數(shù)的總和大約等于PV; 例如:09:00–10:00之間,訪問博客首頁.chinaacc的IP為02有5次訪問; 描述:多個IP的平均訪問頁面數(shù)=IP訪問頁面次數(shù)總和/IP總數(shù) 描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL的IP數(shù)(匯總數(shù));統(tǒng)計時間范圍內(nèi)Date,一個IP的多次訪問只記算為一次(消除重復(fù)-消重處理); 例如:09:00–10:00之間,訪問博客首頁.chinaacc的獨立IP有212個;

技術(shù)開發(fā)部 用戶行為數(shù)據(jù)分析項目計劃書時間訪問URL來訪IP地址22用戶行為數(shù)據(jù)分析項目計劃書數(shù)據(jù)庫表:log_date_collect"匯總統(tǒng)計站點的每小時/30分鐘的pv/獨立ip/uv"3)消重統(tǒng)計獨立UV量/UV的平均訪問頁面量(趨勢)統(tǒng)計要素:Date+URL+UserCookieID描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL的這一用戶UserCookieID,訪問頁面次數(shù)(更詳細記錄);所有次數(shù)的總和大約等于PV;例如:09:00–10:00之間,訪問博客首頁.chinaacc的用戶UserCookieID,訪問了5次;

描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL的這一用戶UserCookieID數(shù)(匯總數(shù));統(tǒng)計時間范圍內(nèi)Date,一個UserCookieID的多次訪問只記算為一次(消重處理); 例如:09:00–10:00之間,訪問博客首頁.chinaacc的UserCookieID為190個。數(shù)據(jù)庫表:log_date_collect"匯總統(tǒng)計站點的每小時/30分鐘的pv/獨立ip/uv"4)統(tǒng)計URL的訪問來源Ref的量/Ref排行(趨勢)統(tǒng)計要素:Date+URL+Ref描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL頁面的是從那些頁面Ref跳入,跳入量統(tǒng)計(更詳細記錄);例如:09:00–10:00之間,訪問博客首頁.chinaacc,來源是從bbs點擊過來的有43次;描述:跳入排行例如:最多的是用bbs點擊過來來訪問博客首頁的,排行第一,43次;5)統(tǒng)計Ref=URL的去訪URL*/跳出的量/

去訪/跳出排行(趨勢)統(tǒng)計要素:Date+URL*+Ref=URL描述:統(tǒng)計時間范圍內(nèi)Date,訪問URL頁面的人,都又去了哪些頁面Out跳入,跳入量統(tǒng)計(更詳細記錄);例如:09:00–10:00之間,訪問博客首頁.chinaacc,點擊去訪問bbs的有68次點擊; 描述:跳出排行技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書數(shù)據(jù)庫表:log_date_col23用戶行為數(shù)據(jù)分析項目計劃書例如:從博客首頁點擊去訪問bbs的最多,排行第一,有68次;6)統(tǒng)計分析/預(yù)測/規(guī)律特定用戶的行為(趨勢)統(tǒng)計要素:UserCookieID+URL+Date描述:根據(jù)用戶的訪問歷史記錄(更詳細記錄)來總結(jié)規(guī)律例如:09:00–10:00之間,用戶UserCookieID訪問記錄列表,統(tǒng)計/預(yù)測/聚類/分類,做“啤酒和尿布”的規(guī)則整理。7)統(tǒng)計新訪客/老訪客(趨勢)統(tǒng)計要素:UserCookieID+Date描述:統(tǒng)計新訪問用戶,統(tǒng)計昨天也訪問的用戶(每天的UserCookieID的消重記錄,詳細記錄)例如:對比昨天的00:00–24:00和今天的00:00–24:00之間,UserCookieID的重復(fù)出現(xiàn)次數(shù)(老用戶),第一次出現(xiàn)為新用戶。8)頁面平均停留時間/頁面平均時長(趨勢)統(tǒng)計要素:UserCookieID+URL描述:用戶UserCookieID在頁面URL的停留時間(更詳細記錄),用戶在那些頁面上停留時間最長例如:用戶UserCookieID-1在我的網(wǎng)校我的家聽課頁面上停留了1:30小時描述:在頁面URL上的停留時間最長的排行例如:在全部頁面中,在聽課頁面停留時間最長描述:計算用戶UserCookieID在頁面URL的停留時間的平均值(匯總計算值)例如:09:00–10:00之間,訪問博客首頁.chinaacc的9)搜索引擎列表統(tǒng)計要素:Ref技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書例如:從博客首頁點擊去訪問bbs24用戶行為數(shù)據(jù)分析項目計劃書描述:統(tǒng)計外部網(wǎng)站(搜索引擎-Google//soso/youdao/sogou+其他站點sina/163//QQ)跳入統(tǒng)計站點的pv量/IP量例如:從百度跳入統(tǒng)計站點269次/獨立ip100個描述:外部站點跳入排行例如:從百度跳入統(tǒng)計站點的pv最多排名第一;從sina跳入統(tǒng)計站點的獨立IP最多排名第一;10)搜索引擎關(guān)鍵詞統(tǒng)計要素:Ref的關(guān)鍵詞參數(shù)描述:從全部搜索引擎網(wǎng)站跳入統(tǒng)計站點的關(guān)鍵詞參數(shù)統(tǒng)計跳入次數(shù)例如:關(guān)鍵詞“會計考試”排行第一跳入500次11)搜索引擎關(guān)鍵詞(各搜索引擎)統(tǒng)計要素:Ref的關(guān)鍵詞參數(shù)(區(qū)分搜索引擎)描述:從區(qū)分搜索引擎網(wǎng)站跳入統(tǒng)計站點的關(guān)鍵詞參數(shù)統(tǒng)計跳入次數(shù)例如:百度關(guān)鍵詞“會計考試”排行第一跳入500次Google關(guān)鍵詞“CPA”排行第一跳入423次12)老用戶回頭率(用戶黏性)統(tǒng)計要素:UserCookieID+Date描述:最近一月的用戶UserCookieID在最近是否有訪問網(wǎng)站,占比多少例如:最近一月的用戶UserCookieID有34%的回頭率,就是說有大概34%的用戶會在最近一個月里有再次訪問網(wǎng)站的動作13)新增用戶增加/流失(用戶黏性)統(tǒng)計要素:UserCookieID+Date描述:最近一月的用戶UserCookieID在第一次訪問網(wǎng)站的用戶,占比多少,例如:最近一月的用戶UserCookieID有66%的新增用戶率,就是說有大概66%的用戶在最近一個月里是第一次訪問網(wǎng)站描述:最近一月的用戶UserCookieID是否有在第二個月里有訪問網(wǎng)站,占比多少,例如:最近一月的用戶UserCookieID有53%的新增用戶流失,就是說有大概53%的用戶在上個月訪問過網(wǎng)站后,在這個月里沒有訪問網(wǎng)站技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書描述:統(tǒng)計外部網(wǎng)站25用戶行為數(shù)據(jù)分析項目計劃書14)不活躍用戶激活(用戶黏性)統(tǒng)計要素:UserCookieID+Date描述:用戶訪問網(wǎng)站時間間隔較長/用戶訪問網(wǎng)站頁面較少例如:用戶進入網(wǎng)站后,待了一會就跳出或者關(guān)閉了網(wǎng)頁;用戶進入網(wǎng)站后,訪問了少量頁面15)用戶瀏覽深度(用戶黏性)統(tǒng)計要素:UserCookieID+URL描述:統(tǒng)計用戶網(wǎng)頁訪問路徑Path的深度例如:例如用戶訪問首頁–訪問頻道頁–訪問二級欄目頁–發(fā)表評論16)用戶訪問興趣分析(用戶黏性)統(tǒng)計要素:Date+UserCookieID+URL描述:統(tǒng)計一段時間內(nèi),全部用戶訪問網(wǎng)頁的重合度例如:例如一天內(nèi),全部的來訪用戶,大概有56%用戶訪問了”我的網(wǎng)校我的家”頁面17)性別結(jié)構(gòu)(訪客特征分析)統(tǒng)計要素:性別描述:男女比例例如:18)年齡結(jié)構(gòu)(訪客特征分析)統(tǒng)計要素:年齡分層描述:年齡各個階段占比例如:19)學(xué)歷結(jié)構(gòu)(訪客特征分析)統(tǒng)計要素:學(xué)歷分層描述:學(xué)歷各個層次占比例如:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書14)不活躍用戶激活(用戶黏性)26用戶行為數(shù)據(jù)分析項目計劃書20)收入結(jié)構(gòu)(訪客特征分析)統(tǒng)計要素:收入分層描述:收入各個層次占比例如:21)操作系統(tǒng)類型(客戶端信息)統(tǒng)計要素:User-Agent描述:操作系統(tǒng)占比例如:22)操作系統(tǒng)語言(客戶端信息)統(tǒng)計要素:User-Agent描述:操作系統(tǒng)語言占比例如:23)操作系統(tǒng)時區(qū)(客戶端信息)統(tǒng)計要素:User-Agent描述:操作系統(tǒng)時區(qū)占比例如:24)瀏覽器(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶使用的瀏覽器占比例如:25)顯示器顏色(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶顯示的顏色占比例如:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書20)收入結(jié)構(gòu)(訪客特征分析)統(tǒng)27用戶行為數(shù)據(jù)分析項目計劃書26)屏幕分辨率(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶使用的屏幕分辨率占比例如:27)國家/省份-地址位置(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶IP所在的地區(qū)占比例如:28)城市-地址位置(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶IP所在的城市占比例如:29)接入商(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶訪問網(wǎng)站使用的接入商占比例如:30)場所(客戶端信息)統(tǒng)計要素:User-Agent描述:用戶訪問網(wǎng)站的場所占比例如:3.數(shù)據(jù)處理4.數(shù)據(jù)展示技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書26)屏幕分辨率(客戶端信息)統(tǒng)28用戶行為數(shù)據(jù)分析項目計劃書1)參考網(wǎng)站可訪問一下鏈接,查看統(tǒng)計實例。Google網(wǎng)站分析:https://google/analytics/百度統(tǒng)計:#百度統(tǒng)計功能說明:support./tongji/?module=default&controller=index&action=detail&nodeid=260251啦統(tǒng)計:#/about.asp51yes統(tǒng)計:demo.51yes/all.aspxCNZZ數(shù)據(jù)專家統(tǒng)計:newzz/v1/main.php?siteid=2799&s=main_stat點擊量:記錄每一小時的IP數(shù)和PV數(shù),提供多種形式供用戶對任意時間段進行查詢。IP數(shù)完全基于24小時IP防刷??蛻舳耍河涗泚碓L者所處的地區(qū)、訪問者的瀏覽器、操作系統(tǒng)、語言、時區(qū)、屏幕尺寸、屏幕色彩、IP地址及Alexa安裝情況,并可對這些數(shù)據(jù)按任意時間段查詢。流量源:記錄點擊來源,并根據(jù)來源對關(guān)鍵詞和搜索引擎進行分析??蓪砺沸畔磿r間段和特征字查詢,提供多種排序方式。關(guān)鍵詞:精確的辨別并記錄各大搜索引擎搜索進入時用戶所搜索的關(guān)鍵詞,兼容各種編碼格式,無亂碼,可按時間段和特征字查詢分析,提供多種排序方式。被訪頁:記錄用戶進入網(wǎng)站時的網(wǎng)頁被進入的次數(shù)(入口網(wǎng)址)和每個網(wǎng)頁被瀏覽的次數(shù)。可按時間段和特征字查詢,提供多種排序方式。明細:訪問明細和在線用戶欄目細致到用戶的全部信息,并可追蹤任一用戶的瀏覽記錄。技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書1)參考網(wǎng)站可訪問一下鏈接,查看29用戶行為數(shù)據(jù)分析項目計劃書1.51啦統(tǒng)計功能菜單:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書1.51啦統(tǒng)計功能菜單:技術(shù)30用戶行為數(shù)據(jù)分析項目計劃書2.51yes統(tǒng)計功能菜單:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書2.51yes統(tǒng)計功能菜單:31用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部32用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部33用戶行為數(shù)據(jù)分析項目計劃書3.CNZZ數(shù)據(jù)專家功能菜單技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書3.CNZZ數(shù)據(jù)專家功能菜單34用戶行為數(shù)據(jù)分析項目計劃書2)趨勢–曲線圖趨勢統(tǒng)計周期天/周/月/年訪問數(shù)/PV瀏覽量:網(wǎng)站使用率:訪問數(shù)、跳出率、瀏覽量、平均停留時間、用戶平均訪問頁數(shù)、新用戶來訪數(shù)/占比技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書2)趨勢–曲線圖趨勢統(tǒng)計35用戶行為數(shù)據(jù)分析項目計劃書訪問人數(shù)UV曲線圖:用戶區(qū)域分布情況:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書訪問人數(shù)UV曲線圖:用戶區(qū)域分36用戶行為數(shù)據(jù)分析項目計劃書流量來源:頁面訪問量排行:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書流量來源:頁面訪問量排行:技術(shù)開發(fā)37用戶行為數(shù)據(jù)分析項目計劃書詳細展示:訪問者訪問次數(shù)統(tǒng)計:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書詳細展示:訪問者訪問次數(shù)統(tǒng)計:技術(shù)38用戶行為數(shù)據(jù)分析項目計劃書新訪者與回訪者:3)忠誠度/用戶黏性技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書新訪者與回訪者:3)忠誠度/39用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部40用戶行為數(shù)據(jù)分析項目計劃書4)用戶客戶端瀏覽器5)來源分析:Ref分析、站內(nèi)/站外、站外統(tǒng)計技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書4)用戶客戶端瀏覽器5)來41用戶行為數(shù)據(jù)分析項目計劃書站外來源關(guān)鍵詞分析:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書站外來源關(guān)鍵詞分析:技術(shù)開發(fā)部42用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書技術(shù)開發(fā)部43用戶行為數(shù)據(jù)分析項目計劃書訪問量/瀏覽量最大的頁面:技術(shù)開發(fā)部用戶行為數(shù)據(jù)分析項目計劃書訪問量/瀏覽量最大的頁面:技術(shù)開44

用戶行為數(shù)據(jù)分析項目計劃書6)用戶行為七、項目約束時間約束:資源約束:八、項目資

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論