版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第一節(jié)大數(shù)據(jù)技術(shù)概述第二節(jié)電子商務(wù)中的大數(shù)據(jù)技術(shù)第三節(jié)大數(shù)據(jù)技術(shù)在移動電子商務(wù)中的應(yīng)用 移動電子商務(wù)與大數(shù)據(jù)技術(shù)一、大數(shù)據(jù)的概念大數(shù)據(jù)(bigdata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù);是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的集成共享,交叉復(fù)用形成的智力資源和知識服務(wù)能力。從某種程度上說,大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。大數(shù)據(jù)技術(shù)概述一、大數(shù)據(jù)的特征數(shù)據(jù)體量巨大(Volume)。截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個人計算機(jī)硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級。數(shù)據(jù)最小的單位是bit,基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進(jìn)率1024(2的十次方)來計算大數(shù)據(jù)技術(shù)概述一、大數(shù)據(jù)的特征大數(shù)據(jù)技術(shù)概述7我國網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。淘寶網(wǎng)站單日數(shù)據(jù)產(chǎn)生量超過5萬GB存儲量4000萬GB百度公司目前數(shù)據(jù)總量10億GB存儲網(wǎng)頁1萬億頁每天大約要處理60億次搜索請求一個8Mbps的攝像頭一小時能產(chǎn)生3.6GB的數(shù)據(jù)一個城市每月產(chǎn)生的數(shù)據(jù)達(dá)上千萬GB醫(yī)院一個病人的CT影像數(shù)據(jù)量達(dá)幾十GB全國每年需保存的數(shù)據(jù)達(dá)上百億GB大數(shù)據(jù)技術(shù)概述一、大數(shù)據(jù)的特征一、大數(shù)據(jù)的特征大數(shù)據(jù)技術(shù)概述數(shù)據(jù)類型繁多(Variety)。這種類型的多樣性也讓數(shù)據(jù)被分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對于以往便于存儲的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括產(chǎn)品評論、網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,多類型數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高要求。一、大數(shù)據(jù)的特征大數(shù)據(jù)技術(shù)概述價值密度低(Value)。價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一二秒。如何通過強大的機(jī)器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。一、大數(shù)據(jù)的特征大數(shù)據(jù)技術(shù)概述數(shù)據(jù)處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報告,預(yù)計到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。數(shù)據(jù)清洗(DataCleaning):清除噪聲數(shù)據(jù)、不一致的數(shù)據(jù)和與挖掘主題明顯無關(guān)的數(shù)據(jù);數(shù)據(jù)集成(DataIntegration):將來自多數(shù)據(jù)源中的相關(guān)數(shù)據(jù)整合到一起,形成一致的、完整的數(shù)據(jù)描述;數(shù)據(jù)轉(zhuǎn)換(DataTransform):通過匯總或聚集將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式;數(shù)據(jù)挖掘(DataMining):知識發(fā)現(xiàn)的一個基本步驟,利用智能方法挖掘模式、規(guī)則、網(wǎng)絡(luò)等知識;模式評估(PatternEvaluation):根據(jù)一定評估標(biāo)準(zhǔn)或度量(Measure)從挖掘結(jié)果中篩選出有意義的知識;知識表示(KnowledgeRepresentation):利用可視化和知識表示技術(shù),向用戶展示所挖掘出的相關(guān)知識。
大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟數(shù)據(jù)商務(wù)環(huán)境下的數(shù)據(jù)挖掘過程主要劃分為以下過程:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型發(fā)布。大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟商業(yè)理解確定商業(yè)目標(biāo)分析項目背景、具體商業(yè)目標(biāo)如何定義項目成功進(jìn)行形勢評估描述項目擁有的資源、需求的資源和限制、項目風(fēng)險可能的偶發(fā)因素、成本與收益確定數(shù)據(jù)挖掘目標(biāo)該目標(biāo)應(yīng)具有可評估性和可實現(xiàn)性定義數(shù)據(jù)挖掘成功的標(biāo)準(zhǔn)
制定項目計劃,描述和評估需使用的工具、方法大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟數(shù)據(jù)理解收集原始數(shù)據(jù),撰寫數(shù)據(jù)收集報告,說明數(shù)據(jù)來源完成數(shù)據(jù)描述報告完成數(shù)據(jù)的探索性分析報告,說明業(yè)務(wù)數(shù)據(jù)的基本情況撰寫數(shù)據(jù)質(zhì)量報告,說明數(shù)據(jù)基本質(zhì)量,如空缺值情況、字段完整率。大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟數(shù)據(jù)準(zhǔn)備根據(jù)業(yè)務(wù)理解和挖掘目標(biāo),在已得到的數(shù)據(jù)集中確定挖掘時要包含(或去除)的數(shù)據(jù)根據(jù)數(shù)據(jù)探索性分析報告和質(zhì)量報告,設(shè)計數(shù)據(jù)清洗方案,撰寫數(shù)據(jù)清洗報告根據(jù)現(xiàn)有數(shù)據(jù)字段設(shè)計數(shù)據(jù)重構(gòu)方案,生成新的字段;整合相關(guān)數(shù)據(jù)格式化數(shù)據(jù),使之適合于后續(xù)分析大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟建立模型從商業(yè)理解和可用的數(shù)據(jù)出發(fā)選擇挖掘算法使用快速挖掘工具建立模型調(diào)整模型,分析模型結(jié)果,通過和預(yù)期結(jié)果比較分析、修訂模型參數(shù)得到模型結(jié)果,整理挖掘結(jié)論大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟模型評估結(jié)果評估,結(jié)合商業(yè)理解評估挖掘結(jié)果,描述商業(yè)結(jié)論與管理、營銷人員溝通,確定下一步的工作,做出決策是否結(jié)束模型調(diào)整。大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟結(jié)果發(fā)布設(shè)計模型維護(hù)計劃及方案撰寫最終的數(shù)據(jù)挖掘報告項目總結(jié)大數(shù)據(jù)技術(shù)概述二、大數(shù)據(jù)分析主要步驟關(guān)聯(lián)分析:關(guān)聯(lián)規(guī)則表示如X?Y形式,含義是數(shù)據(jù)庫的某記錄中如果出現(xiàn)了X情況,則也會出現(xiàn)Y的情況。這個寫法與數(shù)據(jù)庫中的函數(shù)依賴一致,但表述的則是數(shù)據(jù)庫中記錄的實際購買行為。一個數(shù)據(jù)挖掘系統(tǒng)可以從一個商場的銷售(交易事務(wù)處理)記錄數(shù)據(jù)中,挖掘出如下所示的關(guān)聯(lián)規(guī)則:該商場有2%的顧客年齡在20歲到29歲且收入在2萬到3萬之間,這群顧客中有60%的人購買了MP3大數(shù)據(jù)技術(shù)概述三、大數(shù)據(jù)分析方法簡介分類:根據(jù)已有的實例建立一個模型,使之能夠識別對象所屬類別,該模型可以用于將未定類別的對象劃分到已知類別的工作該典型的分類應(yīng)用在商業(yè)中的客戶識別、老客戶維系、新客戶獲取等方面在河北省內(nèi),年齡在25歲到35歲的男士,且月收入在6000-10000之間,最有可能購買2013款的大眾CC大數(shù)據(jù)技術(shù)概述三、大數(shù)據(jù)分析方法簡介聚類:根據(jù)最大化簇內(nèi)的相似性、最小化簇間的相似性的原則將數(shù)據(jù)對象聚類或分組,所形成的每個簇可以看作一個數(shù)據(jù)對象類該聚類分析與分類預(yù)測方法明顯不同之處在于,后者所學(xué)習(xí)獲取分類預(yù)測模型所使用的數(shù)據(jù)是已知類別歸屬,屬于有教師監(jiān)督學(xué)習(xí)方法;而聚類分析(無論是在學(xué)習(xí)還是在歸類預(yù)測時)所分析處理的數(shù)據(jù)均是無(事先確定)類別歸屬,類別歸屬標(biāo)志在聚類分析處理的數(shù)據(jù)集中是不存在的大數(shù)據(jù)技術(shù)概述三、大數(shù)據(jù)分析方法簡介時間序列模式:根據(jù)時間序列模式側(cè)重于挖掘出數(shù)據(jù)的前后時間順序關(guān)系,分析是否存在一定趨勢,以預(yù)測未來的訪問模式顧客購買商品A,接著購買商品B,而后購買商品C,即“序列A-B-C出現(xiàn)的頻率較高”大數(shù)據(jù)技術(shù)概述三、大數(shù)據(jù)分析方法簡介移動電子商務(wù)能夠為數(shù)據(jù)挖掘提供海量的、干凈的數(shù)據(jù)數(shù)據(jù)挖掘能夠為電子商務(wù)的發(fā)展提供了強大的數(shù)據(jù)支撐,非常容易應(yīng)用移動電子商務(wù)中的大數(shù)據(jù)技術(shù)移動電子商務(wù)與大數(shù)據(jù)的關(guān)系假如一個小型移動電子商務(wù)站點每小時賣出4件產(chǎn)品,顧客平均買一件產(chǎn)品需要訪問9個頁面,且所有顧客中真正買東西的人的比例為2%,那么,一個月該網(wǎng)站能產(chǎn)生多少頁面訪問量呢?4×24×30×9/0.02=1296000頁面!移動電子商務(wù)中的大數(shù)據(jù)技術(shù)移動電子商務(wù)與大數(shù)據(jù)的關(guān)系
如果電子商務(wù)站點設(shè)計得好,可以獲得各種商務(wù)信息或者用戶訪問信息:移動電子商務(wù)中的大數(shù)據(jù)技術(shù)移動電子商務(wù)與大數(shù)據(jù)的關(guān)系Web數(shù)據(jù)挖掘,是數(shù)據(jù)挖掘技術(shù)在Web環(huán)境下的應(yīng)用,是從大量的Web文檔集合和在站點內(nèi)進(jìn)行瀏覽的相關(guān)數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式或信息。涉及到Internet技術(shù)、人工智能、計算機(jī)語言學(xué)、信息學(xué)、統(tǒng)計學(xué)等多個領(lǐng)域。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析Web挖掘也分成三類:Web內(nèi)容挖掘(WebContentMining)、Web結(jié)構(gòu)挖掘(WebStructureMining)和Web使用模式挖掘(WebUsageMining)。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析Web內(nèi)容挖掘?qū)W(wǎng)絡(luò)頁面的內(nèi)容進(jìn)行挖掘分析。目前Web內(nèi)容挖掘包括對文本、圖像、音頻、視頻、元組數(shù)據(jù)的挖掘,但目前多數(shù)是基于文本信息的挖掘,這又可以進(jìn)一部分為網(wǎng)頁內(nèi)容挖掘和搜索結(jié)果挖掘,前者是傳統(tǒng)的依據(jù)內(nèi)容搜索網(wǎng)頁,后者是在前者搜索結(jié)果的基礎(chǔ)上進(jìn)一步搜索網(wǎng)頁。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析Web結(jié)構(gòu)挖掘?qū)W(wǎng)絡(luò)頁面之間的結(jié)構(gòu)進(jìn)行挖掘,從網(wǎng)頁的實際組織結(jié)構(gòu)中獲取信息。整個Web空間中,有用的知識不僅包含在頁面內(nèi)容中,也包含在頁面的結(jié)構(gòu)中。Web結(jié)構(gòu)挖掘主要就是針對頁面的超鏈接結(jié)構(gòu)進(jìn)行分析,通過分析一個網(wǎng)頁鏈接和被鏈接數(shù)量以及對象來建立Web自身的鏈接結(jié)構(gòu)模式。這種模式可以用于網(wǎng)頁歸類,并且由此可以獲得有關(guān)不同網(wǎng)頁間相似度及關(guān)聯(lián)度的信息如果發(fā)現(xiàn)有較多的超鏈接都指向某一頁面,那么該頁面就是重要的。發(fā)現(xiàn)的這種知識可以用來改進(jìn)搜索路徑等。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析Web使用模式挖掘?qū)τ脩艉途W(wǎng)絡(luò)交互的過程中抽取出來的第二手?jǐn)?shù)據(jù)進(jìn)行挖掘,包括網(wǎng)絡(luò)服務(wù)器訪問記錄、代理服務(wù)器日志記錄、瀏覽器日志記錄、客戶簡介、注冊信息、客戶對話或交易信息、客戶提問方式等。其主要特點是對客戶信息數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。這里需要特別指出的是,Web使用模式挖掘還可以進(jìn)一部分為一般訪問模式跟蹤和定制使用跟蹤,前者是一種查看網(wǎng)頁訪問歷史記錄的使用模式挖掘。這種挖掘可以是一般化的,也可以是針對特定的使用或使用者,這便是后者。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源服務(wù)器數(shù)據(jù)客戶訪問站點時會在Web服務(wù)器上留下相應(yīng)的日志數(shù)據(jù),這些日志數(shù)據(jù)通常以文本文件的形式存儲在服務(wù)器上。一般包括severlogs、errorlogs、cookielogs等。通常文件的格式為:“Date,Client,_IP,User_name,Bytes,Server,Request,Status,Servicename,Time,Protocol_version,User_agent,Cookie,Referrer”。如果可以對這些文件中存儲的數(shù)據(jù)進(jìn)行語法上的分析,例如分析DNS,就可以知道客戶來源的區(qū)域,如域名A被分析后就可以知道客戶來自美國。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源查詢數(shù)據(jù)電子商務(wù)站點在服務(wù)器上產(chǎn)生的一種典型數(shù)據(jù)。例如,對于在線客戶也許會搜索一些產(chǎn)品或某些廣告信息,這些查詢信息就通過cookie或是登記信息連接到服務(wù)器的訪問日志上。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源在線市場數(shù)據(jù)
這類數(shù)據(jù)主要是傳統(tǒng)關(guān)系數(shù)據(jù)庫里存儲的有關(guān)電子商務(wù)站點信息、客戶購買信息、商品信息等數(shù)據(jù)。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源Web頁面及超級鏈接關(guān)系Web頁面主要是指HTLM和XML頁面的內(nèi)容,包括本文、圖片、語音、圖像等。超鏈接關(guān)系主要是指頁面之間存在的超級鏈接關(guān)系,這也是一種重要的資源。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源客戶登記信息是指客戶通過Web頁輸入的、要提交給服務(wù)器的相關(guān)客戶信息,這些信息通常是關(guān)于用戶的人口特征。在Web的數(shù)據(jù)挖掘中,客戶登記信息需要和訪問日志集成,以提高數(shù)據(jù)挖掘的準(zhǔn)確度,使之能更進(jìn)一步的了解客戶。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析--Web數(shù)據(jù)主要來源移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析Web服務(wù)器的日志(WebLog)記載了用戶訪問站點的信息,這些信息包括:訪問者的IP地址、訪問時間、訪問方式(GET/POST)、訪問的頁面、協(xié)議、錯誤代碼以及傳輸?shù)淖止?jié)數(shù)等信息。3[06/Dec/2006:10:13:10+0800]“GET/mp3/zhufu.mp3HTTP/1.1”IP地址為3的用戶于上午10點13分10秒訪問了文件mp3/zhufu.mp3,以GET方法訪問,HTTP/1.1表示HTTP協(xié)議版本。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)大數(shù)據(jù)中的Web挖掘分析移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清洗用戶識別會話識別路徑補充事務(wù)識別移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程數(shù)據(jù)清洗:去除Web請求方法中不是“get”的記錄以及刪除Web服務(wù)器日志中與挖掘算法無關(guān)的數(shù)據(jù),一般來說只有服務(wù)器日志中的HTML數(shù)據(jù)與挖掘相關(guān),通過檢查URL的后綴,可以刪除不相關(guān)的數(shù)據(jù)。如可將日志文件中后綴名為JPG、GIF等圖片文件以及后綴名為CGI的腳本文件刪除。一些網(wǎng)站的頁面用戶在提出請求,但Web服務(wù)器拒絕該頁面的請求,那么在數(shù)據(jù)清洗時應(yīng)該過濾掉非法請求的頁面,只對正常的頁面進(jìn)行數(shù)據(jù)處理。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程用戶識別:數(shù)據(jù)清洗之后,使用基于日志的方法同時輔助以一些啟發(fā)式規(guī)則,可以識別出每個訪問網(wǎng)站的用戶,這個過程就叫做用戶識別。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程在Web數(shù)據(jù)預(yù)處理中,需要識別出每一個訪問站點的用戶。利用基于日志的啟發(fā)式規(guī)則可以進(jìn)行有效的用戶識別。可做規(guī)則:(1)用戶IP地址不同則認(rèn)為是用戶不同;(2)若用戶IP地址相同,則認(rèn)為用戶使用的瀏覽器或操作系統(tǒng)不同則代表不同用戶;(3)當(dāng)用戶的IP地址、操作系和統(tǒng)瀏覽器均相同時,則應(yīng)根據(jù)網(wǎng)站的拓?fù)浣Y(jié)構(gòu)進(jìn)行用戶識別,如果被用戶請求的某個頁面不能通過已經(jīng)訪問過的任何頁面到達(dá),則判定這是一個新的用戶。用戶識別移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程某一用戶可能多次訪問該站點,這是我們就要用到會話識別。其目的就是將用戶的訪問記錄分為單個會話(Session)。用二元組S表示一個用戶會話:S=<userid,RS>,其中userid是用戶標(biāo)識,RS是用戶在一段時間內(nèi)請求訪問Web頁面的集合,RS內(nèi)包含用戶請求頁面的標(biāo)識符Pid及請求時間time,那么這段時間的訪問集合RS即可劃分為:RS={<Pid1,time1>,<Pid2,time2>…<Pidn,timen>},于是,用戶會話可表示為:S=<userid,{<Pid1,time1>,<Pid2,time2>…<Pidn,timen>}>,由此可以看出分成的每一個單獨的會話。會話識別移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程在時間跨度較大的Web服務(wù)器日志中,某一站點可能被一個用戶多次訪問,會話識別的任務(wù)就是要從大量會話中識別出屬于同一用戶的同一次訪問請求。在此,可設(shè)定規(guī)則來識別會話:(1)一個新用戶的出現(xiàn)必然會有一個新會話的產(chǎn)生;(2)如果從一個頁面到另一個頁面的時間超過某個設(shè)定的時間閾值,就認(rèn)為產(chǎn)生了一個新會話;(3)如果一個用戶會話中引用的頁面為空,則認(rèn)為是一個新會話。會話識別移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程
路徑補充:由于代理服務(wù)器本地緩存和代理服務(wù)器緩存的存在,使得服務(wù)器的日志會遺漏一些重要的頁面請求。路徑補充就是利用引用日志和站點的的拓?fù)浣Y(jié)構(gòu)將這些遺漏的請求補充到用戶會話中。設(shè)遺漏的請求為<Pidk,timek>,其中請求時間timek為設(shè)備前后兩次請求的平均值,那么,用戶會話即可表示為:S=<userid{<Pid1,time1>,<Pid2,time2>…<Pidk,timek>…<Pidn,timen>}>(k<n)移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程
路徑補充:在實際操作中,路徑補充可遵循規(guī)則:(1)如果當(dāng)前訪問的頁面和以前訪問過的某個頁面存在超鏈接關(guān)系,則可以認(rèn)為用戶是通過本地緩存調(diào)出頁面歷史記錄并鏈接到當(dāng)前頁面;(2)如果服務(wù)器日志中有多個頁面和當(dāng)前頁面存在超鏈接關(guān)系,那么可以認(rèn)為用戶是通過這多個頁面中最近被訪問的頁面鏈接到當(dāng)前頁面。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程事務(wù)識別:利用分割算法將用戶會話轉(zhuǎn)換為更小的事物進(jìn)行挖掘,即進(jìn)行事務(wù)識別。Frame頁面用來定義頁面的大小、位置、及內(nèi)容,“Subframe”用來定義被Frame包含的子窗口頁面。當(dāng)用戶訪問URL對應(yīng)的是一個Frame頁面時,瀏覽器通過解釋執(zhí)行頁面源程序,會自動向Web服務(wù)器請求該Frame頁面包含的所有Subframe頁面。移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--數(shù)據(jù)預(yù)處理過程關(guān)聯(lián)分析:通過分析用戶訪問網(wǎng)頁間的潛在聯(lián)系而歸納出的一種規(guī)則。用戶訪問頁面company/product1時,也訪問了頁面company/product2。利用關(guān)聯(lián)分析,進(jìn)行頁面預(yù)取,減少等待時間。Apriori算法:用A=>B表示。那么,若有:A=>B=>C,A=>B=>D,A=>B=>E,…..,則說明A=>B移動電子商務(wù)中的大數(shù)據(jù)技術(shù)基于移動電子商務(wù)的Web使用模式挖掘--模式發(fā)現(xiàn)過程分類和預(yù)測:根據(jù)客戶對某一類產(chǎn)品的訪問情況,或如其拋棄購物車的情況,來對客戶分類(即對哪一類產(chǎn)品感興趣)。更深入一點,可以為客戶添加一些屬性,如性別,年齡,愛好等(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- ??松梨冢ㄖ袊┣镎忻嬖囶}及答案
- 2026字節(jié)跳動秋招試題及答案
- 初級電工證考試試題及答案
- 2026黑龍江農(nóng)墾建工路橋有限公司招聘1人備考題庫必考題
- 仙女湖區(qū)2026年公開招聘衛(wèi)生專業(yè)技術(shù)人員參考題庫附答案
- 北京市大興區(qū)中醫(yī)醫(yī)院面向社會招聘臨時輔助用工5人參考題庫必考題
- 華貿(mào)物流2026屆秋季校園招聘備考題庫必考題
- 吉安市低空經(jīng)濟(jì)發(fā)展促進(jìn)中心公開選調(diào)工作人員參考題庫附答案
- 寧都縣2025年選調(diào)縣直機(jī)關(guān)事業(yè)單位工作人員【40人】備考題庫附答案
- 川北醫(yī)學(xué)院2025年公開選調(diào)工作人員備考題庫必考題
- 一年級上冊數(shù)學(xué)應(yīng)用題50道(重點)
- 嵌入式系統(tǒng)實現(xiàn)與創(chuàng)新應(yīng)用智慧樹知到期末考試答案章節(jié)答案2024年山東大學(xué)
- 線纜及線束組件檢驗標(biāo)準(zhǔn)
- 人教部編版語文三年級下冊生字表筆順字帖可打印
- 口述史研究活動方案
- 別克英朗說明書
- 房屋租賃合同txt
- 珍稀植物移栽方案
- THBFIA 0004-2020 紅棗制品標(biāo)準(zhǔn)
- GB/T 34336-2017納米孔氣凝膠復(fù)合絕熱制品
- GB/T 10046-2008銀釬料
評論
0/150
提交評論