電子商務(wù)與數(shù)據(jù)挖掘分析_第1頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析_第2頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析_第3頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析_第4頁(yè)
電子商務(wù)與數(shù)據(jù)挖掘分析_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、電子商務(wù)和數(shù)據(jù)挖掘、基于WEB日志的用戶訪問(wèn)模式挖掘以及電子商務(wù)和數(shù)據(jù)挖掘完美結(jié)合。電子商務(wù)中成功的數(shù)據(jù)挖掘得益于電子商務(wù)提供大量數(shù)據(jù)的事實(shí)。如果一個(gè)電子商務(wù)網(wǎng)站平均每小時(shí)銷售五件商品,其平均月點(diǎn)擊率為160萬(wàn)次。豐富的記錄信息和良好的網(wǎng)站設(shè)計(jì)將有助于獲得豐富的信息和干凈的數(shù)據(jù)。所有從電子商務(wù)網(wǎng)站收集的都是電子數(shù)據(jù),不需要人工輸入或從歷史系統(tǒng)中集成。研究成果可以很容易地轉(zhuǎn)化為電子商務(wù),許多知識(shí)發(fā)現(xiàn)可以直接應(yīng)用。投資回報(bào)很容易衡量。電子商務(wù)為數(shù)據(jù)挖掘提供了海量數(shù)據(jù),“點(diǎn)擊流”將產(chǎn)生大量電子商務(wù)挖掘的數(shù)據(jù)。2000年,每天訪問(wèn)的頁(yè)面數(shù)為10億。如此大量的訪問(wèn)將產(chǎn)生巨大的網(wǎng)絡(luò)日志(記錄頁(yè)面訪問(wèn)的情況

2、),每小時(shí)產(chǎn)生的網(wǎng)絡(luò)日志量將達(dá)到10GB!即使是一個(gè)小的電子商務(wù)網(wǎng)站也會(huì)在一段時(shí)間內(nèi)產(chǎn)生大量數(shù)據(jù)挖掘所需的數(shù)據(jù)。如果你的網(wǎng)站在一個(gè)小時(shí)內(nèi)銷售5個(gè)商品,一個(gè)月內(nèi)會(huì)有多少頁(yè)面被訪問(wèn):5個(gè)商品,24小時(shí)30天/%2(轉(zhuǎn)化率,表示訪問(wèn)者中買(mǎi)東西的人的比例)9個(gè)頁(yè)面(平均9個(gè)頁(yè)面購(gòu)買(mǎi)一個(gè)商品)=1,600,000個(gè)頁(yè)面,這是豐富的。如果你的電子商務(wù)網(wǎng)站設(shè)計(jì)良好,你將能夠獲得各種商業(yè)或用戶訪問(wèn)信息:商品和商品屬性, 商品分類信息(在同時(shí)顯示多種商品時(shí)非常有用)、促銷信息、訪問(wèn)信息(如訪問(wèn)次數(shù))、客戶數(shù)量信息(可通過(guò)登錄/注冊(cè)獲得)、“干凈數(shù)據(jù)”,信息直接從網(wǎng)站中提取,不需要與歷史系統(tǒng)集成,避免了許多錯(cuò)誤。

3、 與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù)可以通過(guò)良好的站點(diǎn)設(shè)計(jì)直接獲得,而不是對(duì)要使用的數(shù)據(jù)進(jìn)行分析、計(jì)算和預(yù)處理。直接采集的電子數(shù)據(jù)可靠,不需要人工輸入數(shù)據(jù),避免了許多錯(cuò)誤。通過(guò)良好的站點(diǎn)設(shè)計(jì),對(duì)數(shù)據(jù)采樣粒度的良好控制粒度是在客戶級(jí)別或會(huì)話級(jí)別控制的,而不是在頁(yè)面級(jí)別控制的,這是一個(gè)有趣的“生日現(xiàn)象”。一家銀行發(fā)現(xiàn)其5%的客戶出生在同一天(同一年同一個(gè)月的同一天)!為什么?如何解釋?研究成果易于轉(zhuǎn)化,歷史上在數(shù)據(jù)挖掘研究中有許多知識(shí)發(fā)現(xiàn),但這些知識(shí)發(fā)現(xiàn)很少在實(shí)際商業(yè)應(yīng)用中產(chǎn)生任何影響。應(yīng)用這些發(fā)現(xiàn)的知識(shí)可能意味著進(jìn)行復(fù)雜的系統(tǒng)改變、過(guò)程改變或改變?nèi)藗兊墓ぷ髁?xí)慣,這在現(xiàn)實(shí)中是非常困難的。在電子商務(wù)中,許多知識(shí)發(fā)

4、現(xiàn)可以直接應(yīng)用于改變網(wǎng)站的設(shè)計(jì)(改變布局,進(jìn)行個(gè)性化設(shè)計(jì)等)。)并開(kāi)始有針對(duì)性的促銷。根據(jù)廣告效果的統(tǒng)計(jì)數(shù)據(jù),改變廣告策略可以很容易地提供捆綁銷售,而且投資收益也很容易衡量。如何使用數(shù)據(jù)挖掘結(jié)果來(lái)衡量創(chuàng)新帶來(lái)的收入?在傳統(tǒng)業(yè)務(wù)中,衡量投資收入需要長(zhǎng)期的衡量和觀察。帕科昂德希爾在購(gòu)物的科學(xué)一書(shū)中提到,一家超市每年花14000小時(shí)觀看視頻,以衡量其促銷策略帶來(lái)的投資收益。在電子商務(wù)中,很容易衡量創(chuàng)新的投資收益,銷售變化報(bào)告可以自動(dòng)生成客戶對(duì)電子郵件和電子調(diào)查的反饋,這些反饋可以在幾天內(nèi)獲得,而不是等待幾個(gè)月。電子商務(wù)甚至整個(gè)互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想實(shí)驗(yàn)室。電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘。電子商務(wù)網(wǎng)站

5、上常用的數(shù)據(jù)挖掘技術(shù)是網(wǎng)絡(luò)數(shù)據(jù)挖掘。我們能在電子商務(wù)網(wǎng)站上挖掘什么?網(wǎng)頁(yè)內(nèi)容挖掘(網(wǎng)頁(yè)內(nèi)容挖掘)網(wǎng)頁(yè)結(jié)構(gòu)挖掘使用網(wǎng)頁(yè)使用挖掘和網(wǎng)頁(yè)內(nèi)容挖掘來(lái)挖掘網(wǎng)頁(yè)內(nèi)容并從網(wǎng)頁(yè)數(shù)據(jù)中發(fā)現(xiàn)信息。從數(shù)百萬(wàn)個(gè)網(wǎng)站和在線數(shù)據(jù)庫(kù)中自動(dòng)搜索和獲取信息和資料;雖然人們可以通過(guò)從互聯(lián)網(wǎng)上直接抓取和索引并實(shí)現(xiàn)檢索服務(wù)來(lái)獲取資源,但是大量的“隱藏”信息只能通過(guò)內(nèi)容挖掘來(lái)自動(dòng)挖掘。網(wǎng)頁(yè)結(jié)構(gòu)挖掘就是挖掘網(wǎng)頁(yè)之間的結(jié)構(gòu)。在整個(gè)網(wǎng)絡(luò)空間中,有用的知識(shí)不僅包含在頁(yè)面的內(nèi)容中,也包含在頁(yè)面的結(jié)構(gòu)中。Web結(jié)構(gòu)挖掘主要針對(duì)頁(yè)面的超鏈接結(jié)構(gòu)。如果有更多的超鏈接指向它,那么頁(yè)面是重要的,并且發(fā)現(xiàn)的知識(shí)可以用來(lái)改進(jìn)搜索路徑。與網(wǎng)頁(yè)內(nèi)容挖掘和網(wǎng)頁(yè)結(jié)構(gòu)

6、挖掘不同,網(wǎng)頁(yè)使用挖掘的挖掘?qū)ο笫怯脩襞c網(wǎng)絡(luò)交互過(guò)程中提取的二手?jǐn)?shù)據(jù),主要是用戶訪問(wèn)網(wǎng)頁(yè)時(shí)留在網(wǎng)頁(yè)日志中的信息和其他交互信息。日志信息包括訪問(wèn)日期、時(shí)間、用戶IP地址、服務(wù)器IP地址、方法、請(qǐng)求的URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。網(wǎng)絡(luò)使用挖掘是挖掘系統(tǒng)日志信息和用戶注冊(cè)數(shù)據(jù),尋找有用的模式和知識(shí)。網(wǎng)站使用挖掘的作用,通過(guò)將網(wǎng)站使用挖掘數(shù)據(jù)挖掘技術(shù)應(yīng)用于電子商務(wù)網(wǎng)站,可以提高網(wǎng)站質(zhì)量,改善網(wǎng)站緩存,緩解網(wǎng)絡(luò)流量,提高性能。在電子商務(wù)中,還可以獲取采購(gòu)過(guò)程的大量細(xì)節(jié),這為更深入的分析提供了可能性。典型日志文件片段-01/Aug/19953:00:01336038-0400“獲取/航

7、天飛機(jī)/任務(wù)/STS-71/圖像/圖像”第2項(xiàng):查看者的電子郵件地址或其他唯一標(biāo)識(shí)符。今天,我們很少有機(jī)會(huì)在日志記錄的第二項(xiàng)中看到電子郵件地址,因此上面標(biāo)有-的字段為空,而網(wǎng)絡(luò)日志(2),典型日志文件片段-01/aug/1995 :00:01:38-0400“獲取/穿梭/任務(wù)/STS-71/圖像/圖像”。第三項(xiàng):記錄查看者在驗(yàn)證期間提供的信息項(xiàng)目4:請(qǐng)求時(shí)間;第5項(xiàng):告訴我們服務(wù)器收到了什么樣的請(qǐng)求。該信息的典型格式是“方法資源協(xié)議”,即“方法資源協(xié)議”;這是網(wǎng)絡(luò)日志中最有用的信息。在上面的例子中,方法是GET RESOURCE,它指的是瀏覽器從服務(wù)器請(qǐng)求的文檔,或者URL協(xié)議通常是HTTP后

8、跟版本號(hào)。網(wǎng)絡(luò)日志(3),典型日志文件片段-01/aug/19953:00:01336038-0400“獲取/穿梭/任務(wù)/STS-71/圖像/圖像”。大多數(shù)情況下,該值為200,這意味著服務(wù)器已經(jīng)成功響應(yīng)了瀏覽器的請(qǐng)求,一切正常。第七項(xiàng):發(fā)送到客戶端的總字節(jié)數(shù)。網(wǎng)站使用挖掘的基本過(guò)程,網(wǎng)站使用挖掘主要是通過(guò)系統(tǒng)日志信息、錯(cuò)誤日志cookies的基本實(shí)現(xiàn)過(guò)程進(jìn)行網(wǎng)站使用挖掘、預(yù)處理、模式發(fā)現(xiàn)、預(yù)處理,這使得挖掘過(guò)程更有效、更容易清理數(shù)據(jù)。其目的是刪除日志文件中一些與數(shù)據(jù)分析和挖掘無(wú)關(guān)的項(xiàng)目。例如,刪除用戶請(qǐng)求方法中未獲得的記錄;用戶標(biāo)識(shí)日志文件僅記錄主機(jī)或代理服務(wù)器的IP地址。為了識(shí)別用戶,需要

9、Cookie技術(shù)和一些啟發(fā)式規(guī)則來(lái)幫助識(shí)別他們。路徑補(bǔ)充確認(rèn)網(wǎng)頁(yè)日志中是否缺少重要的頁(yè)面訪問(wèn)記錄;事件識(shí)別事件識(shí)別與要挖掘什么樣的知識(shí)有關(guān),用戶會(huì)話根據(jù)挖掘活動(dòng)的特定需求被定義為事件。模式發(fā)現(xiàn),通過(guò)將各種數(shù)據(jù)挖掘功能和算法應(yīng)用于預(yù)處理數(shù)據(jù)來(lái)挖掘有用模式和規(guī)則的過(guò)程。網(wǎng)絡(luò)使用挖掘中使用的網(wǎng)絡(luò)日志分析和用戶行為模式挖掘方法包括:關(guān)聯(lián)分析分類和預(yù)測(cè)聚類分析序列模式統(tǒng)計(jì)分析,以及網(wǎng)絡(luò)使用挖掘關(guān)聯(lián)分析(1),它是通過(guò)分析訪問(wèn)網(wǎng)頁(yè)的用戶之間的潛在關(guān)系總結(jié)出來(lái)的規(guī)則;例如,當(dāng)80%的用戶訪問(wèn)網(wǎng)頁(yè)/公司/產(chǎn)品2時(shí),他們也會(huì)訪問(wèn)/公司/產(chǎn)品2;常用算法有Apriori算法或其變體算法、頻繁模式樹(shù)(FP- tre

10、e)算法等??捎糜谕诰虮辉L問(wèn)頁(yè)面中頻繁訪問(wèn)的頁(yè)面集,例如,通過(guò),a=b=c a=b=d,a=b,a=b=e=f,網(wǎng)頁(yè)使用挖掘關(guān)聯(lián)分析(2),通過(guò)關(guān)聯(lián)分析挖掘的頻繁項(xiàng)集(頁(yè)面集)可用于預(yù)取可能被請(qǐng)求的頁(yè)面,從而減少等待時(shí)間。對(duì)于頻繁項(xiàng)集(頁(yè)面集)A,B,當(dāng)用戶訪問(wèn)A時(shí),頁(yè)面B被調(diào)用到緩存中,從而改善網(wǎng)絡(luò)緩存,緩解網(wǎng)絡(luò)流量,提高性能,促進(jìn)在線商務(wù)。對(duì)于頻繁項(xiàng)集A,B,如果它們分別代表兩個(gè)產(chǎn)品的頁(yè)面,這是可以解釋的,我們可以利用這一點(diǎn)在電子商務(wù)實(shí)踐中給出更有效的促銷策略或廣告策略。網(wǎng)絡(luò)使用挖掘分類和預(yù)測(cè)功能可用于提取描述重要數(shù)據(jù)類別的模型,并使用模型預(yù)測(cè)來(lái)確定未知數(shù)據(jù)的類別標(biāo)簽,從而預(yù)測(cè)未來(lái)的數(shù)據(jù)趨

11、勢(shì)。常用算法:決策歸納樹(shù)、貝葉斯分類、k近鄰分類等應(yīng)用:用戶可以根據(jù)其個(gè)人數(shù)據(jù)或其特定的訪問(wèn)模式分類到特定的類別。用戶的分類(例如,對(duì)電子產(chǎn)品感興趣的用戶)可以根據(jù)他們對(duì)某些產(chǎn)品的訪問(wèn)、他們的購(gòu)物或他們對(duì)購(gòu)物車(chē)的放棄來(lái)確定,并且相應(yīng)的促銷策略可以用于相應(yīng)的分類。網(wǎng)絡(luò)使用挖掘聚類分析(1),聚類:將一組對(duì)象分組為由相似對(duì)象組成的多個(gè)類的過(guò)程。(與分類的區(qū)別?常用的聚類算法有:劃分法、層次法、基于密度法等。在網(wǎng)站使用挖掘應(yīng)用程序中有兩種聚類。頁(yè)面聚類將與內(nèi)容相關(guān)的頁(yè)面分類到一個(gè)網(wǎng)頁(yè)組中,這對(duì)于在線搜索引擎和在互聯(lián)網(wǎng)上提供幫助非常有用。用戶聚類對(duì)具有相似訪問(wèn)特征的用戶進(jìn)行分類,在電子商務(wù)市場(chǎng)細(xì)分和為

12、用戶提供個(gè)性化服務(wù)方面發(fā)揮著重要作用。網(wǎng)絡(luò)使用挖掘聚類分析(2),聚類分析可以有利于相似的用戶,從而動(dòng)態(tài)地定制瀏覽內(nèi)容或?yàn)橛脩籼峁g覽建議。例如,采購(gòu)?fù)扑]系統(tǒng)或動(dòng)態(tài)促銷系統(tǒng)的功能有:1)方便用戶查詢和瀏覽;2)增強(qiáng)廣告的作用;3)促進(jìn)網(wǎng)上銷售;4)提高用戶忠誠(chéng)度;(1)通過(guò)計(jì)算出現(xiàn)率、平均值和中位數(shù),獲得用戶訪問(wèn)網(wǎng)站的基本信息。它還可以提供有限的低級(jí)錯(cuò)誤分析,例如檢測(cè)未授權(quán)的入口點(diǎn)和找出最常見(jiàn)和不變的網(wǎng)址。它可用于計(jì)算客戶訪問(wèn)頁(yè)面的次數(shù)、停留時(shí)間等。并獲得訪問(wèn)量最大的頁(yè)面(或產(chǎn)品、網(wǎng)址等。)。網(wǎng)站使用挖掘統(tǒng)計(jì)分析(1),常用的電子商務(wù)網(wǎng)站用戶訪問(wèn)統(tǒng)計(jì)(摘錄),平均用戶訪問(wèn)8-10頁(yè),在網(wǎng)站上花費(fèi)5分鐘。每個(gè)頁(yè)面平均花費(fèi)35秒,購(gòu)物用戶訪問(wèn)50個(gè)頁(yè)面,在網(wǎng)站上花費(fèi)30分鐘。網(wǎng)頁(yè)使用挖掘序列模式試圖找出網(wǎng)頁(yè)按時(shí)間順序出現(xiàn)的固有模式,可以用來(lái)分析用戶的瀏覽趨勢(shì),即一組數(shù)據(jù)項(xiàng)出現(xiàn)在另一組數(shù)據(jù)項(xiàng)之后,從而形成一組按時(shí)間順序排列的會(huì)話來(lái)預(yù)測(cè)未來(lái)的訪問(wèn)模式,這將有助于為特殊的用戶組安排特定的內(nèi)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論