版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、電子商業(yè)和數(shù)據(jù)挖掘,基于WEB計程儀的用戶網(wǎng)站數(shù)據(jù)庫模型挖掘,電子商業(yè)和數(shù)據(jù)挖掘完全結(jié)合,在電子商業(yè)成功的數(shù)據(jù)挖掘是,電子商業(yè)提供大量數(shù)據(jù)的電子商業(yè)網(wǎng)站平均每小時賣出5項,每月平均點擊次數(shù)為160萬次。 豐富的記錄信息良好的網(wǎng)站設(shè)計,豐富的信息有助于獲得漂亮的數(shù)據(jù)從電子商業(yè)網(wǎng)站收集的都是電子數(shù)據(jù),手動輸入和來自歷史系統(tǒng)的綜合研究成果可以容易地轉(zhuǎn)換為電子商業(yè),很多知識發(fā)現(xiàn)應(yīng)用直接投資收益容易測量, 電子商業(yè)為數(shù)據(jù)挖掘提供大量數(shù)據(jù),“喀嚦聲流”產(chǎn)生電子商業(yè)挖掘大量數(shù)據(jù)Yahoo 2000年1天網(wǎng)站數(shù)據(jù)庫的頁數(shù)是1.0億,這樣大的網(wǎng)站數(shù)據(jù)庫量產(chǎn)生龐大的Web計程儀(記載頁網(wǎng)站數(shù)據(jù)庫的情況),每小時發(fā)
2、生的Web日志量即使是小的電子商業(yè)站點,也可以在中斷時間內(nèi)計算數(shù)據(jù)挖掘所需的大量數(shù)據(jù)。 如果你的網(wǎng)站每小時銷售5件物品,每月會有多少頁訪問: 5件2.4時間3.0日/2(轉(zhuǎn)化率,表示訪問人中購物者的比率) 9頁(平均購買1件物品9頁) 1,600,000頁,記錄豐富商品和商品的屬性商品的分類信息(在多個商品被展示在云同步的情況下,分類信息非常有用)關(guān)于優(yōu)惠促銷信息網(wǎng)站數(shù)據(jù)庫的信息(例如訪問量)顧客額信息(可以通過計程儀登錄/登記得到)、“清潔的數(shù)據(jù)”信息直接從網(wǎng)站提取不需要從歷史系統(tǒng)統(tǒng)合, 避免許多錯誤可以通過良好的站點設(shè)計直接獲得與數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù),直接收集用于分析、計算、預處理的數(shù)據(jù)的電
3、子數(shù)據(jù)確實不需要人工輸入數(shù)據(jù),避免許多錯誤通過良好的站點設(shè)計獲得良好的控制數(shù)據(jù)有趣的“生日現(xiàn)象”不是由頁面級別控制,而是由客戶級別或session級別控制,銀行統(tǒng)計客戶數(shù)據(jù),這五位客戶在同一天出生(同年同月同日)! 為什么?怎么解釋? 研究成果容易改變,在歷史數(shù)據(jù)挖掘研究中有很多知識發(fā)現(xiàn),但是這些個的知識發(fā)現(xiàn)給實際的業(yè)務(wù)應(yīng)用帶來什么樣的效果,可能意味著復雜的系統(tǒng)變更、流程變更,或者改變?nèi)藗兊墓ぷ髁晳T,在現(xiàn)實中是非常困難的在電子商業(yè),很多知識發(fā)現(xiàn)改變網(wǎng)站的設(shè)計(改變版結(jié)構(gòu)、客制化設(shè)計等)以有目的的促銷為開端,根據(jù)廣告效應(yīng)的統(tǒng)計數(shù)據(jù)改變化學基就能容易地提供捆綁軟件銷售,投資收益能容易地測量,使用數(shù)
4、據(jù)挖掘成果革新帶來的收益是怎樣測量的在傳統(tǒng)的商業(yè)測量投資收益需要長期的測量和觀察,Paco Underhill在購物大頭針的科學書中說超市為了測量他們的營業(yè)推廣策略帶來的投資收益,每年要看1.4,000小時網(wǎng)絡(luò)視頻。 在電子商業(yè),測量創(chuàng)新性的投資收益是一份非常容易的銷售變化報告,可以在幾天之內(nèi)自動得到顧客對電子郵箱和電子調(diào)查的種子文件反饋,是傳統(tǒng)商業(yè)的理想實驗室,無需等待幾個月即可完成整個電子商業(yè)和網(wǎng)際網(wǎng)絡(luò)。 電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘通常應(yīng)用于電子商務(wù)網(wǎng)站的數(shù)據(jù)挖掘技術(shù)是Web數(shù)據(jù)挖掘。 在電子商業(yè)網(wǎng)站上能發(fā)掘出什么嗎? 使用“內(nèi)容挖掘”、“結(jié)構(gòu)挖掘”、“Web使用挖掘”和“Web內(nèi)容挖掘
5、”挖掘網(wǎng)頁的內(nèi)容,并使用Web雖然可以從數(shù)百萬個網(wǎng)站和上線了數(shù)據(jù)庫中自動搜索和檢索信息和資料的網(wǎng)際網(wǎng)絡(luò)中直接獲取目錄索引,通過實現(xiàn)搜索服務(wù)獲得資源,但是大量的“隱藏”信息只能通過內(nèi)容挖掘自動挖掘。Web Structure Mining和Web Structure Mining挖掘網(wǎng)頁之間的結(jié)構(gòu)。 在整個Web空間中,有用的知識不僅包括在頁面的內(nèi)容中,也包括在頁面的結(jié)構(gòu)中。 Web結(jié)構(gòu)挖掘主要面向頁面的超級網(wǎng)絡(luò)鏈接結(jié)構(gòu),如果指向它的超級網(wǎng)絡(luò)鏈接多,則該頁面很重要,所發(fā)現(xiàn)的知識可用于改善搜索路徑等。 Web Usage Mining與Web Content Mining和Web Structur
6、e Mining不同,Web Usage Mining的挖掘?qū)ο笫窃谂c用戶進行網(wǎng)絡(luò)交互的過程中提取的二手數(shù)據(jù)。 計程儀信息(主要是用戶網(wǎng)站數(shù)據(jù)庫Web時在Web計程儀上留下的信息)包括網(wǎng)站數(shù)據(jù)庫日期、時間、用戶IP地址、服務(wù)器IP地址、方法、請求的URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶本代理、發(fā)送字節(jié)等。 Web Usage Mining挖掘系統(tǒng)計程儀信息和用戶的登錄數(shù)據(jù)等,發(fā)現(xiàn)有用的模式和知識。Web Usage Mining的作用是,通過對電子商業(yè)網(wǎng)站應(yīng)用Web Usage Mining數(shù)據(jù)挖掘技術(shù),可以提高網(wǎng)站質(zhì)量改善WEB高速緩存區(qū)、緩解網(wǎng)絡(luò)交通、提高性能,在電子商業(yè)中捕捉大量的采購流程細節(jié)
7、, WEB計程儀(1)典型的計程儀文件片段-0.1/aug/1953353353636001336038-0400 get/shutter/missions/STS-7.1/images/images.HTS 1.02008529.6.4.5- 0.1/aug/1953363000336001:39-0400 get/shutter/missions/STS-7.2/mission-STS-7.2.html http/1 . 1953336300336001:48-0400 get/persons/NASA-cm/jmd.html http/1.02004067以及網(wǎng)絡(luò)計程儀
8、通常包含七個字段。 第一項:遠程男公關(guān)地址指示網(wǎng)站數(shù)據(jù)庫到站點的用戶。 第二:讀者的電子電子郵箱地址或其他唯一標識符。 到今天,我們在計程儀記錄的第二項中幾乎沒有看到電子郵箱地址的機會,所以在上面用“-”標記的Web計程儀(2)、典型的計程儀文件片斷-0.1/aug/195335335363001:38-0400 get/shutto STS-7.1/images/images.html http/1.2008529,第三項:在不需要用戶身份驗證來記錄查看者進行身份驗證時提供的名稱的站點上,此字段為空第四項:請求的時間為第五項,服務(wù)器為哪個此信息的典型格式是“方法資源協(xié)議”,即“方法資源協(xié)議”
9、。這是Web計程儀中最有用的信息。 在上面的示例中,GET RESOURCE是瀏覽器向服務(wù)器請求的文檔,或者URL PROTOCOL通常是HTTP,并且具有版本號。Web計程儀(3)、典型的計程儀文件片段-0.1/aug/195335336336001336038-0400 get/shutter/missions/STS-7.1/images/images.html http/1.02008 告訴你要求是否成功,有什么錯誤。 在大多數(shù)情況下,此值為200,表示服務(wù)器對瀏覽器請求的成功響應(yīng)。 第7項:發(fā)送到客戶端的總字節(jié)數(shù)。、網(wǎng)頁使用挖掘的基本流程是進行網(wǎng)頁使用挖掘主要是系統(tǒng)計程儀信息的數(shù)據(jù)挖
10、掘網(wǎng)站服務(wù)器計程儀error logs cookies網(wǎng)頁使用挖掘的基本實現(xiàn)流程的預處理模式發(fā)現(xiàn)模式分析、預處理、 通過預處理,挖掘過程更為有效,為了便于數(shù)據(jù)清洗,對計程儀文件進行數(shù)據(jù)分析,刪除與挖掘無關(guān)的項,比如在用戶請求方法中刪除非GET的查詢密碼的用戶標識計程儀文件, 僅記錄了男公關(guān)或在線代理服務(wù)器的IP地址,為了識別用戶,需要使用Cookie技術(shù)和啟發(fā)規(guī)則來鼎力相助識別符的路徑完成,以及確認Web計程儀中是否有重要的頁面網(wǎng)站數(shù)據(jù)庫記錄缺失的上通告識別上通告識別符,涉及嘗試挖掘怎樣的知識、對模式發(fā)現(xiàn)、預處理的數(shù)據(jù)應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,發(fā)掘有用模式和規(guī)則的過程。 Web Usage
11、 Mining中使用的Web計程儀分析和用戶行為模式的挖掘方法是:相關(guān)分析分類和預測聚類分析序列模式統(tǒng)計分析、Web Usage Mining相關(guān)分析(1), 作為通過分析用戶網(wǎng)站數(shù)據(jù)庫的網(wǎng)頁間的潛在聯(lián)系總結(jié)的規(guī)則的用戶的80%在網(wǎng)頁/company/product1中網(wǎng)站數(shù)據(jù)庫的情況下,在/company/product 2中也網(wǎng)站數(shù)據(jù)庫的一般的算法Apriori算法及其變形算法、 挖掘網(wǎng)站數(shù)據(jù)庫頁中頻繁網(wǎng)站數(shù)據(jù)庫的頁面定徑套(諸如頻繁的模式樹(FP-樹)算法)意味著,例如由A=B=C A=B=D、A=B、A=B=E=F、Web Usage Mining相關(guān)性分析(2)相關(guān)分析挖掘出的頻繁眼
12、睛可用于預取可請求頁面以減少等待時間,以及頻繁的項目定徑套(頁面定徑套) a, 關(guān)于b,當用戶網(wǎng)站數(shù)據(jù)庫到a時,將頁面b讀入高速緩存區(qū),改善Web高速緩存區(qū),緩和網(wǎng)絡(luò)交通,提高性能,頻繁的項目定徑套a, 關(guān)于b,只要分別代表兩個產(chǎn)品的網(wǎng)頁,就表示兩個產(chǎn)品之間有關(guān)聯(lián),利用這一點,可以在電子商業(yè)的實踐中提示更有效的優(yōu)惠促銷策略和廣告策略,Web Usage Mining分類和預測、分類和預測功能提取描述重要的數(shù)據(jù)類的模型,作為模型一般算法:判定歸納木、貝葉斯分類、k-最近鄰分類等的應(yīng)用:根據(jù)用戶的個人資料和其特定的網(wǎng)站數(shù)據(jù)庫模式,分類到某個特定的類,根據(jù)用戶對某個產(chǎn)品的網(wǎng)站數(shù)據(jù)庫狀況化學基,或者根
13、據(jù)其購物大頭針狀況化學基, 或者,可以根據(jù)拋棄購物車的狀況,決定用戶的分類(e.g .對電子產(chǎn)品感興趣的用戶),并對該分類應(yīng)用適當?shù)臓I業(yè)推廣策略。Web Usage Mining聚類分析(1)、聚類:將對象集合分組為類似對象的多個類的過程。 (與分類有什么不同? (一般聚類算法:分割方法、分層方法、基于密度的方法等。 Web Usage Mining應(yīng)用程序包含2種集群。 頁面分組通過將與內(nèi)容相關(guān)的頁面組合成一個頁面組來實現(xiàn),并且用于網(wǎng)際網(wǎng)絡(luò)搜索引擎和網(wǎng)際網(wǎng)絡(luò)鼎力相助的用戶分組通過將具有相似網(wǎng)站數(shù)據(jù)庫特性的用戶組合成市場劃分電子商業(yè)以及向用戶提供個人化服務(wù)來實現(xiàn), 能夠起到很大作用,Web U
14、sage Mining聚類分析(2)、聚類分析使得相似的用戶能夠喜好,并且動態(tài)地向用戶客制化視聽內(nèi)容或者提供閱覽廣告老虎鉗。 例如,購買推薦系統(tǒng)和動態(tài)促銷系統(tǒng)的作用:1)方便用戶的詢問法和瀏覽的作用;2 )加強廣告的作用;3 )促進在線銷售的作用;4 )提高用戶企業(yè)忠誠度的作用;Web Usage Mining統(tǒng)計分析(1);在統(tǒng)計分析中,求出出現(xiàn)率,求出平均值; 匯總最常網(wǎng)站數(shù)據(jù)庫的網(wǎng)頁(包括求中值),獲取用戶在網(wǎng)站上網(wǎng)站數(shù)據(jù)庫的基本信息,包括每頁的平均存取時間、平均瀏覽路徑長度等。 它還可提供有限的低級錯誤分析,例如檢測未授權(quán)入口點并找到最常見的不變URL。計算客戶端到某頁的網(wǎng)站數(shù)據(jù)庫次數(shù)、停留時間等,并將網(wǎng)站數(shù)據(jù)庫次數(shù)最多的頁(或產(chǎn)品、URL等)、Web Usage Mining統(tǒng)計分析(1)、一般電子商務(wù)網(wǎng)站的用戶網(wǎng)站數(shù)據(jù)庫數(shù)據(jù)統(tǒng)計(摘錄)平均810頁網(wǎng)站數(shù)據(jù)庫到站點每一頁3.5秒,購物大頭針的用戶在站點上網(wǎng)站數(shù)據(jù)庫5.0頁所花費的3.0,是大量數(shù)據(jù)統(tǒng)計的結(jié)果,具有很高的一致性。Web Usage Mining序列模式、序列模式能夠找出頁面按時間序列出現(xiàn)的內(nèi)在模式序列模式,用于用戶閱覽傾向的分析。 也就是說,在數(shù)據(jù)項定徑套之后,另一數(shù)據(jù)項定徑套出現(xiàn)以形成在時間上排序的會話,以預測未來的網(wǎng)站數(shù)據(jù)庫模式
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GAT 726.11-2007反恐怖信息管理代碼 第11部分:涉恐事件編號規(guī)則》專題研究報告深度
- 養(yǎng)老院工作人員職責分工制度
- 企業(yè)市場營銷策劃制度
- 2026河南開封市通許縣消防救援大隊政府專職消防員、消防文員招聘6人考試備考題庫附答案
- 交通應(yīng)急預案制定與演練制度
- 2026湖南現(xiàn)代環(huán)境科技股份有限公司部分崗位公開招聘3人備考題庫附答案
- 2026電科華錄校園招聘參考題庫附答案
- 2026福建省面向中央財經(jīng)大學選調(diào)生選拔工作備考題庫附答案
- 2026福建福州市閩侯縣公安局第1期招聘警務(wù)輔助人員77人參考題庫附答案
- 2026西藏日喀則市亞東縣住建局招聘項目專業(yè)技術(shù)人員1人參考題庫附答案
- 企業(yè)員工的職業(yè)道德培訓內(nèi)容
- 水利工程建設(shè)監(jiān)理規(guī)范
- (部編版)語文五年級上冊“小古文”閱讀理解訓練82篇附參考答案
- 六年級上冊道德與法治期末測試卷(附參考答案)
- 2024秋新教材七年級語文上冊課后習題答案文檔版
- 2025屆大灣區(qū)普通高中畢業(yè)年級聯(lián)合模擬考試(一)生物試卷(含答案)
- 【MOOC】線性代數(shù)學習指導-同濟大學 中國大學慕課MOOC答案
- 青少年無人機課程:第一課-馬上起飛
- 網(wǎng)架吊裝安全保證措施
- 某電廠660MW機組熱力系統(tǒng)與凝結(jié)水系統(tǒng)設(shè)計
- 交通基礎(chǔ)設(shè)施數(shù)字化轉(zhuǎn)型
評論
0/150
提交評論