版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第15章數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
15.1應(yīng)用概述>>
15.2主要應(yīng)用領(lǐng)域>>
15.3案例1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦>>
15.4案例2:協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用>>第15章數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用15.1應(yīng)用概述>15.1應(yīng)用概述電子商務(wù)(E-Commerce,簡稱EC)是指在互聯(lián)網(wǎng)(Internet)、企業(yè)內(nèi)部網(wǎng)(Intranet)和增值網(wǎng)(ValueAddedNetwork,簡稱VAN)上以電子交易方式進(jìn)行交易及其它相關(guān)服務(wù)活動,它是傳統(tǒng)商業(yè)活動各環(huán)節(jié)的電子化和網(wǎng)絡(luò)化。電子商務(wù)包括電子貨幣交換、供應(yīng)鏈管理、電子交易市場、網(wǎng)絡(luò)營銷、在線事務(wù)處理、電子數(shù)據(jù)交換、存貨管理和自動數(shù)據(jù)收集系統(tǒng)等方面。隨著互聯(lián)網(wǎng)的迅速普及,電子商務(wù)已如雨后春筍般地迅速發(fā)展壯大起來。目前很多大型企業(yè)都擁有自己的商務(wù)網(wǎng)站。但是,電子商務(wù)在給人們帶來方便快捷的同時(shí),也給人們帶來了不少的難題和挑戰(zhàn)。對企業(yè)來說,需要從海量的交易信息中找出有用的、有潛在價(jià)值的信息,制定更好的經(jīng)營策略;對消費(fèi)者來說,需要花費(fèi)大量的時(shí)間和精力來瀏覽網(wǎng)上海量的商品信息,并從中比較和選購商品。數(shù)據(jù)挖掘技術(shù)可以從海量的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識、模型或規(guī)則,從而為企業(yè)或消費(fèi)者提供決策支持。例如,企業(yè)可以采用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分、高價(jià)值客戶挖掘和客戶流失預(yù)測,還可以進(jìn)行個(gè)性化推薦以改善用戶體驗(yàn),從而提升用戶從點(diǎn)擊到購買的轉(zhuǎn)化率。15.1應(yīng)用概述電子商務(wù)(E-Commerce,簡稱EC15.2主要應(yīng)用領(lǐng)域15.2.1網(wǎng)絡(luò)客戶關(guān)系管理15.2.2網(wǎng)站設(shè)計(jì)優(yōu)化15.2.3推薦系統(tǒng)15.2主要應(yīng)用領(lǐng)域15.2.1網(wǎng)絡(luò)客戶關(guān)系管理15.2.1網(wǎng)絡(luò)客戶關(guān)系管理網(wǎng)絡(luò)客戶關(guān)系管理(ElectronicCustomerRelationshipManagement,簡稱E-CRM)是企業(yè)在信息化中基于Internet平臺的客戶關(guān)系管理,其核心思想是在電子商務(wù)環(huán)境中,CRM具有在企業(yè)與客戶、供應(yīng)商及業(yè)務(wù)伙伴之間建立無縫的協(xié)作能力,通過包括Web在內(nèi)的多種渠道來跟蹤和管理與客戶進(jìn)行的交流和交易,從而實(shí)現(xiàn)企業(yè)與每位客戶的最大程度與最大自由的互動。數(shù)據(jù)挖掘可在客戶獲取、客戶細(xì)分和客戶保留三方面優(yōu)化網(wǎng)絡(luò)客戶關(guān)系管理質(zhì)量。15.2.1網(wǎng)絡(luò)客戶關(guān)系管理網(wǎng)絡(luò)客戶關(guān)系管理(Electr15.2.2網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化從網(wǎng)站的用戶瀏覽日志文件中挖掘客戶訪問頁面的使用模式,可以為改良網(wǎng)站的內(nèi)容布局提供良好的建議。對Web站點(diǎn)的優(yōu)化可以從兩方面來考慮:一是發(fā)現(xiàn)客戶訪問頁面的相關(guān)性,在密切相關(guān)的網(wǎng)頁之間增加互通鏈接;二是發(fā)現(xiàn)用戶的期望位置,如果在期望位置的訪問頻率高于對實(shí)際位置的訪問頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接。以著名的電子商務(wù)平臺亞馬遜為例,其Web站點(diǎn)優(yōu)化主要體現(xiàn)在以下幾方面:(1)產(chǎn)品搜索和在線采購(2)相關(guān)產(chǎn)品展示(3)基于歷史行為的產(chǎn)品推薦(4)可定制的推薦記錄(5)全面的導(dǎo)航條15.2.2網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化從網(wǎng)站的用戶瀏覽日志文件中挖掘客戶15.2.3推薦系統(tǒng)(1)電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘中的推薦技術(shù)應(yīng)用到電子商務(wù)領(lǐng)域的范例。隨著電子商務(wù)活動的開展,電子商務(wù)平臺可以收集到大量用戶相關(guān)數(shù)據(jù),如用戶交易數(shù)據(jù)、用戶注冊數(shù)據(jù)、用戶評分?jǐn)?shù)據(jù)、用戶咨詢數(shù)據(jù)等。這些數(shù)據(jù)中蘊(yùn)含著豐富的用戶偏好信息,推薦系統(tǒng)可以對用戶行為和個(gè)人信息進(jìn)行分析處理,從中獲取用戶興趣信息并進(jìn)行推薦。協(xié)同過濾推薦是目前研究最多應(yīng)用最廣泛的推薦算法,包括基于內(nèi)容的協(xié)同過濾方法、基于模型的協(xié)同過濾。其他推薦方法還包括基于效用的推薦和基于知識的推薦等。協(xié)同過濾在電子商務(wù)中多用于在線動態(tài)推薦,而關(guān)聯(lián)分析則常用于離線靜態(tài)推薦。目前,大型電子商務(wù)系統(tǒng),如Amazon、eBay和Dangdang,都不同程度地使用了電子商務(wù)推薦系統(tǒng)。以著名的電子商務(wù)網(wǎng)站淘寶網(wǎng)為例,其推薦功能體現(xiàn)在以下幾方面:15.2.3推薦系統(tǒng)(1)電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘中15.2.3推薦系統(tǒng)(2)圖15-3“掌柜熱賣”推薦示例圖15-4“基于瀏覽記錄的推薦”示例圖15-5“猜你喜歡的”推薦示例15.2.3推薦系統(tǒng)(2)圖15-3“掌柜熱賣”推薦示15.3案例1:
基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦15.2.1商業(yè)理解15.2.2數(shù)據(jù)理解階段15.2.3數(shù)據(jù)準(zhǔn)備階段15.2.4建模階段15.3案例1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦15.2.1商15.2.1商業(yè)理解面對電子商務(wù)網(wǎng)站上海量和紛繁多樣的商品,很多用戶感到無所適從,他們需要花費(fèi)大量時(shí)間來挑選自己需要或者感興趣的商品。網(wǎng)上銷售與傳統(tǒng)的店面銷售不同,沒有售貨員提供現(xiàn)場咨詢服務(wù)。但是,網(wǎng)上銷售可以利用互聯(lián)網(wǎng)的優(yōu)勢,為用戶提供更優(yōu)質(zhì)的服務(wù)。由于服務(wù)器會記錄用戶在瀏覽電子商務(wù)網(wǎng)站時(shí)的所有行為,因此,企業(yè)很容易收集用戶的瀏覽記錄、交易信息及偏好數(shù)據(jù)。在個(gè)性化推薦技術(shù)的關(guān)聯(lián)規(guī)則分析中,最典型的例子是購物籃分析,其目標(biāo)是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系強(qiáng)度,挖掘用戶潛在購買模式,并將這些模式所對應(yīng)的服務(wù)或產(chǎn)品展示給用戶,為其提供參考,從而提高用戶的滿意度及購買率。15.2.1商業(yè)理解面對電子商務(wù)網(wǎng)站上海量和紛繁多樣的商品15.2.2數(shù)據(jù)理解階段屬性名屬性意義交易號ID唯一標(biāo)識每一次用戶的交易商品名購買的商品名數(shù)量購買的每一樣商品的數(shù)量單價(jià)購買商品的單價(jià)表15-1數(shù)據(jù)集屬性信息ID商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)1女裝T恤279短裙2118休閑男裝199連衣裙1352女裝T恤179短裙1118傘115
3女裝T恤179短裙255高跟鞋163連衣裙1354女裝T恤1119短裙155高跟鞋163
5女裝T恤2119短裙145高跟鞋163
6女裝T恤1119短裙145高跟鞋263洗發(fā)水285表15-2部分?jǐn)?shù)據(jù)實(shí)例本案例采用淘寶網(wǎng)的用戶交易數(shù)據(jù)進(jìn)行分析,每條交易記錄包括記錄號和顧客購買的商品,表15-1給出了數(shù)據(jù)集中各屬性名及意義,表15-2為部分交易實(shí)例數(shù)據(jù)示例。15.2.2數(shù)據(jù)理解階段屬性名屬性意義交易15.2.3數(shù)據(jù)準(zhǔn)備階段(1)交易號商品1商品2商品名3商品名41女裝T恤短裙休閑男裝連衣裙2女裝T恤短裙傘
3女裝T恤短裙高跟鞋連衣裙4女裝T恤短裙高跟鞋
5女裝T恤短裙高跟鞋
6女裝T恤短裙高跟鞋洗發(fā)水表15-3
部分預(yù)處理后的數(shù)據(jù)原始數(shù)據(jù)集可能包含了一些冗余的數(shù)據(jù)、空值和零值等,這種格式不能作為關(guān)聯(lián)規(guī)則分析算法的輸入,需要對數(shù)據(jù)進(jìn)行預(yù)處理。本案例的預(yù)處理中包括過濾掉原始數(shù)據(jù)集中的商品數(shù)量和單價(jià)這兩個(gè)屬性。同時(shí)為了保護(hù)顧客的隱私,過濾了用戶名屬性,并且用交易號來唯一表示顧客的每一次交易。處理后的數(shù)據(jù)集如表15-3所示。15.2.3數(shù)據(jù)準(zhǔn)備階段(1)交易號商品1商品15.2.3數(shù)據(jù)準(zhǔn)備階段(2)交易號女裝T恤短裙電腦配件男裝牛仔褲休閑男裝1TTFFT2TTFFF3TTFFF表15-4
布爾矩陣格式數(shù)據(jù)集交易號女裝T恤1女裝T恤1短裙1休閑男裝2女裝T恤2短裙3女裝T恤3短裙表15-5
事務(wù)處理格式數(shù)據(jù)集在Clementine軟件進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),必須把數(shù)據(jù)格式轉(zhuǎn)換成Clementine軟件能處理的格式。通常有兩種格式:一種是布爾矩陣形式,即每行表示一條交易記錄,列中的T/F值表示該商品是否有在相應(yīng)的交易記錄中出現(xiàn),T表示有出現(xiàn),F(xiàn)表示沒有出現(xiàn)(表15-4列出轉(zhuǎn)換后的前3條記錄信息);一種是事務(wù)處理格式,即每行對應(yīng)一個(gè)交易號和一個(gè)商品項(xiàng)(表15-5列出了前3個(gè)事務(wù)對應(yīng)的事務(wù)處理格式)15.2.3數(shù)據(jù)準(zhǔn)備階段(2)交易號女裝T恤短15.2.4建模階段Consequent規(guī)則后件Antecedent規(guī)則前件Support%支持度Confidence%置信度Lift提升度高跟鞋=T洗發(fā)水=T1.172.72715.474童裝=T玩具=T文具=T1.573.33312.865家具=T地毯=T2.050.011.364玩具=T童裝=T文具=T2.250.010.638童裝=T玩具=T4.759.57410.452女裝T恤=T短裙=T高跟鞋=T1.250.010.417表15-6Apriori算法運(yùn)行結(jié)果利用Clementine中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析,設(shè)定最小支持度1%,最小置信度50%,輸入為布爾矩陣格式的交易數(shù)據(jù)(如表15-4),輸出商品的關(guān)聯(lián)規(guī)則及相應(yīng)的支持度、置信度和提升度信息(如表15-6)。表中顯示“高跟鞋”和“洗發(fā)水”、“童裝”和“玩具”、“文具”經(jīng)常被一起購買。15.2.4建模階段ConsequentAntecede15.3案例2:
協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用15.3.1商業(yè)理解15.3.2數(shù)據(jù)理解與準(zhǔn)備15.3.3建模階段15.3.4模型評估與部署15.3案例2:協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用15.15.3.1商業(yè)理解在本案例中,關(guān)聯(lián)規(guī)則分析主要是從大量的電影評論記錄中提取出穩(wěn)定的電影間的關(guān)聯(lián)規(guī)則,它表示對應(yīng)的電影經(jīng)常被同時(shí)評價(jià),這個(gè)組合通常是穩(wěn)定的,一般可用于捆綁推薦等靜態(tài)推薦。而協(xié)同過濾則是結(jié)合當(dāng)前用戶及其他用戶的交易或打分記錄進(jìn)行推薦。例如,對于指定用戶的電影評分記錄,可找到與其評分相似的其他用戶,并根據(jù)這些用戶對其他電影的評分來預(yù)測該用戶的評分,以此對該用戶進(jìn)行推薦評分較高的電影。而電影推薦網(wǎng)站積累的電影記錄數(shù)據(jù)量巨大,不同用戶的評分也時(shí)刻更新變化,因此電影推薦網(wǎng)站適合采用協(xié)同過濾技術(shù)來進(jìn)行此類更新頻率較快的動態(tài)推薦,以滿足用戶對獲取最新電影推薦的需求。15.3.1商業(yè)理解在本案例中,關(guān)聯(lián)規(guī)則分析主要是從大量的15.3.2數(shù)據(jù)理解與準(zhǔn)備UserIDItemIDRatingTimestamp1962423881250949186302389171774222118788871162443288060692316651886397596表15-8MovieLens的u.data表部分?jǐn)?shù)據(jù)本案例使用GroupLensResearch的經(jīng)典數(shù)據(jù)集MovieLens,該數(shù)據(jù)集包含3個(gè)重要的數(shù)據(jù)表,分別是u.data、u.item和u.user,其中u.data記錄了943個(gè)用戶對1682部電影的100000個(gè)評分,u.item記錄了1682部電影的信息,u.user描述了943個(gè)用戶的相關(guān)信息。我們主要用到u.data表的UserID、ItemID和Rating屬性,表15-7給出了u.data部分?jǐn)?shù)據(jù)示例。15.3.2數(shù)據(jù)理解與準(zhǔn)備UserIDItemIDRat15.3.3建模階段(1)采用開源的ApacheMahout項(xiàng)目中的協(xié)同過濾軟件包c(diǎn)f來對MovieLens數(shù)據(jù)集進(jìn)行分析預(yù)測。主要有以下4個(gè)步驟:(1)構(gòu)建模型針對電影評分?jǐn)?shù)據(jù),構(gòu)建適合分析的數(shù)據(jù)模型,用于存儲用戶,電影和評分。這里我們用的是文件u.data,去掉Timestamp屬性,建立FileDataModel。(2)計(jì)算用戶相似度為了確定所分析用戶的相鄰用戶集,要先經(jīng)過用戶相似度的計(jì)算。這里采用夾角余弦的相似度計(jì)算方法來計(jì)算相似度。(3)查找K個(gè)相鄰用戶經(jīng)過用戶相似度計(jì)算,接著要確定選取哪些用戶為最相似用戶。通常相似度較高的用戶,都?xì)w到相鄰用戶集。這里K值的設(shè)定依賴于實(shí)際數(shù)據(jù)特點(diǎn)或主觀經(jīng)驗(yàn)。為簡單起見,我們?nèi)∽钕嗨频?個(gè)用戶作為相鄰用戶集。(4)構(gòu)建推薦引擎15.3.3建模階段(1)采用開源的ApacheMah15.3.3建模階段(2)表15-9
前6個(gè)用戶預(yù)測評分最高的5部電影推薦通過以上4個(gè)步驟,借助ApacheMahout項(xiàng)目的cf包,我們可以簡單地構(gòu)建一個(gè)基于用戶協(xié)同過濾的推薦引擎,并為每個(gè)用戶提供電影推薦。推薦結(jié)果如表15-8所示。UserID(Top5)ItemID&&Rating1881,5.00880,4.00292,4.00301,4.00315,4.002116,5.0083,5.00179,5.008,5.00172,5.003172,4.67174,4.6722,4.6789,4.6750,4.50489,5.0098,4.50318,4.5079,4.50474,4.055347,5.00329,4.50242,4.50310,4.00299,4.006292,4.50313,4.50328,4.33288,4。25872,4.0115.3.3建模階段(2)表15-9前6個(gè)用戶預(yù)測評15.3.4模型評估和部署如何對構(gòu)建的推薦引擎進(jìn)行評估,使評價(jià)推薦的物品與實(shí)際相符,這是推薦系統(tǒng)另外需要考慮的問題。一方面,要考慮推薦的多樣性。一般從單用戶的角度查看系統(tǒng)給出的推薦是否具有多樣性,或者從系統(tǒng)多樣性的角度(也稱覆蓋率)查看系統(tǒng)是否能夠提供給所有用戶豐富的選擇。另一方面,要考慮推薦的精度。習(xí)慣的做法是利用一部分?jǐn)?shù)據(jù)作為訓(xùn)練集,而留出一部分實(shí)際用戶評分?jǐn)?shù)據(jù)作為測試集,通過預(yù)測評分與實(shí)際評分之間的均差、均方根等大小來評估。通常是值越小,說明推薦的情況和實(shí)際值越接近,若其值為0說明完全吻合。15.3.4模型評估和部署如何對構(gòu)建的推薦引擎進(jìn)行評估,使商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析第15章數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
15.1應(yīng)用概述>>
15.2主要應(yīng)用領(lǐng)域>>
15.3案例1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦>>
15.4案例2:協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用>>第15章數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用15.1應(yīng)用概述>15.1應(yīng)用概述電子商務(wù)(E-Commerce,簡稱EC)是指在互聯(lián)網(wǎng)(Internet)、企業(yè)內(nèi)部網(wǎng)(Intranet)和增值網(wǎng)(ValueAddedNetwork,簡稱VAN)上以電子交易方式進(jìn)行交易及其它相關(guān)服務(wù)活動,它是傳統(tǒng)商業(yè)活動各環(huán)節(jié)的電子化和網(wǎng)絡(luò)化。電子商務(wù)包括電子貨幣交換、供應(yīng)鏈管理、電子交易市場、網(wǎng)絡(luò)營銷、在線事務(wù)處理、電子數(shù)據(jù)交換、存貨管理和自動數(shù)據(jù)收集系統(tǒng)等方面。隨著互聯(lián)網(wǎng)的迅速普及,電子商務(wù)已如雨后春筍般地迅速發(fā)展壯大起來。目前很多大型企業(yè)都擁有自己的商務(wù)網(wǎng)站。但是,電子商務(wù)在給人們帶來方便快捷的同時(shí),也給人們帶來了不少的難題和挑戰(zhàn)。對企業(yè)來說,需要從海量的交易信息中找出有用的、有潛在價(jià)值的信息,制定更好的經(jīng)營策略;對消費(fèi)者來說,需要花費(fèi)大量的時(shí)間和精力來瀏覽網(wǎng)上海量的商品信息,并從中比較和選購商品。數(shù)據(jù)挖掘技術(shù)可以從海量的數(shù)據(jù)中抽取出潛在的、有價(jià)值的知識、模型或規(guī)則,從而為企業(yè)或消費(fèi)者提供決策支持。例如,企業(yè)可以采用數(shù)據(jù)挖掘技術(shù)進(jìn)行客戶細(xì)分、高價(jià)值客戶挖掘和客戶流失預(yù)測,還可以進(jìn)行個(gè)性化推薦以改善用戶體驗(yàn),從而提升用戶從點(diǎn)擊到購買的轉(zhuǎn)化率。15.1應(yīng)用概述電子商務(wù)(E-Commerce,簡稱EC15.2主要應(yīng)用領(lǐng)域15.2.1網(wǎng)絡(luò)客戶關(guān)系管理15.2.2網(wǎng)站設(shè)計(jì)優(yōu)化15.2.3推薦系統(tǒng)15.2主要應(yīng)用領(lǐng)域15.2.1網(wǎng)絡(luò)客戶關(guān)系管理15.2.1網(wǎng)絡(luò)客戶關(guān)系管理網(wǎng)絡(luò)客戶關(guān)系管理(ElectronicCustomerRelationshipManagement,簡稱E-CRM)是企業(yè)在信息化中基于Internet平臺的客戶關(guān)系管理,其核心思想是在電子商務(wù)環(huán)境中,CRM具有在企業(yè)與客戶、供應(yīng)商及業(yè)務(wù)伙伴之間建立無縫的協(xié)作能力,通過包括Web在內(nèi)的多種渠道來跟蹤和管理與客戶進(jìn)行的交流和交易,從而實(shí)現(xiàn)企業(yè)與每位客戶的最大程度與最大自由的互動。數(shù)據(jù)挖掘可在客戶獲取、客戶細(xì)分和客戶保留三方面優(yōu)化網(wǎng)絡(luò)客戶關(guān)系管理質(zhì)量。15.2.1網(wǎng)絡(luò)客戶關(guān)系管理網(wǎng)絡(luò)客戶關(guān)系管理(Electr15.2.2網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化從網(wǎng)站的用戶瀏覽日志文件中挖掘客戶訪問頁面的使用模式,可以為改良網(wǎng)站的內(nèi)容布局提供良好的建議。對Web站點(diǎn)的優(yōu)化可以從兩方面來考慮:一是發(fā)現(xiàn)客戶訪問頁面的相關(guān)性,在密切相關(guān)的網(wǎng)頁之間增加互通鏈接;二是發(fā)現(xiàn)用戶的期望位置,如果在期望位置的訪問頻率高于對實(shí)際位置的訪問頻率,可考慮在期望位置和實(shí)際位置之間建立導(dǎo)航鏈接。以著名的電子商務(wù)平臺亞馬遜為例,其Web站點(diǎn)優(yōu)化主要體現(xiàn)在以下幾方面:(1)產(chǎn)品搜索和在線采購(2)相關(guān)產(chǎn)品展示(3)基于歷史行為的產(chǎn)品推薦(4)可定制的推薦記錄(5)全面的導(dǎo)航條15.2.2網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化從網(wǎng)站的用戶瀏覽日志文件中挖掘客戶15.2.3推薦系統(tǒng)(1)電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘中的推薦技術(shù)應(yīng)用到電子商務(wù)領(lǐng)域的范例。隨著電子商務(wù)活動的開展,電子商務(wù)平臺可以收集到大量用戶相關(guān)數(shù)據(jù),如用戶交易數(shù)據(jù)、用戶注冊數(shù)據(jù)、用戶評分?jǐn)?shù)據(jù)、用戶咨詢數(shù)據(jù)等。這些數(shù)據(jù)中蘊(yùn)含著豐富的用戶偏好信息,推薦系統(tǒng)可以對用戶行為和個(gè)人信息進(jìn)行分析處理,從中獲取用戶興趣信息并進(jìn)行推薦。協(xié)同過濾推薦是目前研究最多應(yīng)用最廣泛的推薦算法,包括基于內(nèi)容的協(xié)同過濾方法、基于模型的協(xié)同過濾。其他推薦方法還包括基于效用的推薦和基于知識的推薦等。協(xié)同過濾在電子商務(wù)中多用于在線動態(tài)推薦,而關(guān)聯(lián)分析則常用于離線靜態(tài)推薦。目前,大型電子商務(wù)系統(tǒng),如Amazon、eBay和Dangdang,都不同程度地使用了電子商務(wù)推薦系統(tǒng)。以著名的電子商務(wù)網(wǎng)站淘寶網(wǎng)為例,其推薦功能體現(xiàn)在以下幾方面:15.2.3推薦系統(tǒng)(1)電子商務(wù)推薦系統(tǒng)是將數(shù)據(jù)挖掘中15.2.3推薦系統(tǒng)(2)圖15-3“掌柜熱賣”推薦示例圖15-4“基于瀏覽記錄的推薦”示例圖15-5“猜你喜歡的”推薦示例15.2.3推薦系統(tǒng)(2)圖15-3“掌柜熱賣”推薦示15.3案例1:
基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦15.2.1商業(yè)理解15.2.2數(shù)據(jù)理解階段15.2.3數(shù)據(jù)準(zhǔn)備階段15.2.4建模階段15.3案例1:基于關(guān)聯(lián)分析的淘寶網(wǎng)推薦15.2.1商15.2.1商業(yè)理解面對電子商務(wù)網(wǎng)站上海量和紛繁多樣的商品,很多用戶感到無所適從,他們需要花費(fèi)大量時(shí)間來挑選自己需要或者感興趣的商品。網(wǎng)上銷售與傳統(tǒng)的店面銷售不同,沒有售貨員提供現(xiàn)場咨詢服務(wù)。但是,網(wǎng)上銷售可以利用互聯(lián)網(wǎng)的優(yōu)勢,為用戶提供更優(yōu)質(zhì)的服務(wù)。由于服務(wù)器會記錄用戶在瀏覽電子商務(wù)網(wǎng)站時(shí)的所有行為,因此,企業(yè)很容易收集用戶的瀏覽記錄、交易信息及偏好數(shù)據(jù)。在個(gè)性化推薦技術(shù)的關(guān)聯(lián)規(guī)則分析中,最典型的例子是購物籃分析,其目標(biāo)是發(fā)現(xiàn)交易數(shù)據(jù)庫中不同商品之間的聯(lián)系強(qiáng)度,挖掘用戶潛在購買模式,并將這些模式所對應(yīng)的服務(wù)或產(chǎn)品展示給用戶,為其提供參考,從而提高用戶的滿意度及購買率。15.2.1商業(yè)理解面對電子商務(wù)網(wǎng)站上海量和紛繁多樣的商品15.2.2數(shù)據(jù)理解階段屬性名屬性意義交易號ID唯一標(biāo)識每一次用戶的交易商品名購買的商品名數(shù)量購買的每一樣商品的數(shù)量單價(jià)購買商品的單價(jià)表15-1數(shù)據(jù)集屬性信息ID商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)商品名數(shù)量單價(jià)1女裝T恤279短裙2118休閑男裝199連衣裙1352女裝T恤179短裙1118傘115
3女裝T恤179短裙255高跟鞋163連衣裙1354女裝T恤1119短裙155高跟鞋163
5女裝T恤2119短裙145高跟鞋163
6女裝T恤1119短裙145高跟鞋263洗發(fā)水285表15-2部分?jǐn)?shù)據(jù)實(shí)例本案例采用淘寶網(wǎng)的用戶交易數(shù)據(jù)進(jìn)行分析,每條交易記錄包括記錄號和顧客購買的商品,表15-1給出了數(shù)據(jù)集中各屬性名及意義,表15-2為部分交易實(shí)例數(shù)據(jù)示例。15.2.2數(shù)據(jù)理解階段屬性名屬性意義交易15.2.3數(shù)據(jù)準(zhǔn)備階段(1)交易號商品1商品2商品名3商品名41女裝T恤短裙休閑男裝連衣裙2女裝T恤短裙傘
3女裝T恤短裙高跟鞋連衣裙4女裝T恤短裙高跟鞋
5女裝T恤短裙高跟鞋
6女裝T恤短裙高跟鞋洗發(fā)水表15-3
部分預(yù)處理后的數(shù)據(jù)原始數(shù)據(jù)集可能包含了一些冗余的數(shù)據(jù)、空值和零值等,這種格式不能作為關(guān)聯(lián)規(guī)則分析算法的輸入,需要對數(shù)據(jù)進(jìn)行預(yù)處理。本案例的預(yù)處理中包括過濾掉原始數(shù)據(jù)集中的商品數(shù)量和單價(jià)這兩個(gè)屬性。同時(shí)為了保護(hù)顧客的隱私,過濾了用戶名屬性,并且用交易號來唯一表示顧客的每一次交易。處理后的數(shù)據(jù)集如表15-3所示。15.2.3數(shù)據(jù)準(zhǔn)備階段(1)交易號商品1商品15.2.3數(shù)據(jù)準(zhǔn)備階段(2)交易號女裝T恤短裙電腦配件男裝牛仔褲休閑男裝1TTFFT2TTFFF3TTFFF表15-4
布爾矩陣格式數(shù)據(jù)集交易號女裝T恤1女裝T恤1短裙1休閑男裝2女裝T恤2短裙3女裝T恤3短裙表15-5
事務(wù)處理格式數(shù)據(jù)集在Clementine軟件進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),必須把數(shù)據(jù)格式轉(zhuǎn)換成Clementine軟件能處理的格式。通常有兩種格式:一種是布爾矩陣形式,即每行表示一條交易記錄,列中的T/F值表示該商品是否有在相應(yīng)的交易記錄中出現(xiàn),T表示有出現(xiàn),F(xiàn)表示沒有出現(xiàn)(表15-4列出轉(zhuǎn)換后的前3條記錄信息);一種是事務(wù)處理格式,即每行對應(yīng)一個(gè)交易號和一個(gè)商品項(xiàng)(表15-5列出了前3個(gè)事務(wù)對應(yīng)的事務(wù)處理格式)15.2.3數(shù)據(jù)準(zhǔn)備階段(2)交易號女裝T恤短15.2.4建模階段Consequent規(guī)則后件Antecedent規(guī)則前件Support%支持度Confidence%置信度Lift提升度高跟鞋=T洗發(fā)水=T1.172.72715.474童裝=T玩具=T文具=T1.573.33312.865家具=T地毯=T2.050.011.364玩具=T童裝=T文具=T2.250.010.638童裝=T玩具=T4.759.57410.452女裝T恤=T短裙=T高跟鞋=T1.250.010.417表15-6Apriori算法運(yùn)行結(jié)果利用Clementine中的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則分析,設(shè)定最小支持度1%,最小置信度50%,輸入為布爾矩陣格式的交易數(shù)據(jù)(如表15-4),輸出商品的關(guān)聯(lián)規(guī)則及相應(yīng)的支持度、置信度和提升度信息(如表15-6)。表中顯示“高跟鞋”和“洗發(fā)水”、“童裝”和“玩具”、“文具”經(jīng)常被一起購買。15.2.4建模階段ConsequentAntecede15.3案例2:
協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用15.3.1商業(yè)理解15.3.2數(shù)據(jù)理解與準(zhǔn)備15.3.3建模階段15.3.4模型評估與部署15.3案例2:協(xié)同過濾技術(shù)在電影推薦上的簡單應(yīng)用15.15.3.1商業(yè)理解在本案例中,關(guān)聯(lián)規(guī)則分析主要是從大量的電影評論記錄中提取出穩(wěn)定的電影間的關(guān)聯(lián)規(guī)則,它表示對應(yīng)的電影經(jīng)常被同時(shí)評價(jià),這個(gè)組合通常是穩(wěn)定的,一般可用于捆綁推薦等靜態(tài)推薦。而協(xié)同過濾則是結(jié)合當(dāng)前用戶及其他用戶的交易或打分記錄進(jìn)行推薦。例如,對于指定用戶的電影評分記錄,可找到與其評分相似的其他用戶,并根據(jù)這些用戶對其他電影的評分來預(yù)測該用戶的評分,以此對該用戶進(jìn)行推薦評分較高的電影。而電影推薦網(wǎng)站積累的電影記錄數(shù)據(jù)量巨大,不同用戶的評分也時(shí)刻更新變化,因此電影推薦網(wǎng)站適合采用協(xié)同過濾技術(shù)來進(jìn)行此類更新頻率較快的動態(tài)推薦,以滿足用戶對獲取最新電影推薦的需求。15.3.1商業(yè)理解在本案例中,關(guān)聯(lián)規(guī)則分析主要是從大量的15.3.2數(shù)據(jù)理解與準(zhǔn)備UserIDItemIDRatingTimestamp1962423881250949186302389171774222118788871162443288060692316651886397596表15-8MovieLens的u.data表部分?jǐn)?shù)據(jù)本案例使用GroupLensResearch的經(jīng)典數(shù)據(jù)集MovieLens,該數(shù)據(jù)集包含3個(gè)重要的數(shù)據(jù)表,分別是u.data、u.item和u.user,其中u.data記錄了943個(gè)用戶對1682部電影的100000個(gè)評分,u.item記錄了1682部電影的信息,u.user描述了943個(gè)用戶的相關(guān)信息。我們主要用到u.data表的UserID、ItemID和Rating屬性,表15-7給出了u.data部分?jǐn)?shù)據(jù)示例。15.3.2數(shù)據(jù)理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030歐洲智能機(jī)器人操作系統(tǒng)市場競爭態(tài)勢發(fā)展現(xiàn)狀投資評估規(guī)劃分析報(bào)告
- 2025-2030歐洲智能建筑控制系統(tǒng)行業(yè)市場現(xiàn)狀分析發(fā)展趨勢研究報(bào)告
- 2025-2030歐洲教育文化行業(yè)市場現(xiàn)詳細(xì)調(diào)研與商業(yè)前景發(fā)展趨勢分析
- 2026安徽淮南市壽縣楚通公共交通有限公司就業(yè)見習(xí)招聘2人備考題庫有完整答案詳解
- 2026江西職業(yè)技術(shù)大學(xué)高層次人才招聘74人備考題庫(4)及一套參考答案詳解
- 2026河南中原資源循環(huán)科技(河南)有限公司招聘17名備考題庫及1套完整答案詳解
- 2026中國電子科技集團(tuán)公司第三十三研究所招聘備考題庫及完整答案詳解1套
- 2025年陜西省動物研究所招聘備考題庫及1套參考答案詳解
- 2025廣西柳州市林業(yè)科學(xué)研究所招聘編外聘用人員1人備考題庫完整參考答案詳解
- 2026年1月云南麗江市消防救援支隊(duì)招錄政府專職消防員4人備考題庫及答案詳解參考
- 【語文】湖南省長沙市實(shí)驗(yàn)小學(xué)小學(xué)四年級上冊期末試卷(含答案)
- 阿米巴經(jīng)營模式-人人都是經(jīng)營者推行授課講義課件
- 小兒鞘膜積液
- 畢業(yè)設(shè)計(jì)粘土心墻土石壩設(shè)計(jì)含計(jì)算書cad圖
- 黑龍江省控制性詳細(xì)規(guī)劃編制規(guī)范
- 6工程竣工驗(yàn)收交付證明書
- 《俠客風(fēng)云傳前傳》支線流程攻略1.0.2.4
- GB/T 38937-2020鋼筋混凝土用鋼術(shù)語
- GB/T 12325-2008電能質(zhì)量供電電壓偏差
- 《抖音短視頻營銷存在的問題及對策10000字》
- 讀后續(xù)寫練習(xí)指導(dǎo) 講義(附試題分析及范文3篇)-2023高考英語二輪復(fù)習(xí)寫作備考
評論
0/150
提交評論