版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
大數(shù)據(jù)數(shù)據(jù)挖掘案例
【篇一:大數(shù)據(jù)數(shù)據(jù)挖掘案例】
本文為系列文,該篇為第一篇。下面是正文:
簡而言之,數(shù)據(jù)挖掘(datamining)是有組織有目的地搜集數(shù)據(jù),
通過度析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形
成規(guī)則或知識的技術。在本文中,我們從數(shù)據(jù)挖掘的實例出發(fā),并
以數(shù)據(jù)挖掘中比較經(jīng)典的分類算法入手,給讀者簡介我們怎樣運用
數(shù)據(jù)挖掘的技術處理現(xiàn)實中出現(xiàn)的問題。
數(shù)據(jù)挖掘是怎樣處理問題時?
本節(jié)通過幾種數(shù)據(jù)挖掘實際案例來詮釋怎樣通過數(shù)據(jù)挖掘處理商業(yè)
中碰到的問題。下面有關“啤酒和尿不濕”的故事是數(shù)據(jù)挖掘中最經(jīng)
典的案例。而target企業(yè)通過“懷孕預測指數(shù)”來預測女顧客與否懷
孕的案例也是近來為數(shù)據(jù)挖掘學者最津津樂道的一種話題。
尿不濕和啤酒諸多人會問,究竟數(shù)據(jù)挖掘可認為企業(yè)做些什么?下
面我們通過一種在數(shù)據(jù)挖掘中最經(jīng)典的案例來解釋這個問題———
種有關尿不濕與啤酒的故事。超級商業(yè)零售連鎖巨無霸沃爾瑪企業(yè)
(walmart)擁有世上最大的數(shù)據(jù)倉庫系統(tǒng)之一。為了可以精確了
解顧客在其門店的購置習慣,沃爾瑪對其顧客的購物行為進行了購
物籃關聯(lián)規(guī)則分析,從而懂得顧客常常一起購置的商品有哪些。在
沃爾瑪龐大的數(shù)據(jù)倉庫里集合了其所有門店的詳細原始交易數(shù)據(jù),
在這些原始交易數(shù)據(jù)的基礎上,沃爾瑪運用數(shù)據(jù)挖掘工具對這些數(shù)
據(jù)進行分析和挖掘。一種令人驚奇和意外的成果出現(xiàn)了:“跟尿不濕
一起購置最多的商品竟是啤酒”!這是數(shù)據(jù)挖掘技術對歷史數(shù)據(jù)進行
分析的成果,反應的是數(shù)據(jù)的內(nèi)在規(guī)律。那么這個成果符合現(xiàn)實狀
況嗎?與否是一種有用的知識?與否有運用價值?
為了驗證這一成果,沃爾瑪派出市場調(diào)查人員和分析師對這一成果
進行調(diào)查分析。通過大量實際調(diào)查和分析,他們揭示了一種隱藏在
“尿不濕與啤酒”背后的美國消費者的一種行為模式:
在美國,到超市去買嬰兒尿不濕是某些年輕的父親下班后的I平常工
作,而他們中有30%?40%的人同步也會為自己買某些啤酒。產(chǎn)生
這一現(xiàn)象的原因是:美國的太太們常叮囑她們的丈夫不要忘了下班
后為小孩買尿不濕,而丈夫們在買尿不濕后又隨手帶回了他們喜歡
的啤酒。另一種狀況是丈夫們在買啤酒時忽然記起他們的責任,又
去買了尿不濕。既然尿不濕與啤酒一起被購置的機會諸多,那么沃
爾瑪就在他們所有的門店里將尿不濕與啤酒并排擺放在一起,成果
是得到了尿不濕與啤酒的銷售量雙雙增長。按常規(guī)思維,尿不濕與
啤酒風馬牛不相及,若不是借助數(shù)據(jù)挖掘技術對大量交易數(shù)據(jù)進行
挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)這一有價值的規(guī)律的。
target和懷孕預測指數(shù)有關數(shù)據(jù)挖掘時應用,近來還有這樣一種真
實案例在數(shù)據(jù)挖掘和營銷挖掘領域廣為流傳。
美國一名男子闖入他家附近的一家美國零售連鎖超市target店鋪
(美國第三大零售商塔吉特)進行抗議:“你們居然給我17歲的女
兒發(fā)嬰兒尿片和童車的優(yōu)惠券。”店鋪經(jīng)理立即向來者承認錯誤,不
過其實該經(jīng)理并不懂得這一行為是總企業(yè)運行數(shù)據(jù)挖掘的成果。如
在技術架構上,我們可以合理修改網(wǎng)站構造及適度分派資源,構建
后臺服務器群組,例如輔助改善網(wǎng)絡的拓撲設計,提高性能,在有
高度有關性的節(jié)點之間安排迅速有效的訪問途徑等。協(xié)助企業(yè)更好
地設計網(wǎng)站主頁和安排網(wǎng)頁內(nèi)容。協(xié)助企業(yè)改善市場營銷決策,如
把廣告放在合適時web頁面上。協(xié)助企業(yè)更好地根據(jù)客戶的愛好來
安排內(nèi)容。協(xié)助企業(yè)對客戶群進行細分,針對不一樣客戶制定個性
化的促銷方略等。人們在訪問某網(wǎng)站的同步,便提供了個人對網(wǎng)站
內(nèi)容的反饋信息:點擊了哪一種鏈接,在哪個網(wǎng)頁停留時間最多,
采用了哪個搜索項、總體瀏覽時間等。而所有這些信息都被保留在
網(wǎng)站日志中。從保留的信息來看,網(wǎng)站雖然擁有了大量的網(wǎng)站訪客
及其訪問內(nèi)容的信息,但擁有了這些信息卻不等于可以充分運用這
些信息。
那么假如將這些數(shù)據(jù)轉換到數(shù)據(jù)倉庫中呢?這些帶有大量信息的數(shù)
據(jù)借助數(shù)據(jù)倉庫匯報系統(tǒng)(一般稱作在線分析處理系統(tǒng)),雖然能
給出可直接觀測到附和相對簡樸直接的信息,卻也不能告訴網(wǎng)站其
信息模式及怎樣對其進行處理,而且它一般不能分析復雜信息。因
此對于這些相對復雜的信息或是不那么直觀的問題,我們就只能通
過數(shù)據(jù)挖掘技術來處理,即通過機器學習算法,找到數(shù)據(jù)庫中的隱
含模式,匯報成果或按照成果執(zhí)行。為了讓電子商務網(wǎng)站可以充分
應用數(shù)據(jù)挖掘技術,我們需要采集愈加全面的數(shù)據(jù),采集的數(shù)據(jù)越
全面,分析就能越精確。在實際操作中,有如下幾種方面的數(shù)據(jù)可
以被采集:
訪客的系統(tǒng)屬性特性。例如所采用的操作系統(tǒng)、瀏覽器、域名和訪
問速度等。訪問特性。包括停留時間、點擊的url等。條款特性。包
括網(wǎng)絡內(nèi)容信息類型、內(nèi)容分類和來訪url等。產(chǎn)品特性。包括所訪
問的產(chǎn)品編號、產(chǎn)品目錄、產(chǎn)品顏色、產(chǎn)品價格、產(chǎn)品利潤、產(chǎn)品
數(shù)量和特價等級等。當訪客訪問該網(wǎng)站時,以上有關此訪客的數(shù)據(jù)
信息便會逐漸被積累起來,那么我們就可以通過這些積累而成的數(shù)
據(jù)信息整頓出與這個訪客有關的信息以供網(wǎng)站使用??梢哉D成型
的信息大體可以分為如下幾種方面:
訪客時購置歷史以及廣告點擊歷史。訪客點擊的超鏈接的歷史信息。
訪客的總鏈接機會(提供應訪客的超級鏈接)。訪客總的訪問時間。
訪客所瀏覽的全部網(wǎng)頁。訪客每次會話的產(chǎn)出利潤。訪客每個月的
訪問次數(shù)及上一次的訪問時間等。訪客對于商標總體正面或負面的
評價。分類:從人臉識別系統(tǒng)說起美國電視劇《反恐24小時》中有
一集,當一種恐怖分子用手機撥打了一種電話,從ctu(反恐部隊)
的計算機系統(tǒng)中便立即發(fā)出恐怖分子出現(xiàn)的預警。諸多好萊塢的大
片中此類智能系統(tǒng)的應用也比比皆是,它能從茫茫人群中實時找出
正在苦苦追蹤的恐怖分子或間諜。而在北京奧運會上,最引人注意
的it熱點莫過于“實時人臉識別技術”在奧運會安檢系統(tǒng)中的應用,
這種技術通過對人臉關鍵部位的數(shù)據(jù)采集,讓系統(tǒng)可以精確地識別
出所有進出奧運場館的觀眾身份。
目前人臉識別技術正廣泛的應用于多種安檢系統(tǒng)中,警方只需將犯
罪分子的臉部數(shù)據(jù)采集到安檢數(shù)據(jù)庫,那么只要犯罪分子一出現(xiàn),
系統(tǒng)就能精確地將其識別出來?,F(xiàn)如今人臉識別技術已經(jīng)相對成熟,
google在picasa照片分享軟件的工具中就已經(jīng)加入了人臉識別功
能。當然,人臉識別技術牽涉到隱私,是把雙刃劍,google在
google街景地圖中故意將人臉模糊化,變得無法識別就是這個原因。
如圖所示為人臉識別示意圖。
人臉識別示意圖
雖然需要借力于其他技術,不過人臉識別中的重要技術還是來自于
數(shù)據(jù)挖掘中的分類算法(classification)o讓我們從一種最簡樸的
事實來解釋分類的思想。設想一下,一天中午,你第一次到三里屯,
站在幾家此前從未去過的餐廳門前,目前的問題是該選擇哪家餐廳
用餐。應該怎樣選擇呢?假設您沒有帶手機,無法上網(wǎng)查詢,那么
可能會出現(xiàn)如下兩種狀況:
一種,你記起某位朋友去過其中一家,并且仿佛他對這家的評價還
不錯,這時,你很有可能就直接去這家了。
第二種,沒有類似朋友推薦此類先驗知識,你就只能從自己以往的
用餐經(jīng)歷中來選擇了,例如你可能會比較餐廳的品牌和用餐環(huán)境,
因為似乎此前的經(jīng)歷告訴自己,品牌響、用餐環(huán)境好的餐廳可能味
道也會好。不管與否意識得到,在最終決定去哪家吃的時候,我們
已經(jīng)根據(jù)自己的判斷原則把候選時這幾家餐廳分類了,可能提成好、
中、差三類或者值得去、不值得去兩類。而最終去了自己選擇的那
家餐廳,吃完過后我們自然也會根據(jù)自己的真實體驗來鑒定我們的
判斷準則與否對的,同步根據(jù)這次的體驗來修正或改善自己的判斷
準則,決定下次與否還會來這家餐廳或者與否把它推薦給朋友。
選擇餐廳的過程其實就是一種分類的過程,此類分類例子是屢見不
鮮時。在古時,司天監(jiān)會依賴長時間積累的信息,通過觀測天象對
與否會有天災做出分類預測。古人則通過對四季氣候雨水的常年觀
測,總結出農(nóng)作物最佳播種時間。在伯樂的《相馬經(jīng)》中,就通過
簡樸分類辨別出羸馬的三條原則:“大頭小頸,弱脊大腹,小頸大
蹄”。
其實在數(shù)據(jù)挖掘領域,有大量基于海量數(shù)據(jù)的分類問題。一般,我
們先把數(shù)據(jù)提成訓練集(trainingset)和測試集(testingset),
通過對歷史訓練集的訓練,生成一種或多種分類器(classifier),
將這些分類器應用到測試集中,就可以對分類器的性能和精確性做
出評判。假如效果不佳,那么我們或者重新選擇訓練集,或者調(diào)整
訓練模式,直到分類器的性能和精確性到達規(guī)定為止。最終將選出
的分類器應用到未經(jīng)分類的新數(shù)據(jù)中,就可以對新數(shù)據(jù)的類別做出
預測了。
節(jié)選譚磊所著的自《大數(shù)據(jù)挖掘》一書。未完待續(xù)……
end.
標簽:除非尤其注明,本站所有文章均不代表本站觀點。報道中出
現(xiàn)的商標屬于其合法持有人。請遵守理性,寬容,換位思索的原則。
猜你喜歡-02-17-02-11-02-06-01-21-01-19-12-23-12-15-11-25-11-02-10-26
【篇二:大數(shù)據(jù)數(shù)據(jù)挖掘案例】
馬云說:互聯(lián)網(wǎng)還沒弄清晰的時候,移動互聯(lián)就來了,移動互聯(lián)還
沒弄清晰的時候,大數(shù)據(jù)就來了。近兩年,“大數(shù)據(jù)”這個詞越來越
為大眾所熟悉,“大數(shù)據(jù)”一直是以高冷的形象出目前大眾面前,面
對大數(shù)據(jù),相信許多人都一頭霧水。下面我們通過十個經(jīng)典案例,
讓大家實打實觸摸一把“大數(shù)據(jù)”O(jiān)你會發(fā)現(xiàn)它其實就在身邊而且也
是很有趣的。
啤酒與尿布全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),
男性顧客在購置嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,
于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉
措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的
數(shù)據(jù)分析成果早已成了大數(shù)據(jù)技術應用的經(jīng)典案例,被人津津樂道。
數(shù)據(jù)新聞讓英國撤軍10月23日《衛(wèi)報》運用維基解密的數(shù)據(jù)做了
一篇“數(shù)據(jù)新聞,將伊拉克戰(zhàn)爭中所有的人員傷亡狀況均標注于地
圖之上。地圖上一種紅點便代表一次死傷事件,鼠標點擊紅點后彈
出的窗口則有詳細的闡明:傷亡人數(shù)、時間,導致傷亡的詳細原因。
密布的紅點多達39萬,顯得格外觸目驚心。一經(jīng)刊出立即引起朝野
震動,推動英國最終做出撤出駐伊拉克軍隊的決定。
意料之外:胸部最大的是新疆妹子淘寶數(shù)據(jù)平臺顯示,購置最多的
文胸尺碼為b罩杯。b罩杯占比達41.45%,其中又以75b的銷量最
佳。其次是a罩杯,購置占比達25.26%,c罩杯只有8.96%。在文
胸顏色中,黑色最為暢銷。以省市排名,胸部最大的是新疆妹子。
qq圈子把前女友推薦給未婚妻3月騰訊推出qq圈子,按共同好友
的連鎖反應攤開顧客的人際關系網(wǎng),把顧客的前女友推薦給未婚妻,
把同學同事朋友圈子分門別類,運用大數(shù)據(jù)處理能力給人帶來“震
撼”。
“魔鏡”預知石油市場走向假如你對“魔鏡”還停留在“魔鏡魔鏡,告訴
我誰是世界上最美的女人",那你就真的。ut了?!澳хR”不僅僅是童
話中王后的寶貝,而且是真實世界中的一款神器。其實,“魔鏡”是
蘇州國云數(shù)據(jù)科技企業(yè)的一款牛逼的大數(shù)據(jù)可視化產(chǎn)品,而且是國
內(nèi)首款喔。
在目前,“魔鏡”可以通過數(shù)據(jù)的整合分析可視化不僅可以得出誰是
世界上最美的女人,還能通過價量關系得出市場的走向。在不久前,
“魔鏡”協(xié)助中石等企業(yè)分析數(shù)據(jù),將數(shù)據(jù)可視化,使企業(yè)科學的判
斷、決策,節(jié)省成本,合理配置資源,提高了收益。
google成功預測冬季流感,google通過度析5000萬條美國人最頻
繁檢索的詞匯,將之和美國疾病中心在到間季節(jié)性流感傳播時期的
數(shù)據(jù)進行比較,并建立一種特定的數(shù)學模型。最終google成功預測
了冬季流感的傳播甚至可以詳細到特定的地區(qū)和州。
大數(shù)據(jù)與喬布斯癌癥治療喬布斯是世界上第一種對自身所有dna和
腫瘤dna進行排序的人。為此,他支付了高達幾十萬美元的費用。
他得到的不是樣本,而是包括整個基因的數(shù)據(jù)文檔。醫(yī)生按照所有
基因按需下藥,最終這種方式協(xié)助喬布斯延長了好幾年的生命。
奧巴馬大選連任成功11月奧巴馬大選連任成功的勝利果實也被歸功
于大數(shù)據(jù),因為他的競選團隊進行了大規(guī)模與深入的數(shù)據(jù)挖掘。時
代雜志更是斷言,依托直覺與經(jīng)驗進行決策的優(yōu)勢急劇下降,在政
治領域,大數(shù)據(jù)的時代己經(jīng)到來;各色媒體、論壇、專家鋪天蓋地
的宣傳讓人們對大數(shù)據(jù)時代時來臨興奮不已,無數(shù)企業(yè)和創(chuàng)業(yè)者都
紛紛跳進了這個狂歡隊伍。
微軟大數(shù)據(jù)成功預測奧斯卡21項大獎,微軟紐約研究院的經(jīng)濟學家
大衛(wèi)??羅斯柴爾德(davidrothschild)運用大數(shù)據(jù)成功預測24個
奧斯卡獎項中的19個,成為人們津津樂道的話題。今年羅斯柴爾德
再接再厲,成功預測第86屆奧斯卡金像獎頒獎典禮24個獎項中的
21個,繼續(xù)向人們展示現(xiàn)代科技的神奇魔力。
超市預知高中生顧客懷孕明尼蘇達州一家塔吉特門店被客戶投訴,
一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一種
高中生。但沒多久他卻來電道歉,因為女兒經(jīng)他逼問后坦承自己真
的懷孕了。塔吉特百貨就是靠著分析顧客所有的購物數(shù)據(jù),然后通
過有關關系分析得出事情的真實狀況。
精選自:速途網(wǎng),原文地址:/content/523734.shtml
本文tags:數(shù)據(jù)挖掘數(shù)據(jù)分析那些事數(shù)據(jù)分析
【篇三:大數(shù)據(jù)數(shù)據(jù)挖掘案例】
摘要:如下內(nèi)容整頓自6月4日由數(shù)據(jù)分析網(wǎng)舉行的《大嘴巴漫談
數(shù)據(jù)挖掘經(jīng)典案例賞析》分享活動中,易向軍老師的發(fā)言內(nèi)容。
數(shù)據(jù)分析網(wǎng)的朋友們,大家晚上好,苜先很感謝數(shù)據(jù)分析網(wǎng)叢J支持,
提供這樣一種平臺,可以和大家一起分享、交流。作為《大嘴巴漫
談數(shù)據(jù)挖掘(第2季)》的新書公布會,今天重要給大家?guī)?個數(shù)據(jù)
挖掘的經(jīng)典案例。
一、產(chǎn)品精細化運行之道
運行的關鍵在于持續(xù)性改善,運行分析需要保證數(shù)據(jù)的精確與一致
性;可以容忍一定程度上精確性的偏差。那么,精確和精確有什么區(qū)
別呢?
精確是指現(xiàn)象或者測量值相對事實之間的離散程度小,也就是我們
口語的靠近事實、符合事實等;精確是指在條件不變的狀況下,現(xiàn)象
或者測量值可以低離散程度的反復再現(xiàn),也就是我們口語說的次次
如此、回回一樣等。
下面的crisp-dm代表了數(shù)據(jù)挖掘的原則過程。
在這個原則過程中最重要的是哪一種環(huán)節(jié)呢?(討論ing)
(?mountain所有的業(yè)務都是圍繞需求來的
@數(shù)據(jù)哥需求分析,想清晰怎么干,否則南轅北轍
@fs只有懂得客戶需求,才能滿足客戶的需要
因此最重要的是商業(yè)理解。
購物籃模型,用一句話來說,就是在合適的時間、合適的地點,通
過合適的方式,向合適的人群推薦合適的產(chǎn)品。那么當我們確定了
購物籃分析模型的第一目標后,即我們的第一步商業(yè)理解結束之后,
第二步便是數(shù)據(jù)理解。這一步需要將我們的業(yè)務模型映射到數(shù)據(jù)模
型,或者換句話說,我們需要什么樣的數(shù)據(jù)來支撐我們的分析目標?
我們需要什么樣的數(shù)據(jù)一定要基于我們的分析目標,那么我們來分
析下我們的目標。
第一種目標是研究我們的商品,找到商品與商品之間的某種聯(lián)絡。
研究商品需要什么樣的數(shù)據(jù)呢?消費購物單,就是我們需要超市機構
反饋給我們的票單據(jù)(小單子),這是我們商品的購置數(shù)據(jù)。除了商品
的購置數(shù)據(jù),還需要什么數(shù)據(jù)?我們除了要研究商品,還要研究消費
者。研究消費者需要消費者個人屬性數(shù)據(jù)。(在實際的工作中,根據(jù)
實際需要,不限于這里列出的數(shù)據(jù)。)
接下來是第三步是數(shù)據(jù)準備。在這個過程中需要理解數(shù)據(jù),會用到
清理、集成、變換、歸約的措施,因為原始數(shù)據(jù)來自于我們的多種
業(yè)務平臺。
清理:補充缺失值、平滑噪聲數(shù)據(jù)、識別或刪除離群點并處理數(shù)據(jù)
不一致性
集成:將多種數(shù)據(jù)源中的數(shù)據(jù)整合起來并同意存儲
變換:將數(shù)據(jù)轉換為合用于挖掘的形式,例如屬性規(guī)范化
歸約:通過壓縮、匯集、離散化等措施減少數(shù)據(jù)存儲空間,并保持
模型成果與歸約前幾乎相似
數(shù)據(jù)準備之后,是數(shù)據(jù)建模,也就是通過數(shù)學的措施來處理業(yè)務問
題。那么怎樣把業(yè)務問題轉化成數(shù)據(jù)措施呢?
我們的分析目標是找到商品之間的某種聯(lián)絡,這里要用到什么數(shù)學
措施(業(yè)務語言),這句話轉化為數(shù)學角度來理解,就是找到商品之間
某種聯(lián)絡的一種可能性(數(shù)據(jù)語言)??赡苄詥栴}就是概率,概率就是
用來量化可能性的問題。
例如:在購置a商品的條件下購置b商品的概率是條件概率,a、b
兩個商品一起購置的概率是聯(lián)合概率。
我們最終發(fā)現(xiàn)商品之間存在某種聯(lián)絡,就是幾種可能性,而這幾種
可能性就是概率。
一種是聯(lián)合概率,有購置a商品和購置b商品的概率,這個聯(lián)合概
率我們給它定義一種關聯(lián)規(guī)則算法,叫做支持度。
一種是條件概率,在購置a商品的條件下,又購置了b商品的概率,
這個條件概率,我們稱之為置信度。支持度越高,置信度越高,那
么a、b商品之前的有關性就越強。
在咱們這個概率中或者在數(shù)學中,研究有關性還有那些指標?大家要
把置信度理解為一種條件概率,嚴格來說跟置信區(qū)間沒什么太大關
系。研究有關性還有一種有關系數(shù),有關系數(shù)的范圍是到1,絕對
值越靠近于1,闡明有關性越強;絕對值越靠近于0,闡明有關性越弱。
Q1)之間為正有關,(?1,0)之間為負有關。
正有關和負有關是數(shù)學名詞,負有關在業(yè)務上怎么理解呢?負有關闡
明a、b這兩個商品是互相排斥的,買了a就不會再買b,可以替代。
假設a、b這兩個商品是互相排斥的,給出兩個概率,一種概率是在
購置了a商品的前提下購置b商品的概率,一種是沒有任何前提條
件下直接購置b商品的概率。這兩個概率誰大誰小?直接購置的概率
大,因為a、b排斥,購置了a會影響購置b,極端狀況下,購置了
a就不再購置b。支持度和置信度,只能衡量兩個商品的正有關,無
法衡量負有關。為此我們引入第三個指標,提高度。假如提高度不
不小于1,闡明這個兩個商品是互相排斥的;假如提高度不小于1,闡
明這個兩個商品是互相增進的。提高度等于1,闡明a、b相互獨立,
不存在任何關系。
通過以上的分析,最終通過關聯(lián)規(guī)則算法,我們但愿支持度和置信
度大某些,這里一般會定義一種最小值,這個最小值需要通過業(yè)務
經(jīng)驗來確定。
通過關聯(lián)規(guī)則找到了2類強關聯(lián)的商品組合之后,接下來需要做什
么?看我們的分析目標,我們第一種分析目標就是研究商品,找到商
品之間的關聯(lián)組合。第二個分析目標,研究消費者。什么樣的消費
者會購置此類商品組合,這是我們接下來要完成的任務。研究消費
者,我們用決策樹模型。
樹重要有3部分構成:根,分支,葉子。其中根是最重要的。什么
是決策呢?簡樸來說,就是做決定,是一種選擇,從若干個方案中找
到最優(yōu)的方案。決策首先會有一種決策目標,或者叫決策結論。決
策結論不是拍腦袋的,一定要有一種決策根據(jù),通過決策根據(jù)做判
斷。決策由決策根據(jù)和決策結論構成。決策結論就是樹的葉子,決
策根據(jù)是樹的根,這樣決策就和樹建立聯(lián)絡了。
哪些消費者會購置強關聯(lián)的商品組合?對老板來說,這就是一種決策
問題。在這個決策問題中,決策根據(jù)就是人的特性。老板要根據(jù)顧
客的基本屬性來判斷。決策是一種判斷題:買還是不買。
決策流程包括決策根據(jù)和決策結論。從根到葉子的途徑都是一種決
策流程。一種決策樹上有若干個決策途徑,我們就是要從若干個決
策途徑中找到最優(yōu)的途徑。我們根據(jù)什么來判斷這個途徑的好壞?概
率大小,看哪一種途徑在樣本中出現(xiàn)的次數(shù)最多,就認為是最優(yōu)的。
出現(xiàn)次數(shù)最多是一種概率問題,頻率和概率有什么關系?頻率是概率
的試驗值,概率是頻率的理論值。
有同學說頭大了,其實,我們學習數(shù)據(jù)挖掘,最終研究的業(yè)務問題
以及模型構建,就是數(shù)學上的記錄問題,因此記錄學一定要學好,
否則學習模型會比較吃力。也就是說數(shù)據(jù)挖掘也是有一定門檻的,
對數(shù)學是有規(guī)定的。
我們通過決策樹模型最終得到兩類人群。可以清晰地定位哪些消費
者會購置我們的商品組合,而不是漫無目的的推薦。
以上內(nèi)容是第一種案例??赡芙裉觳荒馨?個案例都講完,不過我
想的是不用圖快,把某些知識點給大家講清晰,講透徹。下面我們
來看顧客體驗中的數(shù)據(jù)挖掘案例。
二、顧客體驗中的數(shù)據(jù)挖掘
顧客體驗怎樣跟數(shù)據(jù)挖掘結合起來呢?什么是顧客體驗?顧客是使用
產(chǎn)品的人,體驗是感受,是主觀的,而我們進行數(shù)據(jù)分析或者數(shù)據(jù)
挖掘是基于客觀的對象。第一步就需要量化,把主觀的體驗量化成
客觀的數(shù)據(jù)。怎樣量化顧客體驗呢?例如形容一種食品尤其好吃,食
品的體驗尤其好??梢杂蒙阄毒闳珌硇稳?,這就是量化的東西。
色,指顏色,好看,通過視覺來測量。香,通過嗅覺來測量。味,
通過味覺,嘗一嘗來測量。形容一種食品尤其好吃,是很主觀時,
不過可以通過色香味這3個可以測量的方面來形容。
我們再舉一種詳細的產(chǎn)品,例如一種網(wǎng)站,就是一種產(chǎn)品,我們怎
么來形容和描述某一種網(wǎng)站的顧客體驗好。登錄或者打開一種網(wǎng)站,
最直接的體驗就是界面好看。例如,我們拿數(shù)據(jù)分析網(wǎng)來說,打開
數(shù)據(jù)分析網(wǎng)覺得界面很美觀,視覺效果好。除了界面,我們還要看
內(nèi)容,更新與否及時,與否有價值;還有打開速度。對于一種購物網(wǎng)
站,最重要的體驗是什么?安全性??偨Y下,界面、內(nèi)容、性能、效
率、安全等是衡量一種網(wǎng)站發(fā)展的體驗方面。
通過食品和網(wǎng)站這兩個例子,假如讓你來量化某一種產(chǎn)品的顧客體
驗,你首先應該怎么辦?顧客體驗是一種主觀的東西,主觀的東西不
能被直接測量,因此需要定指標。
定指標,分解到指標。為何強調(diào)分解這個詞呢。因為顧客體驗自身
是個很主觀的東西,不能被直接測
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物標志物指導下的臨床試驗個體化方案
- 生物標志物在藥物臨床試驗中的臨床試驗策略
- 生物材料動態(tài)性能優(yōu)化策略
- 生物化學綜合設計虛擬實驗案例庫建設
- 生物制品穩(wěn)定性試驗數(shù)字化管理規(guī)范
- 生物制劑失應答的炎癥性腸病治療新靶點探索
- 深度解析(2026)《GBT 20314-2017液晶顯示器用薄浮法玻璃》
- 數(shù)據(jù)安全師面試題含答案
- 深度解析(2026)《GBT 19558-2004集成電路(IC)卡公用付費電話系統(tǒng)總技術要求》
- 深度解析(2026)《GBT 19403.1-2003半導體器件 集成電路 第11部分第1篇半導體集成電路 內(nèi)部目檢 (不包括混合電路)》
- 《國家賠償法》期末終結性考試(占總成績50%)-國開(ZJ)-參考資料
- 油煙清洗報告【范本模板】
- T-CPIA 0054-2023 光伏發(fā)電系統(tǒng)用柔性鋁合金電纜
- JC-T 424-2005 耐酸耐溫磚行業(yè)標準
- 懷念戰(zhàn)友混聲四部合唱簡譜
- 實驗針灸學-實驗針灸學研究程序與方法
- 倉庫工作人員職責培訓課件
- 新教科版四上科學2.2《呼吸與健康生活》優(yōu)質(zhì)課件
- 綠盾加密軟件技術白皮書
- GB/T 7600-2014運行中變壓器油和汽輪機油水分含量測定法(庫侖法)
- 比較文學概論馬工程課件 第5章
評論
0/150
提交評論