數(shù)據挖掘實驗報告.docx_第1頁
數(shù)據挖掘實驗報告.docx_第2頁
數(shù)據挖掘實驗報告.docx_第3頁
數(shù)據挖掘實驗報告.docx_第4頁
數(shù)據挖掘實驗報告.docx_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

市場購物籃分析經濟管理學院 企業(yè)管理專業(yè) 1306122427 楊歡歡一、 實驗背景隨著社會進入信息化時代,現(xiàn)代化的企業(yè)搜集了大量數(shù)據或高維數(shù)據,包括市場、客戶、供貨商、競爭對手以及未來趨勢等重要信息,但是信息超載與無結構化,使得企業(yè)決策部門無法有效利用現(xiàn)存的信息,甚至使決策行為產生混亂與誤用。通過數(shù)據挖掘技術,可以從大量的數(shù)據中,挖掘出不同的信息與知識來支持決策,必能產生企業(yè)的競爭優(yōu)勢。數(shù)據挖掘和知識發(fā)現(xiàn)是一個涉及多學科的研究領域。數(shù)據庫技術、人工智能、機器學習、統(tǒng)計學、粗糙集、模糊集、神經網絡、模式識別、知識庫系統(tǒng)、高性能計算、數(shù)據可視化等均與數(shù)據挖掘相關。近年來,與數(shù)據庫的知識發(fā)現(xiàn)研究領域已經成為熱點,其中關聯(lián)規(guī)則數(shù)據挖掘算法是數(shù)據挖掘中的一個很重要的課題,它是從背后發(fā)現(xiàn)數(shù)據中的關聯(lián)或聯(lián)系。本實驗主要處理描述超級市場購物籃內容(所購買的全部商品的集合)的虛構數(shù)據,以及購買者的相關個人數(shù)據。目的是尋找購買相似產品并且購買相似產品的客戶群特征。二、 實驗目的1、 掌握數(shù)據挖掘的基礎知識,能夠深刻理解并熟練運用GRI和C5.0規(guī)則,能夠熟練運用SPSS Clementine11.1軟件進行數(shù)據分析。2、 利用GRI和C5.0規(guī)則對商場客戶交易數(shù)據進行分析,從中發(fā)現(xiàn)客戶購買的商品之間的關聯(lián)關系,并進一步歸納出購買相似商品的顧客群的特征 。3、 理解并操作實驗中數(shù)據挖掘的兩個部分,一是關聯(lián)規(guī)則建模和一個顯示所購買商品關聯(lián)關系的網絡圖;二是C5.0 規(guī)則歸納,顯示購買建立的產品組合的顧客群具有的特征。三、 操作環(huán)境1、系統(tǒng)環(huán)境:Windows XP2、軟件環(huán)境:SPSS Clementine11.13、軟件簡介:作為一個數(shù)據挖掘平臺, Clementine結合商業(yè)技術可以快速建立預測性模型,進而應用到商業(yè)活動中,幫助人們改進決策過程。強大的數(shù)據挖掘功能和顯著的投資回報率使得Clementine在業(yè)界久負盛譽。同那些僅僅著重于模型的外在表現(xiàn)而忽略了數(shù)據挖掘在整個業(yè)務流程中的應用價值的其它數(shù)據挖掘工具相比, Clementine其功能強大的數(shù)據挖掘算法,使數(shù)據挖掘貫穿業(yè)務流程的始終,在縮短投資回報周期的同時極大提高了投資回報率。四、實驗數(shù)據本實驗所使用的數(shù)據是SPSS Clementine11.1自帶的數(shù)據,名為BSAKETS1n,該數(shù)據包含18個字段,1000條記錄。1、購物籃摘要:cardid(購買此籃商品的客戶的忠誠卡標識符)、Value(購物籃的總購買價格)、pmethod(購物籃的支付方法);2、卡持有者的個人詳細信息: Sex、homeown(卡持有者是否擁有住房)、收入、age ;3、購物籃內容產品類別的出現(xiàn)標志:fruitveg, freshmeat, dairy, cannedveg, cannedmeat, frozenmeal, beer, wine, softdrink, fish, confectionery。五、實驗步驟1、新建工作流,附加數(shù)據1.1、該模型的數(shù)據存儲為BSAKETS1n,首先在選擇面板選擇可變文件節(jié)點作為數(shù)據讀入節(jié)點,雙擊該結點進行編輯,加入數(shù)據存儲文件。結果如圖1。 圖12、使用一般規(guī)則歸納 (GRI) 大致了解購物籃內容的關系(關聯(lián))以生成關聯(lián)規(guī)則2.1、選擇要在此建模過程中使用的字段,方法是:編輯“類型”節(jié)點,將所有產品類別的方向設置為雙向,其他方向設置為無,如圖2。其中,雙向表示該字段可以是結果模型的輸入或輸出。然后,連接一個“表”節(jié)點,執(zhí)行查看需要字段的數(shù)據,如圖3。圖2圖32.2、在選擇面板中的建模目錄中選擇GRI節(jié)點連接到到數(shù)據流中,然后對該節(jié)點進行編輯,選擇選項只顯示值為真的標志變量,然后執(zhí)行 GRI 節(jié)點。在管理器的模型欄中顯示產生未精煉模型 ,這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關聯(lián);酒和糖果也具有關聯(lián)。如圖4與圖5。這些規(guī)則顯示凍肉、罐裝蔬菜和啤酒之間存在多種關聯(lián);酒和糖果也具有關聯(lián)。圖4圖5結果分析:圖四結果顯示了購買各種商品之間的關聯(lián)關系。這個表的每一行表明了購買某種商品的時候還有可能購買哪些商品,它是用關聯(lián)分析中的支持度和置信度來分析的。支持度越大,說明同時被購買的可能性越大。我們以第一行結果為例分析,支持度為3.0%,置信度為96.67,顧客在購買cannedveg時有可能會同時購freshmeat,frozenmeal,beer這三種商品,對于其它行同樣用此方法分析。2.3、在“圖形”中選擇“網絡”節(jié)點拖入到工作框,然后與 “類型”節(jié)點連接。編輯“網絡”節(jié)點,選擇購物籃所有產品字段,選擇僅顯示 真值,如圖6。圖62.4執(zhí)行網絡節(jié)點,得到如圖7所示的網絡圖。然后指定弱連接和強連接,單擊工具欄上的黃色雙箭頭按鈕。這會展開顯示 Web 輸出摘要和控件的對話框。選擇大小表示強/正常/弱。將弱鏈接設置為低于90,將強接連設置為101。結果如圖8示。圖7圖8在圖中有三個客戶群突出顯示:購買魚和果蔬,我們將該組合定義為“健康”,購買酒和糧果,該組合定義為“小資”,購買啤酒、凍肉和罐裝蔬菜,該組合定義為“火鍋”。3、C5.0規(guī)則歸納3.1、選中網絡圖中連接魚和果蔬的連線,導出“與”節(jié)點,字段命名“健康”。如圖9和圖10。在真值和假值欄分別填寫新字段的兩種數(shù)據值,其中真值表示當條件滿足時該字段的值,假值表示當條件不滿足時該字段的值。圖9圖103.2、設置字段的輸入與輸出。在健康節(jié)點后連接一個類型結點,通過該類型節(jié)點來制定字段的輸入或輸出方向。這里我們要分析購買健康食物的顧客特征,所以我們將健康字段的方向選項設置為輸出,將顧客的個人特征設置為輸入,將其他商品設置為無。如圖10圖113.4附加 C5.0 節(jié)點。在選擇面板中選擇C5.0拖到工作框中。將輸出類型設置為規(guī)則集,然后執(zhí)行。如圖12。 圖12結果分析:圖中的結果顯示了14.5%的人會選擇購買健康食物,85.5%的人不會購買健康食物。下一個分支中,按照年齡特征來劃分,小于等于24歲的人中購買健康食品占40.4%,其余的59.6%的人則不會購買。年齡大于24歲的人中,4.6%的人選擇購買健康食物,95.4%的人不會購買健康食物。而在小于24歲且有房子的人中,1.4%的人會購買健康食品,98.6%的人不會購買。年齡小于24歲且沒有房子的人中80.3%的人會選擇購買健康食物,19.3%的人不會購買健康食物。3.5、對定義的其它組合重復上述操作,然后對于火鍋組合的規(guī)則集執(zhí)行,結果如圖12。圖13結果分析:圖中的結果顯示了16.7%的人會選擇購買火鍋組合,83.3%的人不會購買火鍋組合。下一個分支中,按照收入特征來劃分,收入小于等于16900元的人42.604%購買該組合,其余的57.396%的人則不會購買。收入大于16900元的人中,3.474%的人選擇購買火鍋組合,96.526%的人不會購買。而在收入小于等于16900的男性中,84.242%的人會購買火鍋組合, 15.758%的人不會購買。收入小于等于16900的女性中2.89%的人會購買火鍋組合,97.11%的人不會購買火鍋組合。3.6、最終工作框的流程如圖13示。圖13六、實驗總結本實驗一共分為三個部分,第一部分主要是附加數(shù)據,第二部分是通過GRI關聯(lián)規(guī)則來建模,以此來揭示購買的商品之間的關聯(lián)關系,并用網絡圖顯示出來;我在第三部分探索了用C5.0模型來歸納其中的規(guī)則。通過本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論