數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)I(yè)課程設計_第1頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)I(yè)課程設計_第2頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)I(yè)課程設計_第3頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)I(yè)課程設計_第4頁
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘?qū)I(yè)課程設計_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

目錄TOC\o"1-3"\h\z1.緒論 21.1項目背景 21.2提出問題 22數(shù)據(jù)庫倉庫和數(shù)據(jù)集概念介紹 22.1數(shù)據(jù)倉庫 22.2數(shù)據(jù)集 23數(shù)據(jù)倉庫 33.1數(shù)據(jù)倉庫設計 33.1.1數(shù)據(jù)倉庫概念模型設計 33.1.2數(shù)據(jù)倉庫邏輯模型設計 33.2數(shù)據(jù)倉庫建立 33.2.1數(shù)據(jù)倉庫數(shù)據(jù)集 33.2.2建立維表 44.數(shù)據(jù)挖掘操作 44.1數(shù)據(jù)預處理 44.1.1描述性數(shù)據(jù)匯總 44.2決議樹 45、試驗心得 126、大總結 12緒論1.1項目背景在現(xiàn)在大數(shù)據(jù)時代,各行各業(yè)需要對商品及相關關節(jié)數(shù)據(jù)進行搜集處理,尤其零售行業(yè),于企業(yè)對產(chǎn)品市場需求進行科學合理分析,從而估計出未來市場,制訂出高效決議,給企業(yè)帶來經(jīng)濟收益。1.2提出問題對于超市商品購置時期和購置數(shù)量怎樣決定,才能夠使銷售量最大,不積壓商品,不缺貨,對不一樣時期季節(jié)和不一樣人群制訂不一樣方案,使企業(yè)收益最大,經(jīng)過數(shù)據(jù)挖掘?qū)?shù)據(jù)進行決議樹分析,關聯(lián)分析,次序分析和決議分析等能夠制訂出最好方案。2數(shù)據(jù)庫倉庫和數(shù)據(jù)集概念介紹2.1數(shù)據(jù)倉庫數(shù)據(jù)倉庫是為企業(yè)全部等級決議制訂過程提供支持全部類型數(shù)據(jù)戰(zhàn)略集合。它是單個數(shù)據(jù)存放,出于分析性匯報和決議支持目標而創(chuàng)建。為企業(yè)提供需要業(yè)務智能來指導業(yè)務步驟改善和監(jiān)視時間、成本、質(zhì)量和控制。數(shù)據(jù)倉庫是決議系統(tǒng)支持(dss)和聯(lián)機分析應用數(shù)據(jù)源結構化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和處理從數(shù)據(jù)庫中獲取信息問題。數(shù)據(jù)倉庫特征在于面向?qū)n}、集成性、穩(wěn)定性和時變性。2.2數(shù)據(jù)集數(shù)據(jù)集是指一個由數(shù)據(jù)所組成集合。Dataset(或dataset)是一個數(shù)據(jù)集合,通常以表格形式出現(xiàn)。每一列代表一個特定變量。每一行全部對應于某一組員數(shù)據(jù)集問題。它列出價值觀為每一個變量,如身高和體重一個物體或價值隨機數(shù)。每個數(shù)值被稱為數(shù)據(jù)資料。對應于行數(shù),該數(shù)據(jù)集數(shù)據(jù)可能包含一個或多個組員。3數(shù)據(jù)倉庫3.1數(shù)據(jù)倉庫設計3.1.1數(shù)據(jù)倉庫概念模型設計概念模型設計是整個概念模型開發(fā)過程三階段。設計階段依據(jù)概念模型分析和分析過程中搜集任何數(shù)據(jù),完成星型模型和雪花型模型設計。假如僅依靠ERD,那只能對商品、銷售、用戶專題設計成圖所表示概念模型。這種模型適合于傳統(tǒng)數(shù)據(jù)庫設計,但不適合于數(shù)據(jù)倉庫設計。3.1.2數(shù)據(jù)倉庫邏輯模型設計邏輯建模是數(shù)據(jù)倉庫實施中關鍵一環(huán),因為它能直接反應出各個業(yè)務需求,同時對系統(tǒng)物理實施有著關鍵指導作用,它作用在于能夠經(jīng)過實體和關系勾勒出企業(yè)數(shù)據(jù)藍圖,數(shù)據(jù)倉庫邏輯模型設計任務關鍵有:分析專題域,確定要裝載到數(shù)據(jù)倉庫專題、確定粒度層次劃分、確定數(shù)據(jù)分割策略、關系模式定義和統(tǒng)計系統(tǒng)定義、確定數(shù)據(jù)抽取模型等。邏輯模型最終設計結果包含每個專題邏輯定義,并將相關內(nèi)容統(tǒng)計在數(shù)據(jù)倉庫元數(shù)據(jù)中、粒度劃分、數(shù)據(jù)分割策略、表劃分和數(shù)據(jù)起源等。3.2數(shù)據(jù)倉庫建立3.2.1數(shù)據(jù)倉庫數(shù)據(jù)集通常說來,一個數(shù)據(jù)集市是根據(jù)某一特定部門決議支持需求而組織起來、針對一組專題應用系統(tǒng)。比如,財務部擁有自己數(shù)據(jù)集市,用來進行財務方面報表和分析,市場推廣部、銷售部等也擁有各自專用數(shù)據(jù)集市,用來為本部門決議支持提供輔助手段。數(shù)據(jù)集市大全部采取多維數(shù)據(jù)庫技術,這種技術對數(shù)據(jù)分析而言可能是最優(yōu),但肯定不適合于大量數(shù)據(jù)存放,因為多維數(shù)據(jù)庫數(shù)據(jù)冗余度很高。為了提升速度,對數(shù)據(jù)集市中數(shù)據(jù)通常全部建立大量索引。換言之,數(shù)據(jù)集市中往往靠對數(shù)據(jù)預處理來換取運行時高速度,當業(yè)務部門提出新問題時,假如不在原來設計范圍內(nèi),則需要數(shù)據(jù)庫管理員對數(shù)據(jù)庫作很多調(diào)整和優(yōu)化處理。3.2.2建立維表維是分析問題角度,度量是要分析問題。多維視圖:用包含度量和維表數(shù)據(jù)結構能夠創(chuàng)建一個多維視圖,用試題和維創(chuàng)建多維模型稱為星型模型,星型模型生成關鍵表格被稱為事實表。事實表屬性值幾乎全部有連續(xù)值。事實表是規(guī)范化。和維表不一樣不是隨時間推移改變,而是不停變大。維表:星型模型也含有很小表,用來裝載描述信息。維表是逆規(guī)范化。假如把維表置于第二范式中,這么表稱為雪花模型。維表包含主鍵,通常對應事實表外部鍵。假如維表主鍵不在實事表中,這個主鍵字便被稱作退化維。創(chuàng)建維表:有3種方法:星型模型、雪花模型和星暴模型。星暴模型含有兩張以上事實表?;A有些充當維事實表。星型模型:全部信息維全部放在同一個維表中。維表信息包含一個唯一標識符(ID)和經(jīng)過這個維表建立全部維所需屬性。星型模型由小維表和大事實表組成,多稱為“小表和大表”。事實表通常是標準表。雪花模型:把信息分為3種標準格式。產(chǎn)品表、類別表、子類別表。把這些信息放到一起需要一定數(shù)據(jù)連接。雪花模型比星型模型效率低,占空間少。全部事實表全部有一個和之相關時間維表。4.數(shù)據(jù)挖掘操作4.1數(shù)據(jù)預處理4.1.1描述性數(shù)據(jù)匯總對于很多數(shù)據(jù)預處理任務,期望知道相關數(shù)據(jù)中心趨勢和離中趨勢特征。中心趨勢度量包含均值(mean)、中位數(shù)(median)、眾數(shù)(mode)和中列數(shù)(midrange),而數(shù)據(jù)離中趨勢度量包含四分位數(shù)(quartiles)、四分位數(shù)極差(interquartilerange,IQR)和方差(variance)。這些描述性統(tǒng)計量有利于了解數(shù)據(jù)分布。4.2決議樹讀取文本數(shù)據(jù)使用變量文件節(jié)點讀取定界文本數(shù)據(jù)。能夠從選項板中添加變量文件節(jié)點,方法是單擊源選項卡找到此節(jié)點,或使用收藏夾選項卡(默認情況下,其中包含此節(jié)點)。然后,雙擊新添加節(jié)點以打開對應對話框。圖1所表示。圖1單擊緊挨“導入文件”框右邊以省略號“...”標識按鈕,瀏覽到系統(tǒng)中Clementine安裝目錄。打開目標文件目錄,然后選擇名為sales.xls文件。選擇從文件讀取字段名,并注意已載入此對話框中字段和值。圖2所表示。圖2單擊過濾選項,能夠把用不到信息給過濾掉。圖3所表示。圖3類型選項卡可幫助了解數(shù)據(jù)中更多字段類型。還能夠選擇讀取值來查看各個字段實際值,具體取決于在值列中選擇。此過程稱為實例化。圖4所表示。圖4(2)添加表現(xiàn)在已載入數(shù)據(jù)文件,能夠瀏覽一下一些統(tǒng)計值。其中一個方法就是構建一個包含表節(jié)點流。要將表節(jié)點添加到流中,可雙擊選項板中表節(jié)點圖標或?qū)⑵渫戏诺焦ぷ鲄^(qū)。圖5所表示。圖5雙擊選項板中某個節(jié)點后,該節(jié)點將自動和流工作區(qū)中選定節(jié)點相連接。另外,假如還未連接節(jié)點,則能夠使用鼠標中鍵將源節(jié)點和表節(jié)點相連接。要模擬鼠標中鍵操作,請在使用鼠標時按下Alt鍵。圖6所表示。圖6要查看表,請單擊工具欄上綠色箭頭按鈕實施流,或右鍵單擊表節(jié)點,然后選擇實施。圖7所表示。圖7創(chuàng)建分布圖將分布節(jié)點添加到流,并將其和源節(jié)點相連接,然后雙擊該節(jié)點以編輯要顯示選項。選擇商品名稱作為要顯示其分布目標字段。然后,在對話框中單擊實施。圖8所表示。圖8最終圖表將有利于查看數(shù)據(jù)“結構”。結果表明,商品300g壺瓶棗和400g沁州黃賣最多。圖9所表示。圖9另外,還能夠在“輸出”選項卡中找到數(shù)據(jù)審核節(jié)點。圖10所表示。圖10添加并實施數(shù)據(jù)審核節(jié)點,同時快速瀏覽全部字段分布圖和直方圖。圖11所表示。圖11創(chuàng)建散點圖現(xiàn)在我們來看一下有哪些原因會對商品出售(目標變量)產(chǎn)生影響。作為一名消費者,我們一定知道銷售模式對銷售數(shù)量有著關鍵影響。所以創(chuàng)建一個相關商品名稱和銷售模式散點圖。將散點圖節(jié)點放在工作區(qū)中,并將其和源節(jié)點相連接,然后雙擊該節(jié)點對其進行編輯。圖12所表示。圖12在“散點圖”選項卡中,選擇商品名稱作為X字段,選擇銷售模式作為Y字段,并選擇銷售金額作為交疊字段。然后單擊實施。圖13所表示。圖13此散點圖清楚地顯示商品在零售和特價模式下銷售金額不一樣。商品在特價銷售模式下,銷售金額顯著高于零售模式下銷售金額。圖14所表示。圖14創(chuàng)建直方圖因很多數(shù)據(jù)不能夠直接顯示,所以我們要建立直方圖,直方圖能夠很清楚顯示數(shù)據(jù)。首先,將網(wǎng)絡節(jié)點和您工作區(qū)中源節(jié)點相連接。圖15所表示。圖15在“直方圖”選項卡中,選擇商品序號作為X字段,選擇銷售數(shù)量作為交疊字段。然后單擊實施。圖16所表示。圖16此直方圖能夠清楚地顯示不一樣商品銷售數(shù)量不一樣。由圖能夠看出序號為1商品銷售數(shù)量最多,序號為9商品銷售數(shù)量最少。圖17所表示。圖175、試驗心得在此次試驗中,從新建工作流一直到取得最終止果,整個步驟讓我對數(shù)據(jù)挖掘中數(shù)據(jù)分析處理基礎方法有了深入了解,尤其是決議樹模型應用了解,同時,也學會了怎樣使用決議樹經(jīng)過建模和直觀化顯示發(fā)覺數(shù)據(jù)庫中關系(即鏈接)和利用這些鏈接和數(shù)據(jù)中案例組相對應關系能夠經(jīng)過建??删唧w研究這些組并描繪其特征,增強了利用決議樹模型和聚類分析模型能力。經(jīng)過這次學習讓我意識到,對于數(shù)據(jù)我們不僅要能利用統(tǒng)計來分析它規(guī)律,也要能會經(jīng)過數(shù)據(jù)挖掘軟件來挖掘數(shù)據(jù)當中潛在信息,而且利用數(shù)據(jù)挖掘所得到有利信息愈加好服務于數(shù)據(jù)使用者。6、大總結堅持好一段時間,最終把完成了任務,經(jīng)過這幾次試驗匯報實踐操作,我收獲很大,不僅學習相關數(shù)據(jù)挖掘知識,相關SPSS了解更多,操作也比原來熟練多了。即使過程中有點折磨過,但當你克服了,耐心去一步一步操作,那些煩躁心情就會慢慢消失,還得要有耐心,認真態(tài)度去操作,才能有結果。關聯(lián)分析是一個很有用數(shù)據(jù)挖掘模型,能夠幫助企業(yè)做很多很有用產(chǎn)品組合推薦、優(yōu)惠促銷組合,同時也能指導貨架擺放是否合理,還能夠找到更多潛在用戶,確實真正把數(shù)據(jù)挖掘落到實處。

關聯(lián)分析具體能用來做什么呢?能夠一句話來概括:最大程度地從你口袋里面掏出更多錢買我產(chǎn)品。

1.經(jīng)過關聯(lián)規(guī)則,推出對應促銷禮包或優(yōu)惠組合套裝,快速幫助提升銷售額。如自行車針對不一樣人群,來制訂有效銷售方案。

2.零售超市或商場,能夠經(jīng)過產(chǎn)品關聯(lián)程度大小,指導產(chǎn)品合理擺放,方便用戶最購置更多其所需要產(chǎn)品。最常見就是超市里面購置肉和購置蔬菜水果等貨架會擺放得很近,現(xiàn)在就是大家會同時購置肉和蔬菜,產(chǎn)品合理擺放也是提升銷售一個關鍵。

3.進行相關產(chǎn)品推薦或挑選對應關聯(lián)產(chǎn)品進行正確營銷。最常見是你在亞馬遜或京東購置產(chǎn)品時候,旁邊會出現(xiàn)購置該商品人,有百分之多少還會購置以下產(chǎn)品,快速幫助用戶找到其共同愛好產(chǎn)品。物以類聚,人以群分。比如,窮人通常和窮人在一起,富人也喜愛和富人在一起。還有數(shù)據(jù)挖掘人喜愛和數(shù)據(jù)挖掘人打交道,全部離不開這些鳥道理。

4.尋求更多潛在目標用戶。比如:100人里面,購置A有60人,購置B有40人,同時購置A和B有30人,說明A里面有二分之一用戶會購置B,反推而言。假如推出類似B產(chǎn)品,除了向產(chǎn)品B用戶推薦(因為新產(chǎn)品和B功效效果比較類似)之外,還能夠向A用戶進行推薦,這么就能最大程度地尋求更多目標用戶。決議樹分析法是常見風險分析決議方法。該方法是一個用樹形圖來描述各方案在未來收益計算。比較和選擇方法,其決議是以期望值為標準。大家對未來可能會碰到好多個不一樣情況。每種情況全部有出現(xiàn)可能,大家現(xiàn)在無法確知,不過能夠依據(jù)以前資料來推斷多種自然狀態(tài)出現(xiàn)概率。在這么條件下,大家計算多種方案在未來經(jīng)濟效果只能是考慮到多種自然狀態(tài)出現(xiàn)概率期望值,和未來實際收益不會完全相等。決議樹法是管理人員和決議分析人員常常采取一個行之有效決議工具。它含有下列優(yōu)點:1.決議樹列出了決議問題全部可行方案和可能出現(xiàn)多種自然狀態(tài),和各可行方法在多種不一樣狀態(tài)下期望值。2.能直觀地顯示整個決議問題在時間和決議次序上不一樣階段決議過程。3.在應用于復雜多階段決議時,階段顯著,層次清楚,便于決議機構集體研究,能夠周密地思索多種原因,有利于作出正確決議。當然,決議樹法也不是十全十美,它也有缺點,如使用范圍有限,無法適適用于部分不能用數(shù)量表示決議;對多種方案出現(xiàn)概率確實定有時主觀性較大,可能造成決議失誤;等等估計分析法是依據(jù)客觀對象已知信息而對事物在未來一些特征、發(fā)展情況一個估量、測算活動。利用多種定性和定量分析理論和方法,對事物未來發(fā)展趨勢和水平進行判定和推測一個活動。估計實質(zhì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論