數(shù)據(jù)挖掘與智能決策技術簡介_第1頁
數(shù)據(jù)挖掘與智能決策技術簡介_第2頁
數(shù)據(jù)挖掘與智能決策技術簡介_第3頁
數(shù)據(jù)挖掘與智能決策技術簡介_第4頁
數(shù)據(jù)挖掘與智能決策技術簡介_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘與智能決議技術介紹

數(shù)據(jù)挖掘與智能決策技術簡介第1頁背景

二十世紀末以來,全球信息量以驚人速度急劇增加—據(jù)預計,每二十個月將增加一倍。許多組織機構IT系統(tǒng)中都搜集了大量數(shù)據(jù)(信息)。當前數(shù)據(jù)庫系統(tǒng)即使能夠高效地實現(xiàn)數(shù)據(jù)錄入、查詢、統(tǒng)計等功效,但無法發(fā)覺數(shù)據(jù)中存在關系和規(guī)則,無法依據(jù)現(xiàn)有數(shù)據(jù)預測未來發(fā)展趨勢。為了充分利用現(xiàn)有信息資源,從海量數(shù)據(jù)中找出隱藏知識,數(shù)據(jù)挖掘技術應運而生并顯示出強大生命力。

數(shù)據(jù)挖掘與智能決策技術簡介第2頁背景

數(shù)據(jù)挖掘是八十年代投資AI研究項目失敗后,AI轉入實際應用時提出。它是一個新興,面向商業(yè)應用AI研究。(AI(ArtificialIntelligence,人工智能))1989年8月,在美國底特律召開第11屆國際人工智能聯(lián)合會議專題討論會上首次出現(xiàn)數(shù)據(jù)庫中知識發(fā)覺(KnowledgeDiscoveryinDatabase,KDD)這一術語。隨即,在1991年、1993年和1994年都舉行KDD專題討論會,聚集來自各個領域研究人員和應用開發(fā)者,集中討論數(shù)據(jù)統(tǒng)計、海量數(shù)據(jù)分析算法、知識表示、知識利用等問題。最初,數(shù)據(jù)挖掘是作為KDD中利用算法處理數(shù)據(jù)一個步驟,其后逐步演變成KDD同義詞。

數(shù)據(jù)挖掘與智能決策技術簡介第3頁數(shù)據(jù)挖掘定義技術角度定義數(shù)據(jù)挖掘(DataMining)是從大量、不完全、有噪聲、含糊、隨機實際應用數(shù)據(jù)中,提取隱含在其中、人們事先不知道、但又是潛在有用信息和知識過程。與數(shù)據(jù)挖掘相近同義詞包含:數(shù)據(jù)融合、數(shù)據(jù)分析和決議支持等。這一定義包含好幾層含義:數(shù)據(jù)源必須是真實、海量、含噪聲;發(fā)覺是用戶感興趣知識;發(fā)覺知識要可接收、可了解、可利用;并不要求發(fā)覺放之四海皆準知識,僅支持特定發(fā)覺問題。

數(shù)據(jù)挖掘與智能決策技術簡介第4頁數(shù)據(jù)挖掘定義商業(yè)角度定義數(shù)據(jù)挖掘是一個新商業(yè)信息處理技術,其主要特點是對商業(yè)數(shù)據(jù)庫中大量業(yè)務數(shù)據(jù)進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業(yè)決議關鍵性信息。簡言之,數(shù)據(jù)挖掘其實是一類深層次數(shù)據(jù)分析方法。所以,數(shù)據(jù)挖掘能夠描述為:按企業(yè)既定業(yè)務目標,對大量企業(yè)數(shù)據(jù)進行探索和分析,揭示隱藏、未知或驗證己知規(guī)律性,并深入將其模型化有效方法。

數(shù)據(jù)挖掘與智能決策技術簡介第5頁數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是在企業(yè)管理和決議中面向主題、集成、與時間相關、不可修改數(shù)據(jù)集合。此定義由最為權威、被稱為“數(shù)據(jù)倉庫之父”WilliamH.Inmon先生給出。

數(shù)據(jù)挖掘與智能決策技術簡介第6頁數(shù)據(jù)內容

數(shù)據(jù)庫名(數(shù)據(jù)庫內容描述)

注意:信息完整性;相關業(yè)務人員達成共識。

業(yè)務人員確定

IT人員確定數(shù)據(jù)結構……...計算機內主題數(shù)據(jù)庫數(shù)據(jù)標準化決議支持:從數(shù)據(jù)庫到數(shù)據(jù)倉庫到數(shù)據(jù)集市到……數(shù)據(jù)挖掘與智能決策技術簡介第7頁數(shù)據(jù)倉庫定義

數(shù)據(jù)倉庫是決議支持系統(tǒng)(DecisionSupportSystem,DSS,DSS)基礎。在數(shù)據(jù)倉庫中只有單一集成數(shù)據(jù)源,而且數(shù)據(jù)是可訪問。所以與傳統(tǒng)數(shù)據(jù)庫相比,在數(shù)據(jù)倉庫環(huán)境中DSS分析員工作將較為輕易。

數(shù)據(jù)挖掘與智能決策技術簡介第8頁數(shù)據(jù)倉庫組成一個數(shù)據(jù)倉庫大小普通都是在100GB以上通常,數(shù)據(jù)倉庫系統(tǒng)應該包含以下程序:(1)抽取數(shù)據(jù)與加載數(shù)據(jù)(2)整理并轉換數(shù)據(jù)(采取一個數(shù)據(jù)倉庫適用數(shù)據(jù)格式)(3)備份與備存數(shù)據(jù)(4)管理全部查詢(即將查詢導向適當數(shù)據(jù)源)數(shù)據(jù)挖掘與智能決策技術簡介第9頁數(shù)據(jù)倉庫組成數(shù)據(jù)挖掘與智能決策技術簡介第10頁OLAP定義、特點60年代,關系數(shù)據(jù)庫之父E.F.Codd提出了關系模型,促進了聯(lián)機事務處理(OLTP)發(fā)展(數(shù)據(jù)以表格形式而非文件方式存放)。1993年,E.F.Codd提出了OLAP概念,認為OLTP已不能滿足終端客戶對數(shù)據(jù)庫查詢分析需要,SQL對大型數(shù)據(jù)庫簡單查詢也不能滿足終端客戶分析要求??蛻魶Q議分析需要對關系數(shù)據(jù)庫進行大量計算才能取得結果,而查詢結果并不能滿足決議者提出需求。所以,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析概念,即OLAP。數(shù)據(jù)挖掘與智能決策技術簡介第11頁OLAP定義、特點OLAP(On-LineAnalysisProcessing)定義是數(shù)據(jù)倉庫上分析展示工具,它建立在數(shù)據(jù)多維視圖基礎上。

OLAP主要特點一是在線性(OnLine),表達為對用戶請求快速響應和交互式操作;二是多維分析(Multi_Analysis),這是OLAP技術關鍵所在。

數(shù)據(jù)挖掘與智能決策技術簡介第12頁OLAP定義和特點OLAP與OLTP區(qū)分

(1)OLTP主要面向企業(yè)職員;OLAP則主要面向企業(yè)領導者。(2)OLTP應用主要是用來完成客戶事務處理,其數(shù)據(jù)基礎是操作型數(shù)據(jù)庫,如民航訂票系統(tǒng)、銀行儲蓄系統(tǒng)等等,通常需要進行大量更新操作,同時對響應時間要求較高;而OLAP是以數(shù)據(jù)倉庫或數(shù)據(jù)多維視圖為基礎數(shù)據(jù)分析處理,是針對特定問題聯(lián)機數(shù)據(jù)訪問和分析,它普通不對倉庫數(shù)據(jù)作修改處理,而只是查詢,其應用主要是對客戶當前及歷史數(shù)據(jù)進行分析,輔助領導決議,其經典應用有對銀行信用卡風險分析與預測、企業(yè)市場營銷策略制訂等,主要是進行大量查詢操作,對時間要求不太嚴格。數(shù)據(jù)挖掘與智能決策技術簡介第13頁多維數(shù)據(jù)Salesvolumeasafunctionofproduct,month,andregionProductRegionMonthDimensions:Product,Location,TimeHierarchicalsummarizationpathsIndustryRegionYearCategoryCountryQuarterProductCityMonthWeekOfficeDay數(shù)據(jù)挖掘與智能決策技術簡介第14頁立方體實例TotalannualsalesofTVinU.S.A.DateProductCountryAll,All,Allsumsum

TVVCRPC1Qtr2Qtr3Qtr4QtrU.S.ACanadaMexicosum數(shù)據(jù)挖掘與智能決策技術簡介第15頁數(shù)據(jù)立方體瀏覽VisualizationOLAPcapabilitiesInteractivemanipulation數(shù)據(jù)挖掘與智能決策技術簡介第16頁客戶保留目標營銷欺詐檢測購物籃分析客戶細分客戶忠誠度信用打分信用風險評定營銷組合管理和評定盈利能力分析價格優(yōu)化客戶服務自動化銷售收入和需求預測利潤分析交叉銷售和增量銷售活動管理客戶流失分析客戶服務和問題處理業(yè)績和能力管理分銷渠道業(yè)績分析營業(yè)廳和服務商業(yè)績分析流程和質量控制稅收監(jiān)控可能受益商業(yè)活動數(shù)據(jù)挖掘與智能決策技術簡介第17頁數(shù)據(jù)挖掘處理方案歷史數(shù)據(jù)預測模型新申請者信用等級評價預測模型:用過去客戶數(shù)據(jù)預測未來數(shù)據(jù)挖掘與智能決策技術簡介第18頁了解商業(yè)問題

性別父親教育程度被訪者教育程度工作類型城市當前收入水平數(shù)據(jù)挖掘與智能決策技術簡介第19頁性別父親教育程度被訪者教育程度工作類型城市當前收入水平當前財政情況未來信用風險Time1Time2數(shù)據(jù)挖掘與智能決策技術簡介第20頁家庭收入銷售數(shù)量喜歡流行音樂數(shù)據(jù)挖掘與智能決策技術簡介第21頁數(shù)據(jù)挖掘處理方案數(shù)據(jù)挖掘與智能決策技術簡介第22頁PreprocessedDataDataTranslatedDataPatterns/ModelsResultsPreprocessingAnalysisInputOutput數(shù)據(jù)挖掘處理方案數(shù)據(jù)挖掘與智能決策技術簡介第23頁主要數(shù)據(jù)挖掘技術分類Classification預測Prediction細分Segmentation關聯(lián)Association序列Sequence將您用戶和客戶分類預測未來銷量和欺詐,流失將市場、用戶細分發(fā)覺那些商品會在一起銷售或購置找出時間進程中模式或趨勢決議樹規(guī)則偵測回歸分析聚類分析神經網絡序列模式數(shù)據(jù)挖掘與智能決策技術簡介第24頁DecisionTreesNeuralNetworks

RuleInductionNearestNeighbor

GeneticAlgorithms數(shù)據(jù)挖掘主要新技術決議樹神經網絡規(guī)則偵測序列規(guī)則基因算法

數(shù)據(jù)挖掘與智能決策技術簡介第25頁基于層次聚類方法這類方法不需要預先給定參數(shù)(聚類數(shù)),但需要終止條件。Step0Step1Step2Step3Step4bdceaabdecdeabcdeStep4Step3Step2Step1Step0agglomerative(AGNES)divisive(DIANA)數(shù)據(jù)挖掘與智能決策技術簡介第26頁CURE算法-DataPartitioningandClusterings=50p=2s/p=25xxxyyyyxyxs/pq=5數(shù)據(jù)挖掘與智能決策技術簡介第27頁CHAMELEON算法ConstructSparseGraphPartitiontheGraphMergePartitionFinalClustersDataSet數(shù)據(jù)挖掘與智能決策技術簡介第28頁客戶總列表30%VIP0-1孩子2-3孩子20%VIP4+孩子$50-75kincome15%VIP$75k+income70%VIP$50-75kincome$20-50kincome85%VIPAge:40-6080%VIPAge:20-4045%VIP分類決議樹數(shù)據(jù)挖掘與智能決策技術簡介第29頁Attributes={Outlook,Temperature,Humidity,Wind}OutlookHumidityWindsunnyrainovercastyesnoyeshighnormalnostrongweakyesPlayTennis={yes,no}打高爾夫球決議樹實例(自頂向下)數(shù)據(jù)挖掘與智能決策技術簡介第30頁

依據(jù)加薪百分比、工作時長、法定節(jié)假日、及醫(yī)療保險三個屬性來判斷一個企業(yè)福利情況(good或bad)。數(shù)據(jù)挖掘與智能決策技術簡介第31頁對象關系網絡網絡分析強弱路徑自我小群體缺失角色數(shù)據(jù)挖掘與智能決策技術簡介第32頁網絡分析數(shù)據(jù)挖掘與智能決策技術簡介第33頁神經網絡線性回歸Logistics回歸多層神經網絡細胞繁殖數(shù)據(jù)挖掘與智能決策技術簡介第34頁3.2.2.6神經網絡算法

人工神經網(ArtificialNeuralNetwork,ANN)是20世紀80年代后期快速發(fā)展起來人工智能技術,它對噪聲數(shù)據(jù)含有很高承受能力,對未經訓練數(shù)據(jù)含有分類模擬能力,所以在網站信息、生物信息和基因以及文本數(shù)據(jù)挖掘等領域得到了越來越廣泛應用。在各種ANN模型中,反向傳輸(BackPropagation,BP)網絡是應用最廣一個。

數(shù)據(jù)挖掘與智能決策技術簡介第35頁神經元

經過非線性函數(shù)n維輸入向量

x

被映射為變量ymk-fweightedsumInputvectorxoutputyActivationfunctionweightvectorw?w0w1wnx0x1xn數(shù)據(jù)挖掘與智能決策技術簡介第36頁神經網絡組成輸出節(jié)點輸入節(jié)點隱層節(jié)點輸入矢量輸入矢量:xiwij基本BP網絡由輸入層、輸出層和隱層組成。數(shù)據(jù)挖掘與智能決策技術簡介第37頁數(shù)據(jù)挖掘與智能決策技術簡介第38頁神經網絡拓撲結構

神經網絡訓練之前,需要設計網絡拓撲結構。設計網絡拓撲關鍵是,確定隱層神經元個數(shù)及各神經元初始權值和閾值(偏差)。理論上講,隱層神經元數(shù)越多,迫近越準確。但實際上,隱層神經元數(shù)不宜過多;不然會極大加長訓練時間,并造成網絡容錯能力下降。經訓練后神經網絡若其準確性不能被接收,則必須重新進行拓撲設計或改用不一樣初始權值和閾值(偏差)。

數(shù)據(jù)挖掘與智能決策技術簡介第39頁神經網絡訓練訓練終止條件取得一組權重值,使得訓練集中幾乎全部樣本都分類正確訓練步驟利用隨機值對權值進行初始化將訓練樣本逐一地輸入給神經網絡,進行訓練對于每個神經元將其全部輸入值進行線性求和計算得到總輸入利用激勵函數(shù)計算其輸出值計算誤差修正網絡權值和閾值(偏差)數(shù)據(jù)挖掘與智能決策技術簡介第40頁BP神經網絡

BP神經網絡經過迭代處理一組訓練樣本,將各樣本網絡預測與實際已知類標號進行比較實現(xiàn)學習訓練,反向修改網絡權值,使得網絡預測與實際類之間誤差平方最小。BP神經網絡按照最優(yōu)訓練準則重復迭代,確定并不停調整神經網絡結構,經過迭代修改,當誤差收斂時學習過程終止。所以,含有分類準確、收斂性好、動態(tài)性好和魯棒性強等優(yōu)點。數(shù)據(jù)挖掘與智能決策技術簡介第41頁BP神經網絡存在問題收斂速度問題

BP分類器最大弱點是其訓練速度非常遲緩,難以收斂。尤其是當網絡訓練到達一定程度后,收斂更為遲緩。局部極小點問題

BP算法采取是梯度下降法,對一個復雜網絡而言,其誤差曲面是一個高維空間中曲面,其中分布著許多局部極小點,一旦陷入了局部極小點則算法極難逃離出來。

數(shù)據(jù)挖掘與智能決策技術簡介第42頁BP神經網絡存在問題網絡癱瘓問題

在訓練過程中,權值可能變得很大,這會使神經元網絡輸入變得更大,從而使得其激勵函數(shù)一階導函數(shù)在此點上取值很小。此時訓練步長會變得非常小,最終造成網絡停頓收斂,這種現(xiàn)象即是所謂網絡癱瘓現(xiàn)象。

數(shù)據(jù)挖掘與智能決策技術簡介第43頁關聯(lián)規(guī)則挖掘實例

經過發(fā)覺用戶放入其購物籃中不一樣商品之間聯(lián)絡,分析用戶購置習慣。經過了解哪些商品頻繁地被用戶同時購置,這種關聯(lián)發(fā)覺能夠幫助零售商制訂營銷策略。比如,在同一次購物中,假如用戶購置牛奶同時,也購置面包(和什么類型面包)可能性有多大?這種信息能夠引導銷售,能夠幫助零售商有選擇地經銷和安排貨架。比如,將牛奶和面包盡可能放近一些,能夠深入刺激一次去商店同時購置這些商品。數(shù)據(jù)挖掘與智能決策技術簡介第44頁關聯(lián)規(guī)則挖掘實例購物籃關聯(lián)分析實例圖數(shù)據(jù)挖掘與智能決策技術簡介第45頁3.3.1基本概念CustomerbuysdiaperCustomerbuysbothCustomerbuysbeer“啤酒與尿布”關聯(lián)規(guī)則數(shù)據(jù)挖掘與智能決策技術簡介第46頁ForruleA

Csupport=support({A

C})=50%confidence=support({A

C})/support({A})=66.6%ForCA(50%,100%)TheAprioriprinciple:AnysubsetofafrequentitemsetmustbefrequentMin.support50%Min.confidence50%關聯(lián)挖掘實例數(shù)據(jù)挖掘與智能決策技術簡介第47頁3.5數(shù)據(jù)挖掘可視化

以可視化方式展示數(shù)據(jù)挖掘獲取相關知識。比如:-散點圖和盒圖(obtainedfromdescriptivedatamining)-決議樹-關聯(lián)規(guī)則-聚類-異常點-規(guī)則數(shù)據(jù)挖掘與智能決策技術簡介第48頁SASEnterpriseMin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論