版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
數(shù)據(jù)挖掘與決策支持
課程目標(biāo)數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展數(shù)據(jù)挖掘與企業(yè)決策支持的關(guān)系數(shù)據(jù)挖掘的一些基本工具與算法數(shù)據(jù)挖掘流程數(shù)據(jù)挖掘軟件1.數(shù)據(jù)挖掘的產(chǎn)生與發(fā)展數(shù)據(jù)?數(shù)據(jù)挖掘技術(shù)的由來從技術(shù)的角度來看:數(shù)據(jù)挖掘被稱為繼網(wǎng)絡(luò)之后的下一個技術(shù)熱點;從生產(chǎn)的角度來看:由于人工費用提升,產(chǎn)品和服務(wù)成本降低,管理和服務(wù)過程的信息化是必然的。從數(shù)據(jù)的管理和利用來看:單純的存取功能不再適應(yīng),待管理的數(shù)據(jù)量正在以指數(shù)增長。
《紐約時報》由60年代的10~20版擴(kuò)張至現(xiàn)在的100~200版,最高曾達(dá)1572版;《北京青年報》也已是16~48版;國家圖書館有1000萬冊圖書,一個公司就可能擁有這些數(shù)據(jù);統(tǒng)計流程控制通過成千上萬個傳感器不斷讀取和記錄數(shù)據(jù);電話系統(tǒng),網(wǎng)絡(luò)系統(tǒng)一個月的記錄可能需要1012條記錄超過1000gigabyte。數(shù)據(jù)的突出特點產(chǎn)生的問題信息過量;信息真假難以辨識;信息安全難以保證;信息形式不一致,難以統(tǒng)一處理。
進(jìn)化階段商業(yè)問題
支持技術(shù)
產(chǎn)品廠家產(chǎn)品特點
數(shù)據(jù)搜集
(60年代)
“過去十年中企業(yè)的總收入是多少?”
計算機(jī)、磁帶和磁盤
IBM,CDC
提供歷史性的、靜態(tài)的數(shù)據(jù)信息
數(shù)據(jù)訪問
(80年代)
“廣州分公司去年三月的銷售額是多少?”關(guān)系數(shù)據(jù)庫RDBMS,結(jié)構(gòu)化查詢語言SQL)ODBCOracle、Sybase、Informix、IBM、Microsoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息
數(shù)據(jù)倉庫;決策支持
(90年代)
“去年三月深圳的銷售是多少?廣州據(jù)此可得出什么結(jié)論?”聯(lián)機(jī)分析處理OLAP多維數(shù)據(jù)庫、數(shù)據(jù)倉庫
Pilot、Comshare、Arbor、Cognos、Microstrategy
在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息
數(shù)據(jù)挖掘
正在流行…
“下個月廣州的銷售會怎么樣?為什么?”高級算法、多處理器計算機(jī)、海量數(shù)據(jù)庫
Pilot、Lockheed、IBM、SGI、其他初創(chuàng)公司
預(yù)測模式
數(shù)據(jù)挖掘的演變過程機(jī)器學(xué)習(xí)類神經(jīng)網(wǎng)絡(luò)知識發(fā)現(xiàn)數(shù)據(jù)挖掘60年代70年代80年代90年代數(shù)據(jù)可以產(chǎn)生商業(yè)價值可以想象在老年雜志上登載怎樣的廣告?如何防止信用卡盜用?地質(zhì)采礦嬰兒紙尿布和啤酒的故事數(shù)據(jù)挖挖掘的的定義義.Dataminingisthenon-trivialprocessofidentifyingvalid,novel,potentiallyuseful,andultimatelyunderstandablepatternsindata.—Fayyad.Dataminingistheprocessofextractingpreviouslyunknown,comprehensible,andactionableinformationformlargedatabasesandusingittomakecrucialbusinessdecisions.—Zekulin遠(yuǎn)古至至今即即存在在數(shù)據(jù)挖挖掘月暈知風(fēng)晚上起起霧第二天天晴天天看到媽媽媽拿拿鞭子子逃跑這些在在我們們的傳傳統(tǒng)用用法稱稱之為為:經(jīng)驗法法則數(shù)據(jù)挖挖掘--從大量量數(shù)據(jù)據(jù)中尋尋找規(guī)規(guī)律技技術(shù),,是統(tǒng)統(tǒng)計學(xué)學(xué)、數(shù)數(shù)據(jù)庫庫技術(shù)術(shù)和人人工智智能技技術(shù)等等的綜綜合。。數(shù)據(jù)挖挖掘的功能能分類:DecisionTree,NeuralNetworketc.推估:Regression&NeuralNetworketc.預(yù)測:DecisionTree,NeuralNetworketc.關(guān)聯(lián)分分組:GRI,Apriorietc.聚類:K-means&KohonenNetwork需要數(shù)數(shù)據(jù)挖挖掘的的5條條理由由Largenumberofrecords(cases)(108-1012bytes)Highdimensionaldata(variables)(10-104attributes)Onlyasmallportion,typically5%to10%,ofthecollecteddataiseveranalyzed.Datathatmayneverbeexploredcontinuestobecollectedoutoffearthatsomethingthatmayproveimportantinthefuturemaybemissing.Magnitudeofdataprecludesmosttraditionalanalysis(moreoncomplexitylater).數(shù)據(jù)挖挖掘的的重要要性TechnologyReview雜志2002年年公布布改變變未來來的十十項新新興趨趨勢::–機(jī)器器與人人腦的的接口口–塑料料晶體體管–數(shù)據(jù)挖挖掘(Datamining)–數(shù)字權(quán)權(quán)利管管理–生物物測量量學(xué)(Biometrics)–語音識識別處處理–微光光學(xué)技技術(shù)(Microphotonics)–破解程程序代代碼(Untanglingcode)–機(jī)器人人設(shè)計計–微應(yīng)應(yīng)用流流體學(xué)學(xué)(Microfluidics)數(shù)據(jù)挖挖掘與與數(shù)據(jù)據(jù)查詢詢表面知知識((ShallowKnowledge)::可以利利用數(shù)數(shù)據(jù)庫庫查詢詢語言言找到到所有使使用信信用卡卡購買買烤箱箱的某某大型型商場場的客客戶列列表。。多維的的知識識(Multidimensionalknowledge)):多表的的連接接操作作跨國電電信公公司的的客戶戶呼叫叫模式式分析析:話話費清清單,,客戶戶帳戶戶數(shù)據(jù)據(jù)等。。隱藏的的知識識(Hiddenknowledge))將不良良風(fēng)險險的人人和能能按時時還貸貸的人人區(qū)分分開來來。地下知知識((Deepknowledge))電信公公司的的長話話業(yè)務(wù)務(wù)數(shù)據(jù)據(jù)分布布數(shù)據(jù)挖挖掘與與專家家系統(tǒng)統(tǒng)數(shù)據(jù)挖挖掘并并不總總是有有效,,特別別沒有有優(yōu)質(zhì)質(zhì)的數(shù)數(shù)據(jù)來來源,,數(shù)據(jù)據(jù)挖掘掘可以以被由由一個個或多多個模模仿專專家解解決問問題的的程序序部分分代替替。專家系系統(tǒng)數(shù)據(jù)數(shù)據(jù)挖挖掘工工具知識,,規(guī)則則2.數(shù)數(shù)據(jù)挖挖掘的的應(yīng)用用數(shù)據(jù)挖挖掘客戶分析析基分因其他保險客客戶證券客客戶銀行客客戶電信客客戶零售客客戶信用卡儲蓄卡存折按揭借貸人類類基基因因植物物基基因因動物物基基因因特殊殊群群體體基基因因基因因序序列列基因因表表達(dá)達(dá)譜譜基因因功功能能基因因制制藥藥……………...數(shù)據(jù)據(jù)挖挖掘掘在在中中國國內(nèi)內(nèi)地地市市場場規(guī)規(guī)模模未未來來五五年年內(nèi)內(nèi)將將達(dá)達(dá)百百億億科學(xué)學(xué)研研究究天文文學(xué)學(xué)::SKICAT基因因工工程程::GRAIL,GeneID,Geneparser人類類基基因因植物物基基因因動物物基基因因特殊殊群群體體基基因因基因因序序列列基因因表表達(dá)達(dá)譜譜基因因功功能能基因因制制藥藥……………...商業(yè)業(yè)領(lǐng)領(lǐng)域域的的數(shù)數(shù)據(jù)據(jù)挖挖掘掘作為為研研發(fā)發(fā)工工具具:制制藥藥業(yè)業(yè)predicttheeffectivenessofsurgicalproceduremedicaltestmedication改進(jìn)進(jìn)生生產(chǎn)產(chǎn)過過程程:6市場場營營銷銷.客戶戶關(guān)關(guān)系系管管理理.金融融投投資資欺詐詐甄甄別別EstablishedLoyalsShareofcustomersShareofprofits3%8%DevelopingLoyalsIDevelopingLoyalsIIBorrowingPotentialsCardbillMultipleaccountholdingiscommonLongrelationshiptimeHightransactionactivitiesHighphonebankingusageShareofcustomersShareofprofits9%44%Highestassetbalanceacrosssegments25%ofsegmenthashighbankassetsLiabilitieslowShareofcustomersShareofprofits12%13%HighestlevelofmultipledepositaccountholdingAverageaccountbalanceveryhighMeanageis45ShareofcustomersShareofprofits10%12%AllholdcreditcardsMosthaveloansinsmallamountsDepositbalancelow客戶戶細(xì)細(xì)分分Web挖掘掘文檔檔的的自自動動分分類類幫助助尋尋找找用用戶戶感感興興趣趣的的新新聞聞設(shè)計計電電子子新新聞聞和和垃垃圾圾郵郵件件過過濾濾系系統(tǒng)統(tǒng)市場場營營銷銷Marketing-who’’slikelytobuy?Forecasts-whatdemandwillwehave?Loyalty-who’’slikelytodefect?Credit-whichloanswereprofitable?Fraud-whendiditoccur?數(shù)據(jù)據(jù)挖挖掘掘與與決決策策支支持持業(yè)務(wù)務(wù)數(shù)數(shù)據(jù)據(jù)交易易數(shù)數(shù)據(jù)據(jù)外部部數(shù)數(shù)據(jù)據(jù)數(shù)據(jù)據(jù)倉倉庫庫決策策支支持持系系統(tǒng)統(tǒng)MarketingPhoneCentersalesIVR(MDBMS)數(shù)據(jù)分析顧客客分分析析行銷銷管管理理挑選選客客戶戶名名冊冊產(chǎn)品品分分析析應(yīng)用用系系統(tǒng)統(tǒng)客服服行行銷銷3.數(shù)數(shù)據(jù)據(jù)挖挖掘掘的的流流程程((6步步法法))如何何定定義義有有興興趣趣的的模模式式從人人口口數(shù)數(shù)據(jù)據(jù)庫庫中中很很容容易易得得到到如如下下的的知知識識或或規(guī)規(guī)則則::如果果““某某人人的的家家庭庭角角色色是是丈丈夫夫””=>““此此人人的的性性別別是是男男性性”;;Datamining=““garbagein,garbageout””?數(shù)據(jù)據(jù)挖挖掘掘流流程程與與美美食食制制作作蘆筍筍百百合合六步步之之一一::商商業(yè)業(yè)理理解解商業(yè)業(yè)目目標(biāo)標(biāo)問題題范范圍圍可能能的的解解決決方方案案以以及及各各自自的的優(yōu)優(yōu)缺缺點點花費費時時間間::20%~30%重要要性性:電信信行行業(yè)業(yè)幾幾個個重重要要的的營營銷銷問問題題:個別別消消費費者者通話話模模式式高利利潤潤的的服服務(wù)務(wù)六步步之之二二::數(shù)數(shù)據(jù)據(jù)理理解解數(shù)據(jù)據(jù)概概念念描描述述((格格式式等等));;收集數(shù)據(jù)據(jù);數(shù)據(jù)探索索性研究究;花費時間間:20%~30%重要性:通話明細(xì)細(xì)數(shù)據(jù)可可以從以以下幾個個渠道獲獲得:直接交換換機(jī)記錄錄(directswitchrecording)計費系統(tǒng)統(tǒng)的輸入入數(shù)據(jù)(inputsintothebillingsystem)。數(shù)據(jù)倉儲儲提供的的基礎(chǔ)數(shù)數(shù)據(jù)(Datawarehousefeeds)。。其他有關(guān)關(guān)客戶的的數(shù)據(jù)六步之三三:數(shù)據(jù)據(jù)準(zhǔn)備花費時間間:50%~70%重要性:數(shù)據(jù)清理理;數(shù)據(jù)轉(zhuǎn)換換;數(shù)據(jù)整合合;格式化數(shù)數(shù)據(jù)六步之四四:建立立模型與與模式數(shù)據(jù)的描描述與匯匯總細(xì)分分類預(yù)測關(guān)聯(lián)更深層次次的問題題是:哪哪些客戶戶對價格格比價敏敏感有監(jiān)督的的數(shù)據(jù)挖挖掘(學(xué)學(xué)習(xí))用歸納形形成概念念模型,,使用模模型幫助助區(qū)分結(jié)結(jié)構(gòu)相似似的對象象。這類類學(xué)習(xí)稱稱為基于于歸納的的有指導(dǎo)導(dǎo)的概念念學(xué)習(xí)(supervisedlearning)有監(jiān)督的的數(shù)據(jù)挖挖掘模型型例根據(jù)歷史史行銷記記錄,推推測誰最最有可能能對我們們下一次次推薦產(chǎn)產(chǎn)品做出出響應(yīng)。根據(jù)經(jīng)驗驗,最合合適的醫(yī)醫(yī)療處方方是什么么?下一個最最有可能能被淘汰的機(jī)器是是哪一種種型號??在未來的的六個月月里,哪哪些客戶戶最有可可能離開?根據(jù)歷史史欺詐,,哪些交交易行為為最有可可能發(fā)生生欺詐?某人申請請信用卡卡或某項項保險的的資格是是否可以以獲批?Diagonosis=咽炎NoYesYesNo淋巴腫發(fā)燒感冒敏感癥無監(jiān)督的的數(shù)據(jù)挖挖掘無監(jiān)督的的數(shù)據(jù)挖挖掘是在在數(shù)據(jù)中中尋找新新的模式式。這些些模式使使我們更更深入地地了解數(shù)數(shù)據(jù),了了解數(shù)據(jù)據(jù)本身就就有可能能生成有有用的信信息。無監(jiān)督數(shù)數(shù)據(jù)挖掘掘和有監(jiān)監(jiān)督的數(shù)數(shù)據(jù)挖掘掘在數(shù)據(jù)據(jù)挖掘中中是同等等的重要要。無監(jiān)監(jiān)督的數(shù)數(shù)據(jù)挖掘掘經(jīng)常用用于數(shù)據(jù)據(jù)探索階階段。比比如,數(shù)數(shù)據(jù)中有有什么??它描述述了怎樣樣的信息息?數(shù)據(jù)據(jù)中是否否存在不不尋常的的模式??數(shù)據(jù)對對客戶細(xì)細(xì)分有怎怎樣的建建議?哪些產(chǎn)品品應(yīng)根據(jù)據(jù)指定目目錄放在在一起??找到對書書籍和音音樂方面面,有相相同品位位的讀者者和聽眾眾。為市場行行銷人員員找到真真正的客客戶群體體。35.00<=Age<=43.00andLifeInsPromo=Yes:ruleaccuracy100.00%:rulecoverage100.00%35.00<=Age<=43.00andMagazinePromo=Yes:ruleaccuracy85.71%:rulecoverage85.71%六步之五五:模型型評價累計增益益圖ROC曲線錯誤不對對稱六步之六六:結(jié)果果發(fā)布發(fā)布結(jié)果果計劃監(jiān)測和維維護(hù)模型型計劃報表發(fā)布布4.一一個目錄錄直銷的的例子目錄直銷銷業(yè)常見見的幾個個目標(biāo)增加顧客客響應(yīng)度度;增加總收收入;降低郵寄寄費用;;增加利潤潤;激發(fā)潛在在顧客的的活力;;較高的訂訂單金額額和較低低的退貨貨率;案例背景景SAM是一家從從事禮品品、花卉卉以及提提供園藝藝工具的的目錄服服務(wù)公司司。這家家企業(yè)在在美國有有10年年以上的的成功經(jīng)經(jīng)營歷史史,積攢攢了35610個客戶戶,SAM發(fā)現(xiàn)最近近目錄響響應(yīng)率在在不斷下下降,公公司希望望能找到到影響客客戶響應(yīng)應(yīng)的關(guān)鍵鍵因素,,同時希希望擴(kuò)展展其客戶戶群體。。RFM分分析R:RecencyF:FrequencyM:Monetary第一步::定義變變量:R:Lstpurch:自最后一一次購買買以來的的月數(shù)F:Nunpurch:最近36個月內(nèi)內(nèi)購買的的次數(shù)M:Totpurch:最近36個月內(nèi)內(nèi)消費總總量第二步::客戶行行為模式式分布60%以以上的客客戶很長長時間沒沒有購買買產(chǎn)品很大比例例的客戶戶過去一一年里購購買次數(shù)數(shù)在2到到4之間間大約85%的客客戶少于于5次80%的的年度總總消費金金額在$100以下,,幾乎85%的的客戶低低于$300。。SAM客戶的購購買習(xí)慣慣分析第三步::將響應(yīng)應(yīng)率與這這些因素素進(jìn)行比比較:比較的方方法:一一比較較交叉列聯(lián)聯(lián)最近購買買行為是是一個影影響響應(yīng)應(yīng)率最為為出色的的變量??!第四步::滲透分分析要點:外部數(shù)據(jù)據(jù)(人口口數(shù)據(jù))):年齡居住時間間等客戶百分比市場百分比X100滲透指數(shù)=最后一步步:制訂決策策:目標(biāo)標(biāo)市場定定位于年年齡在35-44歲的的客戶。。AnyProblem??5.數(shù)據(jù)據(jù)挖掘的的基本算算法Debt<10%ofIncomeDebt=0%GoodCreditRisksBadCreditRisksGoodCreditRisksYesYesYesNONONOIncome>$40KQQQQII123456factor1factor2factorn神經(jīng)網(wǎng)絡(luò)絡(luò)NeuralNetworks聚類分析析ClusteringOpenAccn’tAddNewProductDecreaseUsage???Time序列分析析SequenceAnalysis決策樹DecisionTrees傾向性分分析客戶保留留客戶生命命周期管管理目標(biāo)市場場價格彈性性分析客戶細(xì)分分市場細(xì)分分傾向性分分析客戶保留留目標(biāo)市場場欺詐檢測測關(guān)聯(lián)分析析Association市場組合合分析套裝產(chǎn)品品分析目錄設(shè)計計交叉銷售售1)決策策樹模型型實例用““屬性-值”對對表示的的;目標(biāo)函數(shù)數(shù)有離散散的輸出出值:分分類問題題;有完整的的規(guī)則表表達(dá)式,,解釋性性強(qiáng);訓(xùn)練數(shù)據(jù)據(jù)可以允允許有錯錯誤或缺缺失存在在;例:垃圾圾郵件的的識別問問題YYYYYYYYYNNNNNNNNNNNNYYYYYNN¥%#^*~等字符出出現(xiàn)的頻頻數(shù)?!+&等字符符出現(xiàn)的的頻數(shù)2)關(guān)聯(lián)規(guī)則則(AssociationRule)同一個交交易中,,一個item出現(xiàn)也會引起起另一個個item的出現(xiàn)Associationrule例子若顧客購購買面包包,則他他很可能能也會購購買牛奶奶Associationrule:面包=>牛牛奶P(牛奶|面面包)的的概率率值高關(guān)聯(lián)規(guī)則則的可信度(Confidence)可信度為為:在A出現(xiàn)的條件下出現(xiàn)B的概率可信度=P(B|A)=P(A,B)/P(A)例如:數(shù)據(jù)庫中中的交易易紀(jì)錄t1:(…,面包,……,牛奶奶,…)t2:(…,面包,………………..)t3:(…,面包,……,牛奶奶,…)t4:(……………………………)P(牛奶|面面包)=P(面包,牛奶)P(面包)N(面包,牛牛奶)N(面包)=關(guān)聯(lián)規(guī)規(guī)則的支持度度(Support)關(guān)聯(lián)規(guī)規(guī)則A=>B支持度度為:A與B同時出出現(xiàn)的概率P(A,B)例子:數(shù)數(shù)據(jù)庫庫中的的交易易紀(jì)錄錄如下下:t1:(…,面包,…,牛奶奶,……)t2:(…,面包,………………..)t3:(…,面包,…,牛奶奶,……)t4:(………………………………)請問:面包=>牛牛奶的支持度度為多多少?3)序列列模式式顧客通通常在在購買買某類類商品品后,,經(jīng)過一一段時時間,會再再購買買另一一類商商品例如:買買過““棉被、、枕頭頭、床床單””之后,,經(jīng)過過一段段時間間,,通常常會再再購買買“紙尿褲、、奶粉粉”序列模模式例例顧客代號交易時間購買物品代號1190/7/2590/7/303060,9022290/7/1090/7/1590/7/2010,203040,60,70390/7/2530,50,7044490/7/2590/7/3090/8/25203060,70590/7/1290例如:先買20再買30再買60,70203060,704).聚類類5).類神神經(jīng)網(wǎng)網(wǎng)絡(luò)好處對問題題的假假定、、要求求較少少??梢詫崒崿F(xiàn)特特征空空間較較為復(fù)復(fù)雜的的劃分分缺點訓(xùn)練速速度慢慢需要更更多的的訓(xùn)練練數(shù)據(jù)據(jù)無法對對結(jié)果果進(jìn)行行透徹徹的理理解6.數(shù)數(shù)據(jù)挖挖掘軟軟件發(fā)發(fā)展現(xiàn)現(xiàn)狀二、數(shù)數(shù)據(jù)挖挖掘軟軟件的的發(fā)展展第一代代系統(tǒng)統(tǒng)與第第二代代相比比因為為不具具有和和數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)之間間有效效的接接口,,所以以在數(shù)數(shù)據(jù)預(yù)預(yù)處理理方面面有一一定缺缺陷第三、、四代代系統(tǒng)統(tǒng)強(qiáng)調(diào)調(diào)預(yù)言言模型型的使使用和和在操操作型型環(huán)境境的部部署第二代代系統(tǒng)統(tǒng)提供供數(shù)據(jù)據(jù)管理理系統(tǒng)統(tǒng)和數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)之之間的的有效效接口口第三代代系統(tǒng)統(tǒng)另外外還提提供數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)和和預(yù)言言模型型系統(tǒng)統(tǒng)之間間的有有效的的接口口目前,,隨著著新的的挖掘掘算法法的研研究和和開發(fā)發(fā),第第一代代數(shù)據(jù)據(jù)挖掘掘系統(tǒng)統(tǒng)仍然然會出出現(xiàn),,第二二代系系統(tǒng)是是商業(yè)業(yè)軟件件的主主流,,部分分第二二代系系統(tǒng)開開發(fā)商商開始始研制制相應(yīng)應(yīng)的第第三代代數(shù)據(jù)據(jù)挖掘掘系統(tǒng)統(tǒng),比比如IBMIntelligentScoreService。第四代代數(shù)據(jù)據(jù)挖掘掘原型型或商商業(yè)系系統(tǒng)尚尚未見見報導(dǎo)導(dǎo)第二代代數(shù)據(jù)據(jù)挖掘掘軟件件特點與數(shù)據(jù)據(jù)庫管管理系系統(tǒng)((DBMS))集成支持?jǐn)?shù)數(shù)據(jù)庫庫和數(shù)數(shù)據(jù)倉倉庫,,和它它們具具有高高性能能的接接口,,具有有高的的可擴(kuò)擴(kuò)展性性能夠挖挖掘大大數(shù)據(jù)據(jù)集、、以及及更復(fù)復(fù)雜的的數(shù)據(jù)據(jù)集通過支支持?jǐn)?shù)數(shù)據(jù)挖挖掘模模式((dataminingschema))和數(shù)據(jù)據(jù)挖掘掘查詢詢語言言增加加系統(tǒng)統(tǒng)的靈靈活性性典型的的系統(tǒng)統(tǒng)如DBMiner,能通過過DMQL挖掘語語言進(jìn)進(jìn)行挖挖掘操操作缺陷只注重重模型型的生生成,,如何何和預(yù)預(yù)言模模型系系統(tǒng)集集成導(dǎo)導(dǎo)致了了第三三代數(shù)數(shù)據(jù)挖挖掘系系統(tǒng)的的開發(fā)發(fā)數(shù)據(jù)挖挖掘軟軟件的的發(fā)展展數(shù)據(jù)挖挖掘軟軟件發(fā)發(fā)展經(jīng)經(jīng)歷了了三個個階段段獨立的的數(shù)據(jù)據(jù)挖掘掘軟件件橫向的的數(shù)據(jù)據(jù)挖掘掘工具具集縱向的的數(shù)據(jù)據(jù)挖掘掘解決決方案案GregoryPiatetsky-Shapiro的觀點點獨立的的數(shù)據(jù)據(jù)挖掘掘軟件件(95年年以前前)特點獨立的的數(shù)據(jù)據(jù)挖掘掘軟件件對應(yīng)應(yīng)第一一代系系統(tǒng),,出現(xiàn)現(xiàn)在數(shù)數(shù)據(jù)挖挖掘技技術(shù)發(fā)發(fā)展早早期,,研究究人員員開發(fā)發(fā)出一一種新新型的的數(shù)據(jù)據(jù)挖掘掘算法法,就就形成成一個個軟件件。這類軟軟件要要求用用戶對對具體體的算算法和和數(shù)據(jù)據(jù)挖掘掘技術(shù)術(shù)有相相當(dāng)?shù)牡牧私饨猓€還要負(fù)負(fù)責(zé)大大量的的數(shù)據(jù)據(jù)預(yù)處處理工工作。。比如如C4.5決策樹樹,平行坐坐標(biāo)可可視化化(parallel-coordinatevisualization)。。通用數(shù)數(shù)據(jù)挖挖掘軟軟件的的盛行行(95年開開始))發(fā)展原原因隨著數(shù)數(shù)據(jù)挖挖掘應(yīng)應(yīng)用的的發(fā)展展,人人們逐逐漸認(rèn)認(rèn)識到到數(shù)據(jù)據(jù)挖掘掘軟件件需要要和以以下三三個方方面緊緊密結(jié)結(jié)合::1))數(shù)據(jù)據(jù)庫和和數(shù)據(jù)據(jù)倉庫庫;2)多多種類類型的的數(shù)據(jù)據(jù)挖掘掘算法法;3)數(shù)數(shù)據(jù)清清洗、、轉(zhuǎn)換換等預(yù)預(yù)處理理工作作。隨著數(shù)數(shù)據(jù)量量的增增加,,需要要利用用數(shù)據(jù)據(jù)庫或或者數(shù)數(shù)據(jù)倉倉庫技技術(shù)進(jìn)進(jìn)行管管理,,所以以數(shù)據(jù)據(jù)挖掘掘系統(tǒng)統(tǒng)與數(shù)數(shù)據(jù)庫庫和數(shù)數(shù)據(jù)倉倉庫結(jié)結(jié)合是是自然然的發(fā)發(fā)展?!,F(xiàn)實領(lǐng)領(lǐng)域的的問題題是多多種多多樣的的,一一種或或少數(shù)數(shù)數(shù)據(jù)據(jù)挖掘掘算法法難以以解決決挖掘的的數(shù)據(jù)據(jù)通常常不符符合算算法的的要求求,需需要有有數(shù)據(jù)據(jù)清洗洗、轉(zhuǎn)轉(zhuǎn)換等等數(shù)據(jù)據(jù)預(yù)處處理的的配合合,才才能得得出有有價值值的模模型通用數(shù)數(shù)據(jù)挖挖掘工工具集集(95年年開始始)特點提供多多種數(shù)數(shù)據(jù)挖挖掘算算法包括數(shù)數(shù)據(jù)的的轉(zhuǎn)換換和可可視化化典型的的橫向向工具具有IBMIntelligentMinerSPSS的ClementineSAS的EnterpriseMinerSGI的MineSetOracleDarwin等第二代數(shù)據(jù)據(jù)挖掘軟件件DBMiner第二代軟件件SASEnterpriseMiner第三代軟件件SPSSClementine以PMML的格式提供供與預(yù)言模模型系統(tǒng)的的接口發(fā)展原因隨著橫向的的數(shù)據(jù)挖掘掘工具的使使用日漸廣廣泛,人們們也發(fā)現(xiàn)這這類工具只只有精通數(shù)數(shù)數(shù)據(jù)挖掘掘算法的專專家才能熟熟練使用,,如果對算算法不了解解,難以得得出好的模模型從1999年開始,,大量的數(shù)數(shù)據(jù)挖掘工工具研制者者開始提供供縱向的數(shù)數(shù)據(jù)挖掘解解決方案((VerticalSolution),即針對特定定的應(yīng)用提提供完整的的數(shù)據(jù)挖掘掘方案對于縱向的的解決方案案,數(shù)據(jù)挖挖掘技術(shù)的的應(yīng)用多數(shù)數(shù)還是為了了解決某些些特定的難難題,而嵌嵌入在應(yīng)用用系統(tǒng)中行業(yè)數(shù)據(jù)挖挖掘解決方方案(99年開始
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【《基于JAVA的心理健康咨詢系統(tǒng)的設(shè)計與實現(xiàn)》10000字(論文)】
- 【《銅陵市某220kv變電站電氣設(shè)計》12000字】
- 2026天津職業(yè)技術(shù)師范大學(xué)第三批招聘方案(高技能人才崗位)2人備考題庫有答案詳解
- 酒店保安員崗位責(zé)任制度
- 輔料以舊換新制度
- 課堂教學(xué)制度
- 鄉(xiāng)鎮(zhèn)臨床執(zhí)業(yè)助理醫(yī)師衛(wèi)生法規(guī)綜合考試題附答案
- 骨科住院醫(yī)師規(guī)培結(jié)業(yè)考試真題答案模擬題庫
- 稅法二考試題及答案
- 意大利文化考試題及答案
- 長沙股權(quán)激勵協(xié)議書
- 問卷星使用培訓(xùn)
- 心源性腦卒中的防治課件
- 2025年浙江輔警協(xié)警招聘考試真題含答案詳解(新)
- 果園合伙經(jīng)營協(xié)議書
- 節(jié)能技術(shù)咨詢合同范本
- 物業(yè)管理經(jīng)理培訓(xùn)課件
- 員工解除競業(yè)協(xié)議通知書
- 【語文】太原市小學(xué)一年級上冊期末試題(含答案)
- 儲能電站員工轉(zhuǎn)正述職報告
- DB3301∕T 0165-2018 城市照明設(shè)施養(yǎng)護(hù)維修服務(wù)標(biāo)準(zhǔn)
評論
0/150
提交評論