版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第1章緒論信息爆炸與大數(shù)據(jù)原始時期農(nóng)業(yè)社會工業(yè)社會2原子時代信息時代人類已進入一個嶄新的信息時代3信息社會計算機互聯(lián)網(wǎng)大數(shù)據(jù)感知智能……數(shù)據(jù)量呈現(xiàn)出指數(shù)增長的態(tài)勢4大數(shù)據(jù)的概念520世紀(jì)90年代,數(shù)據(jù)倉庫之父BillInmon,經(jīng)常提及BigData2011年5月,在“云計算相遇大數(shù)據(jù)”為主題的EMCWorld2011會議中,EMC拋出了BigData概念。所以,很多人認(rèn)為,2011年是大數(shù)據(jù)元年。大數(shù)據(jù)的特點數(shù)據(jù)的體量巨大6大數(shù)據(jù)的特點數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多7大數(shù)據(jù)的特點數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價值高,而價值密度卻較低8大數(shù)據(jù)的特點數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價值高,而價值密度卻較低數(shù)據(jù)產(chǎn)生速度快9大數(shù)據(jù)的概念10數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價值高,而價值密度卻較低數(shù)據(jù)產(chǎn)生速度快處理速度快大數(shù)據(jù)的特點數(shù)據(jù)的體量巨大數(shù)據(jù)類型繁多商業(yè)價值高,而價值密度卻較低數(shù)據(jù)產(chǎn)生速度快數(shù)據(jù)的真實性數(shù)據(jù)的波動性數(shù)據(jù)的復(fù)雜性11大數(shù)據(jù)的特點12大數(shù)據(jù)的特點13大數(shù)據(jù)的概念14體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。"大數(shù)據(jù)"的概念遠(yuǎn)不止大量的數(shù)據(jù)和處理大量數(shù)據(jù)的技術(shù),或者所謂的"4個V"之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力。"大數(shù)據(jù)"是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集。大量信息帶來問題信息過量,難以消化信息真假難以辨識信息安全難以保證信息形式不一致,難以統(tǒng)一處理大量信息帶來問題信息不處理就成為“信息垃圾”各行業(yè)各領(lǐng)域政府、企業(yè)等組織也滋生出信息處理、數(shù)據(jù)處理的需求提升管理提升服務(wù)提升競爭力16商業(yè)企業(yè)要處理信息大量數(shù)據(jù)被收集、存儲在數(shù)據(jù)庫\數(shù)據(jù)倉庫中Web數(shù)據(jù),電子商務(wù)商場,實體店銀行/信用卡業(yè)務(wù)數(shù)據(jù)競爭壓力越來越大提供更好的、更為突出的個性化服務(wù)(例如CRM)計算機越來越便宜,功能越來越強大17科研院所要處理信息數(shù)據(jù)以極快的速度收集和存儲(GB/hour)衛(wèi)星上的遠(yuǎn)程傳感器射電望遠(yuǎn)鏡空間掃描產(chǎn)生基因表達數(shù)據(jù)的微陣列科學(xué)仿真(產(chǎn)生以TB計的數(shù)據(jù)量)數(shù)據(jù)挖掘可能幫助科學(xué)家進行數(shù)據(jù)的分類和劃分生成假設(shè)傳統(tǒng)的技術(shù)難以處理這些海量原始數(shù)據(jù)18金融機構(gòu)要處理信息積累了海量的業(yè)務(wù)數(shù)據(jù)互聯(lián)網(wǎng)金融業(yè)務(wù)銀行卡/信用卡交易數(shù)據(jù)國民經(jīng)濟運行數(shù)據(jù)通過數(shù)據(jù)處理和應(yīng)用,完成電信欺詐預(yù)警反洗錢個性化服務(wù)19信息處理的理論與技術(shù)發(fā)展數(shù)據(jù)庫技術(shù)與系統(tǒng)可以高效地實現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢20隨著數(shù)據(jù)庫技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來越多;海量數(shù)據(jù)被收集、存放在大型數(shù)據(jù)庫中,且呈快速增長的趨勢;如果不進行處理和利用,則成為“數(shù)據(jù)墳?zāi)埂?。信息處理的理論與技術(shù)發(fā)展專家系統(tǒng)由于專家系統(tǒng)工具過分依賴用戶或?qū)<胰斯さ貙⒅R輸入知識庫中,而且分析結(jié)果往往帶有偏差和錯誤,再加上耗時、費用高,故不可行。21專家系統(tǒng):智能計算機程序系統(tǒng),管理大量的某領(lǐng)域?qū)<宜降闹R與經(jīng)驗,能夠利用人類專家的知識和解決問題的方法來處理該領(lǐng)域問題。專家系統(tǒng)是一個具有大量的專門知識與經(jīng)驗的程序系統(tǒng),應(yīng)用人工智能技術(shù)和計算機技術(shù),根據(jù)某領(lǐng)域一個或多個專家提供的知識和經(jīng)驗,進行推理和判斷,模擬人類專家的決策過程,以便解決那些需要人類專家處理的復(fù)雜問題,簡而言之,專家系統(tǒng)是一種模擬人類專家解決領(lǐng)域問題的計算機程序系統(tǒng)。信息處理的理論與技術(shù)發(fā)展KDD(KnowledgeDiscoveryinDatabase)從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程22數(shù)據(jù)礦山信息金塊數(shù)據(jù)挖掘工具信息處理的理論與技術(shù)發(fā)展KDD的發(fā)展23基于數(shù)據(jù)庫的知識發(fā)現(xiàn)(KDD)一詞首次出現(xiàn)在國際人工智能聯(lián)合大會IJCAI-89Workshop上。19891995第一屆KDD國際學(xué)術(shù)會議(KDD’95)加拿大蒙特利爾召開1997第一本學(xué)術(shù)刊物《KnowledgeDiscoveryandDataMining》創(chuàng)刊KluwersPublishers出版信息處理的理論與技術(shù)發(fā)展KDD的內(nèi)容數(shù)據(jù)分類數(shù)據(jù)聚類衰退和預(yù)報關(guān)聯(lián)和相關(guān)性順序發(fā)現(xiàn)描述和辨別時間序列分析24信息處理的理論與技術(shù)發(fā)展KDD的過程問題的理解和定義相關(guān)數(shù)據(jù)收集和提取數(shù)據(jù)探索和清理數(shù)據(jù)工程算法選擇運行數(shù)據(jù)挖掘算法結(jié)果的評價25信息處理的理論與技術(shù)發(fā)展KDD也會被稱為數(shù)據(jù)挖掘(datamining)知識抽?。╥nformationextraction)信息發(fā)現(xiàn)(informationdiscovery)智能數(shù)據(jù)分析(intelligentdataanalysis)探索式數(shù)據(jù)分析(exploratorydataanalysis)信息收獲(Informationharvesting)數(shù)據(jù)考古(dataarchaeology)26KDDvs數(shù)據(jù)挖掘數(shù)據(jù)挖掘是KDD過程的一個基本步驟包括特定的從數(shù)據(jù)庫中發(fā)現(xiàn)模式的挖掘算法KDD過程使用數(shù)據(jù)挖掘算法根據(jù)特定的度量方法和閾值從數(shù)據(jù)庫中提取或識別出知識包括對數(shù)據(jù)庫的預(yù)處理、樣本劃分和數(shù)據(jù)變換。27商業(yè)數(shù)據(jù)到商業(yè)信息的進化
進化階段商業(yè)問題支持技術(shù)產(chǎn)品廠家產(chǎn)品特點數(shù)據(jù)搜集
(60年代)過去五年中我的總收入是多少?計算機、磁帶和磁盤IBMCDC提供歷史性的、靜態(tài)的數(shù)據(jù)信息數(shù)據(jù)訪問
(80年代)在新英格蘭的分部去年三月的銷售額是多少?關(guān)系數(shù)據(jù)庫(RDBMS)結(jié)構(gòu)化查詢語言(SQL)ODBCOracleSybaseInformixIBMMicrosoft在記錄級提供歷史性的、動態(tài)數(shù)據(jù)信息數(shù)據(jù)倉庫決策支持
(90年代)在新英格蘭的分部去年三月的銷售額是多少?波士頓據(jù)此可得出什么結(jié)論?聯(lián)機分析處理(OLAP)多維數(shù)據(jù)庫數(shù)據(jù)倉庫PilotComshareArborCognosMicrostrategy在各種層次上提供回溯的、動態(tài)的數(shù)據(jù)信息數(shù)據(jù)挖掘
(正在流行)下個月波士頓的銷售會怎么樣?為什么?高級算法多處理器計算機海量數(shù)據(jù)庫PilotLockheedIBMSGI其他初創(chuàng)公司提供預(yù)測性的信息數(shù)據(jù)挖掘的發(fā)展趨勢視頻和音頻數(shù)據(jù)挖掘科學(xué)和統(tǒng)計數(shù)據(jù)挖掘數(shù)據(jù)挖掘的應(yīng)用探索可伸縮的數(shù)據(jù)挖掘方法數(shù)據(jù)挖掘與數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫和Web數(shù)據(jù)庫系統(tǒng)的集成數(shù)據(jù)挖掘語言的標(biāo)準(zhǔn)化可視化數(shù)據(jù)挖掘復(fù)雜數(shù)據(jù)類型挖掘的方法Web挖掘數(shù)據(jù)挖掘中的隱私保護與信息安全end30數(shù)據(jù)挖掘的產(chǎn)生:數(shù)據(jù)vs信息隨著大數(shù)據(jù)庫的建立和海量數(shù)據(jù)的不斷涌現(xiàn),必然提出對強有力的數(shù)據(jù)分析工具的迫切需求。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象,也就是現(xiàn)實情況的“數(shù)據(jù)十分豐富,而信息相當(dāng)貧乏”。需要從海量數(shù)據(jù)庫和大量繁雜信息中提取有價值的知識,進一步提高信息的利用率挖掘大型數(shù)據(jù)集:動機常常有些信息“隱藏”在數(shù)據(jù)中,并非顯而易見的人分析需要數(shù)周\數(shù)月,才能發(fā)現(xiàn)有用的信息許多數(shù)據(jù)根本未曾分析過32TheDataGapKDD、DM出現(xiàn)產(chǎn)生了一個新的研究方向:基于數(shù)據(jù)庫的知識發(fā)現(xiàn)KDD(KnowledgeDiscoveryinDatabase),以及相應(yīng)的數(shù)據(jù)挖掘DM(DataMining)理論和技術(shù)的研究KDD已成為人工智能研究熱點目前,關(guān)于KDD的研究工作已經(jīng)被眾多領(lǐng)域所關(guān)注,如過程控制、信息管理、商業(yè)、醫(yī)療、金融等領(lǐng)域。作為大規(guī)模數(shù)據(jù)庫中先進的數(shù)據(jù)分析工具,KDD的研究已經(jīng)成為數(shù)據(jù)庫及人工智能領(lǐng)域研究的一個熱點。發(fā)展:數(shù)據(jù)挖掘的發(fā)展過程1988ExpertSystems19951990ExpertSystems2004……數(shù)據(jù)挖掘界簡史1989IJCAIWorkshoponKnowledgeDiscoveryinDatabases(Piatetsky-Shapiro)KnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD’95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD’1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,etc.36第1章緒論什么是數(shù)據(jù)挖掘數(shù)據(jù)挖掘的定義商業(yè)應(yīng)用角度數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)處理技術(shù)角度(本書定義)數(shù)據(jù)挖掘(DataMining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程38許多不同定義數(shù)據(jù)挖掘的定義JiaWeiHan的定義從大型數(shù)據(jù)集中提取有趣的(非平凡的,蘊涵的,先前未知的并且是潛在有用的)信息或模式其他定義在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。Exploration&analysis,byautomaticorsemi-automaticmeans,oflargequantitiesofdatainordertodiscovermeaningfulpatternsNon-trivialextractionofimplicit,previouslyunknownandpotentiallyusefulinformationfromdata39數(shù)據(jù)挖掘de定義數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識。類似但不完全相同的術(shù)語:從數(shù)據(jù)庫中發(fā)現(xiàn)知識(KDD)知識提?。↘nowledgeextract)數(shù)據(jù)/模式分析(Data/Modelanalysis)數(shù)據(jù)考古數(shù)據(jù)捕撈數(shù)據(jù)挖掘de特點數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物數(shù)據(jù)挖掘統(tǒng)計學(xué)數(shù)據(jù)庫技術(shù)可視化高性能計算機器學(xué)習(xí)人工智能、模式識別統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗數(shù)據(jù)庫系統(tǒng)提供有效的存儲、索引和查詢處理支持可視化算法和高性能計算(最優(yōu)化、進化計算)機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論人工智能、模式識別和分布式技術(shù)也能幫助處理海量數(shù)據(jù)信息論、信號處理、可視化和信息檢索數(shù)據(jù)挖掘de特點數(shù)據(jù)挖掘是多技術(shù)的產(chǎn)物數(shù)據(jù)挖掘模式識別算法應(yīng)用信息檢索數(shù)據(jù)倉庫異常檢測概念區(qū)分?jǐn)?shù)據(jù)挖掘vs知識發(fā)現(xiàn)數(shù)據(jù)挖掘vs聯(lián)機分析OLAP數(shù)據(jù)挖掘vs統(tǒng)計學(xué)數(shù)據(jù)挖掘vs數(shù)據(jù)倉庫數(shù)據(jù)挖掘vs數(shù)據(jù)分析數(shù)據(jù)挖掘vs知識發(fā)現(xiàn)數(shù)據(jù)挖掘(DataMining)知識發(fā)現(xiàn)(KDD)從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。是用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學(xué)習(xí)的方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后隱藏的知識,稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)。數(shù)據(jù)挖掘vs知識發(fā)現(xiàn)KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程45數(shù)據(jù)挖掘vs聯(lián)機分析處理OLAPOLAP-聯(lián)機分析處理,是一種軟件技術(shù),可使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數(shù)據(jù)的目的。具有共享多維信息的快速分析的特征。數(shù)據(jù)挖掘vs聯(lián)機分析OLAPOLAP分析過程在本質(zhì)上是一個演繹推理的過程,是決策支持領(lǐng)域的一部分用戶首先建立一個假設(shè),然后用OLAP檢索數(shù)據(jù)庫來驗證這個假設(shè)是否正確傳統(tǒng)的查詢和報表工具是告訴你數(shù)據(jù)庫中都有什么(whathappened)OLAP則更進一步告訴你下一步會怎么樣(Whatnext)和如果采取這樣的措施又會怎么樣(Whatif)數(shù)據(jù)挖掘vs聯(lián)機分析OLAP數(shù)據(jù)挖掘在本質(zhì)上是一個歸納推理的過程與OLAP不同的地方是,數(shù)據(jù)挖掘不是用于驗證某個假定的模式(模型)的正確性,而是在數(shù)據(jù)庫中自己尋找模型。數(shù)據(jù)挖掘和OLAP具有一定的互補性。在利用數(shù)據(jù)挖掘出來的結(jié)論采取行動之前,OLAP工具能起輔助決策作用。而且在知識發(fā)現(xiàn)的早期階段,OLAP工具用來探索數(shù)據(jù),找到哪些是對一個問題比較重要的變量,發(fā)現(xiàn)異常數(shù)據(jù)和互相影響的變量。這都有助于更好地理解數(shù)據(jù),加快知識發(fā)現(xiàn)的過程。數(shù)據(jù)挖掘vs統(tǒng)計學(xué)數(shù)據(jù)挖掘利用了統(tǒng)計分析的進步所帶來的好處。這兩門學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析技術(shù)。相反,它是統(tǒng)計分析方法學(xué)的延伸和擴展。數(shù)據(jù)挖掘vs統(tǒng)計學(xué)統(tǒng)計分析技術(shù)基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測的準(zhǔn)確度令人滿意的,但對使用者的要求很高隨著計算機技術(shù)發(fā)展,可以利用計算機強大的計算能力,結(jié)合相對簡單和固定的方法完成同樣的功能在數(shù)據(jù)挖掘領(lǐng)域,促進了新的數(shù)據(jù)處理技術(shù)的發(fā)明和應(yīng)用人工神經(jīng)網(wǎng)絡(luò)、支持向量機……如果數(shù)據(jù)充分和計算能力強大,可自動完成處理,得出結(jié)論數(shù)據(jù)挖掘vs統(tǒng)計學(xué)數(shù)據(jù)挖掘就是充分利用了統(tǒng)計學(xué)應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來,使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問題。數(shù)據(jù)挖掘分析海量數(shù)據(jù)許多數(shù)據(jù)庫都不適合統(tǒng)計學(xué)分析需要數(shù)據(jù)挖掘vs數(shù)據(jù)倉庫數(shù)據(jù)倉庫(DataWarehouse),是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。單個數(shù)據(jù)存儲,為分析性報告和決策支持目的而建,為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進、監(jiān)視時間、成本、質(zhì)量以及控制。數(shù)據(jù)挖掘vs數(shù)據(jù)倉庫數(shù)據(jù)源數(shù)據(jù)倉庫各分公司數(shù)據(jù)集市分析數(shù)據(jù)集市數(shù)據(jù)挖掘數(shù)據(jù)集市數(shù)據(jù)挖掘vs數(shù)據(jù)倉庫外部數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)系統(tǒng)文檔資料數(shù)據(jù)源抽取
清理裝載
刷新數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)集市數(shù)據(jù)存儲與管理元數(shù)據(jù)管理服務(wù)數(shù)據(jù)分析數(shù)據(jù)報表數(shù)據(jù)挖掘OLAP服務(wù)器前端應(yīng)用數(shù)據(jù)挖掘vs數(shù)據(jù)倉庫不必為了數(shù)據(jù)挖掘非得建立數(shù)據(jù)倉庫,它不是必需的建立一個龐大的數(shù)據(jù)倉庫,是一項巨大的工程把各個不同源的數(shù)據(jù)統(tǒng)一在一起解決所有的數(shù)據(jù)沖突問題然后把所有的數(shù)據(jù)導(dǎo)到一個數(shù)據(jù)倉庫內(nèi)可能要用幾年的時間花上百萬的錢才能完成??梢园岩粋€或幾個事務(wù)數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集市,以此進行數(shù)據(jù)挖掘小結(jié)數(shù)據(jù)挖掘是一個綜合的、復(fù)雜的、需要運用各種技術(shù)的、與管理和業(yè)務(wù)相關(guān)的過程56第1章緒論數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘de任務(wù):分類和預(yù)測1)定義分類(classification):是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測類標(biāo)記未知的對象的過程。注:導(dǎo)出模型(或函數(shù))是基于對訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對象)的分析。2)分類模型的導(dǎo)出方式分類規(guī)則(IF-THEN)、決策樹、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。3)相關(guān)分析(relevanceanalysis)一般情況下,相關(guān)分析需要在分類和預(yù)測之前進行,它試圖識別對于分類和預(yù)測無用的屬性,且這些屬性應(yīng)被排除。數(shù)據(jù)挖掘de任務(wù):分類定義給定一批記錄----訓(xùn)練集(trainingset)Eachrecordcontainsasetofattributes,oneoftheattributesistheclasslabel(類標(biāo)號).任務(wù):建立一個模型(model)類標(biāo)號屬性是其他屬性值的函數(shù)目標(biāo):previouslyunseenrecordsshouldbeassignedaclassasaccuratelyaspossible.Atestset(檢驗集)isusedtodeterminetheaccuracyofthemodel.Usually,thegivendatasetisdividedintotrainingandtestsets,withtrainingsetusedtobuildthemodelandtestsetusedtovalidateit59分類:例子60categoricalcategoricalcontinuousclassTestSetTrainingSetModelLearnClassifier分類:應(yīng)用1DirectMarketingGoal:Reducecostofmailingbytargetingasetofconsumerslikelytobuyanewcell-phoneproduct.Approach:Usethedataforasimilarproductintroducedbefore.Weknowwhichcustomersdecidedtobuyandwhichdecidedotherwise.This{buy,don’tbuy}decisionformstheclassattribute.Collectvariousdemographic,lifestyle,andcompany-interactionrelatedinformationaboutallsuchcustomers.Typeofbusiness,wheretheystay,howmuchtheyearn,etc.Usethisinformationasinputattributestolearnaclassifiermodel.61分類:應(yīng)用2FraudDetectionGoal:Predictfraudulentcasesincreditcardtransactions.Approach:Usecreditcardtransactionsandtheinformationonitsaccount-holderasattributes.Whendoesacustomerbuywhatdoeshebuyhowoftenhepaysontime,etcLabelpasttransactionsasfraudorfairtransactions.Thisformstheclassattribute.Learnamodelfortheclassofthetransactions.Usethismodeltodetectfraudbyobservingcreditcardtransactionsonanaccount.62分類:應(yīng)用3SkySurveyCatalogingGoal:Topredictclass(starorgalaxy)ofskyobjects,especiallyvisuallyfaintones,basedonthetelescopicsurveyimages(fromPalomarObservatory).3000imageswith23,040x23,040pixelsperimage.Approach:Segmenttheimage.Measureimageattributes(features)-40ofthemperobject.Modeltheclassbasedonthesefeatures.SuccessStory:Couldfind16newhighred-shiftquasars,someofthefarthestobjectsthataredifficulttofind!63分類:應(yīng)用364Attributes:Imagefeatures,Characteristicsoflightwavesreceived,etc.EarlyIntermediateLateDataSize:72millionstars,20milliongalaxiesObjectCatalog:9GBImageDatabase:150GB
Class:StagesofFormationCourtesy:決策樹決策樹提供了一種展示類似“在什么條件下會得到什么值”這類規(guī)則的方法。比如,在貸款申請中,要對申請的風(fēng)險大小做出判斷,為了解決這個問題而建立的一棵決策樹,從中我們可以看到?jīng)Q策樹的基本組成部分:決策節(jié)點、分支和葉子。決策樹中最上面的節(jié)點稱為根節(jié)點,是整個決策樹的開始。決策樹決策樹是一個類似樹形結(jié)構(gòu)的流程圖,每個內(nèi)部節(jié)點表明在一個屬性上的測試,樹枝描述測試結(jié)果,葉子節(jié)點指明分類或分類的分布情況。構(gòu)造決策樹的方法采用自上而下遞歸的方式,如果訓(xùn)練例子集合中的所有例子是同類的,就將其作為一個葉子節(jié)點,節(jié)點內(nèi)容為該類別的標(biāo)記。
否則,根據(jù)某種策略確定一個測試屬性,并按屬性的各種取值把實例集合劃分為若干個子集合,使每個子集上的所有實例在該屬性上具有相同的屬性值。
然后,再依次遞歸處理各個子集,直到得到滿意的分類屬性為止。
決策樹數(shù)據(jù)挖掘de任務(wù):聚類分析1)定義聚類(clustering):與分類和預(yù)測不同,它主要分析數(shù)據(jù)對象,而不考慮已知的類標(biāo)記。一般情況下,訓(xùn)練數(shù)據(jù)中不提供類標(biāo)記,因為不知道從何開始。聚類可以用于產(chǎn)生這種標(biāo)記。2)聚類或分組的原則“最大化類內(nèi)的相似性、最小化類間的相似性”對象的簇(聚類)的形成辦法為:使得在一個簇中的對象具有很高的相似性,而與其它簇中的對象很不相似。所形成的每個簇可以看作一個對象類,由它可以導(dǎo)出規(guī)則。聚類(Clustering)
聚類(Clustering)是將物理或抽象的對象集合分成多個組的過程,聚類生成的組稱為簇(Cluster),即簇是數(shù)據(jù)對象的集合。聚類就是要讓生成的簇內(nèi)部的任意兩個對象之間具有較高的相似度,而屬于不同簇的兩個對象間具有較高的相異度。
聚類IntraclusterdistancesareminimizedInterclusterdistancesaremaximized聚類分析從統(tǒng)計學(xué)的觀點看,聚類分析是對數(shù)據(jù)建模,從而簡化數(shù)據(jù)的一種方法,作為多元統(tǒng)計分析的主要分支之一,聚類分析已被研究了很多年,主要集中在基于距離和基于相似度的聚類方法。從機器學(xué)習(xí)的觀點看,簇相當(dāng)于隱藏模式,聚類是搜索簇的無監(jiān)督學(xué)習(xí)過程。從實際應(yīng)用的角度看,聚類分析是數(shù)據(jù)挖掘的主要任務(wù)之一。數(shù)據(jù)挖掘領(lǐng)域主要研究面向大型數(shù)據(jù)庫、數(shù)據(jù)倉庫的高效和實用的聚類分析算法。聚類分析主要的數(shù)據(jù)挖掘聚類方法有:劃分的方法、層次的方法、基于密度的方法、基于網(wǎng)格的方法、基于模型的方法等。聚類:定義給定一組具有多個屬性的數(shù)據(jù)點,以及點與點的相似性衡量方法,則聚類即為使同一個簇中的點較與其他簇中的點更相似不同簇中的點比同一個簇中的點的相似性更弱相似性測度:歐幾里得距離(對于連續(xù)屬性)其他針對不同問題的測度方法73聚類:應(yīng)用1MarketSegmentation:Goal:subdivideamarketintodistinctsubsetsofcustomerswhereanysubsetmayconceivablybeselectedasamarkettargettobereachedwithadistinctmarketingmix.Approach:Collectdifferentattributesofcustomersbasedontheirgeographicalandlifestylerelatedinformation.Findclustersofsimilarcustomers.Measuretheclusteringqualitybyobservingbuyingpatternsofcustomersinsameclustervs.thosefromdifferentclusters.74聚類:應(yīng)用2DocumentClustering:Goal:Tofindgroupsofdocumentsthataresimilartoeachotherbasedontheimportanttermsappearinginthem.Approach:Toidentifyfrequentlyoccurringtermsineachdocument.Formasimilaritymeasurebasedonthefrequenciesofdifferentterms.Useittocluster.Gain:
InformationRetrievalcanutilizetheclusterstorelateanewdocumentorsearchtermtoclustereddocuments75文檔聚類:例ClusteringPoints:3204ArticlesofLosAngelesTimes.SimilarityMeasure:Howmanywordsarecommoninthesedocuments(aftersomewordfiltering).76CategoryTotalArticlesCorrectlyPlacedFinancial555364Foreign341260National27336Metro943746Sports738573Entertainment354278數(shù)據(jù)挖掘de任務(wù):關(guān)聯(lián)分析:定義用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式,所發(fā)現(xiàn)的模式通常用蘊涵規(guī)則或特征子集的形式表示。由于搜索空間是指數(shù)規(guī)模的,關(guān)聯(lián)分析的目標(biāo)是以有效的方式提取最有趣的模式;找出具有相關(guān)功能的基因組、識別一起訪問的Web頁面、理解地球氣候系統(tǒng)不同元素之間的聯(lián)系.RulesDiscovered:
{Diaper}-->{Milk}{Diaper,Milk}-->{Beer}關(guān)聯(lián)規(guī)則:定義關(guān)聯(lián)規(guī)則(associationrule)Givenasetofrecordseachofwhichcontainsomenumberofitemsfromagivencollection;Producedependencyruleswhichwillpredictoccurrenceofitemsbasedonoccurrencesofotheritems.78RulesDiscovered:
{Milk}-->{Coke}
{Diaper,Milk}-->{Beer}關(guān)聯(lián)規(guī)則:應(yīng)用1MarketingandSalesPromotion:Lettherulediscoveredbe
{Bagels,…}
-->
{PotatoChips}PotatoChips
asconsequent=>Canbeusedtodeterminewhatshouldbedonetoboostitssales.Bagelsintheantecedent=>Canbeusedtoseewhichproductswouldbeaffectedifthestorediscontinuessellingbagels.Bagelsinantecedent
and
Potatochipsinconsequent
=>CanbeusedtoseewhatproductsshouldbesoldwithBagelstopromotesaleofPotatochips!79關(guān)聯(lián)規(guī)則:應(yīng)用2Supermarketshelfmanagement.Goal:Toidentifyitemsthatareboughttogetherbysufficientlymanycustomers.Approach:Processthepoint-of-saledatacollectedwithbarcodescannerstofinddependenciesamongitems.Aclassicrule--Ifacustomerbuysdiaperandmilk,thenheisverylikelytobuybeer.So,don’tbesurprisedifyoufindsix-packsstackednexttodiapers!80異常檢測識別特征顯著不同于其他數(shù)據(jù)的觀測值應(yīng)用:檢測欺詐網(wǎng)絡(luò)攻擊疾病的不尋常模式生態(tài)系統(tǒng)擾動異常檢測82異常檢測83異常檢測任務(wù):識別其特征顯著不同于其他數(shù)據(jù)的觀測值這樣的觀測值稱為異常點(anomaly)或離群點(outlier)發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標(biāo)注為異常點應(yīng)用信用卡欺詐檢測網(wǎng)絡(luò)入侵檢測84人工神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因為它為解決大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個參數(shù)的。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。支持向量機需特別指出的是,在一般情況下,統(tǒng)計學(xué)習(xí)理論和支持向量機(SVM)比一般的神經(jīng)網(wǎng)絡(luò)更有效,而且可將SVM看作是廣義化的神經(jīng)網(wǎng)絡(luò)。其優(yōu)點是,具有深厚的數(shù)學(xué)基礎(chǔ),算法可靠、推廣能力強,適用于小樣本數(shù)據(jù)集的知識(或規(guī)則)發(fā)現(xiàn)。數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)庫分析和決策支持市場分析和管理針對銷售(targetmarketing),顧客關(guān)系管理,購物籃分析,交叉銷售(crossselling),市場分割(marketsegmentation)風(fēng)險分析與管理預(yù)測,顧客關(guān)系,改進保險,質(zhì)量控制,競爭能力分析欺騙檢測與管理其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘.DNA數(shù)據(jù)分析87市場分析與管理(1)用于分析的數(shù)據(jù)源在哪?信用卡交易,會員卡,打折優(yōu)惠卷,顧客投訴電話,(公共)生活時尚研究針對銷售(Targetmarketing)找出顧客群,他們具有相同特征:興趣,收入水平,消費習(xí)慣,等.確定顧客隨時間變化的購買模式個人帳號到聯(lián)合帳號的轉(zhuǎn)變:結(jié)婚,等.交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測88市場分析與管理(2)顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)識別顧客需求對不同的顧客識別最好的產(chǎn)品使用預(yù)測發(fā)現(xiàn)什么因素影響新顧客提供匯總信息各種多維匯總報告統(tǒng)計的匯總信息(數(shù)據(jù)的中心趨勢和方差)89法人分析和風(fēng)險管理財經(jīng)規(guī)劃和資產(chǎn)評估現(xiàn)金流分析和預(yù)測臨時提出的資產(chǎn)評估交叉組合(cross-sectional)和時間序列分析(金融比率(financial-ratio),趨勢分析,等.)資源規(guī)劃:資源與開銷的匯總與比較競爭:管理競爭者和市場指導(dǎo)對顧客分類和基于類的定價在高度競爭的市場調(diào)整價格策略90欺騙檢測和管理(1)應(yīng)用廣泛用于健康照料,零售,信用卡服務(wù),電訊(電話卡欺騙),等.方法使用歷史數(shù)據(jù)建立欺騙行為模型,使用數(shù)據(jù)挖掘幫助識別類似的實例例汽車保險:檢測這樣的人,他/她假造事故騙取保險賠償洗錢:檢測可疑的金錢交易(USTreasury'sFinancialCrimesEnforcementNetwork)醫(yī)療保險:檢測職業(yè)病患者,醫(yī)生和介紹人圈91欺騙檢測和管理(2)檢測不適當(dāng)?shù)尼t(yī)療處置澳大利亞健康保險會(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請求做的,而不是實際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識別頻繁內(nèi)部通話的呼叫者的離散群,特別是移動電話,超過數(shù)百萬美元的欺騙.零售分析家估計,38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.92第1章緒論數(shù)據(jù)挖掘的應(yīng)用數(shù)據(jù)挖掘的應(yīng)用市場分析與管理數(shù)據(jù)集及來源產(chǎn)品的生產(chǎn)和銷售數(shù)據(jù)電商網(wǎng)頁的訪問和點擊數(shù)據(jù)信用卡交易會員卡打折優(yōu)惠卷顧客投訴(公共)生活時尚研究94-生產(chǎn)與商務(wù)領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用市場分析與管理目標(biāo)營銷(targetmarketing)由興趣,收入水平,消費習(xí)慣等確定顧客群,進行精準(zhǔn)營銷購物籃分析啤酒尿布案例確定顧客隨時間變化的購買模式個人帳號到聯(lián)合帳號的轉(zhuǎn)變:結(jié)婚等交叉銷售分析(Cross-marketanalysis)產(chǎn)品銷售之間的關(guān)聯(lián)/相關(guān)基于關(guān)聯(lián)信息的預(yù)測95-生產(chǎn)與商務(wù)領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用市場分析與管理識別顧客需求對不同的顧客識別最好的產(chǎn)品使用預(yù)測發(fā)現(xiàn)什么因素影響新顧客顧客關(guān)系管理CRM市場分割(marketsegmentation)顧客分類(Customerprofiling)數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買什么產(chǎn)品(聚類或分類)96-生產(chǎn)與商務(wù)領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用市場分析與管理提供匯總信息各種多維匯總報告統(tǒng)計的匯總信息(數(shù)據(jù)的中心趨勢和方差)97-生產(chǎn)與商務(wù)領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用市場分析與管理風(fēng)險分析與管理風(fēng)險分析與預(yù)測改進保險業(yè)務(wù)的品種和細(xì)則生產(chǎn)過程及產(chǎn)品的質(zhì)量控制企業(yè)和行業(yè)的競爭能力分析98-生產(chǎn)與商務(wù)領(lǐng)域數(shù)據(jù)挖掘的應(yīng)用市場分析與管理風(fēng)險分析與管理欺騙檢測與管理汽車保險:檢測這樣的人,他/她假造事故騙取保險賠償洗錢:檢測可疑的金錢交易(USTreasury'sFinancialCrimesEnforcementNetwork)醫(yī)療保險:檢測職業(yè)病患者,醫(yī)生和介紹人圈99-生產(chǎn)與商務(wù)領(lǐng)域檢測不適當(dāng)?shù)尼t(yī)療處置澳大利亞健康保險會(AustralianHealthInsuranceCommission)發(fā)現(xiàn)許多全面的檢查是請求做的,而不是實際需要的(每年節(jié)省100萬澳元).檢測電話欺騙電話呼叫模式:通話距離,通話時間,每天或每周通話次數(shù).分析偏離期望的模式.英國電訊(BritishTelecom)識別頻繁內(nèi)部通話的呼叫者的離散群,特別是移動電話,超過數(shù)百萬美元的欺騙.零售分析家估計,38%的零售業(yè)萎縮是由于不忠誠的雇員造成的.數(shù)據(jù)挖掘的應(yīng)用市場分析與管理風(fēng)險分析與管理欺騙檢測與管理企業(yè)運營與管理財經(jīng)規(guī)劃和資產(chǎn)評估資源規(guī)劃競爭100-生產(chǎn)與商務(wù)領(lǐng)域其它應(yīng)用文本挖掘(新聞組,email,文檔資料)流數(shù)據(jù)挖掘(Streamdatamining)Web挖掘DNA數(shù)據(jù)分析101案例
-電信行業(yè)客戶關(guān)系管理客戶消費模式分析客戶市場推廣分析客戶欠費分析和動態(tài)防欺詐客戶流失分析102案例
-金融企業(yè)應(yīng)用CredilogrosCíaFinancieraS.A.阿根廷第五大信貸公司,資產(chǎn)估計價值為9570萬美元。一項重要工作就是識別與潛在預(yù)付款客戶相關(guān)的潛在風(fēng)險,以便將承擔(dān)的風(fēng)險最小化。搭建信貸申請系統(tǒng)公司核心系統(tǒng)+信用報告公司系統(tǒng)交互的決策引擎來處理信貸申請低收入客戶群體的風(fēng)險評分工具整合數(shù)據(jù)挖掘軟件SPSSModeler,快速處理Credilogros平均每月使用該系統(tǒng)處理35000份申請,僅在3個月后就將貸款失誤減少了20%103案例-物流企業(yè)幫助DHL實時跟蹤貨箱溫度DHL是國際快遞和物流企業(yè)美國FDA要求,藥品運送裝運溫度必須達到標(biāo)準(zhǔn)遞送各個階段實時跟蹤集裝箱的溫度對于最終客戶來說,能夠使醫(yī)藥客戶對運送過程中出現(xiàn)的裝運問題提前做出響應(yīng)以較低的成本全面切實地增強了運送可靠性,提高了客戶滿意度和忠實度為保持競爭差異奠定堅實的基礎(chǔ),成為重要的新的收入增長來源104GUS日用品零售商店需要準(zhǔn)確的預(yù)測未來的商品銷售量,降低庫存成本。。。。。。通過數(shù)據(jù)挖掘的方法使庫存成本比原來減少了3.8%應(yīng)用:零售商店美國國內(nèi)稅務(wù)局需要提高對納稅人的服務(wù)水平……合理安排稅務(wù)官的工作,為納稅人提供更迅捷、更準(zhǔn)確的服務(wù)應(yīng)用:稅務(wù)局匯豐銀行需要對不斷增長的客戶群進行分類,對每種產(chǎn)品找出最有價值的客戶……營銷費用減少了30%應(yīng)用:銀行應(yīng)用:競技運動美國NBA教練利用IBM公司提供的IBMAdvancedScout數(shù)據(jù)挖掘工具,分析NBA的統(tǒng)計數(shù)據(jù)(阻擋投籃,助攻,和犯規(guī)),臨場決定替換隊員,獲得了對紐約小牛隊和邁艾米熱隊的競爭優(yōu)勢數(shù)據(jù)挖掘揭示13個隱藏的NBA球員位置應(yīng)用:天文借助于數(shù)據(jù)挖掘的幫助,JPL和PalomarObservatory發(fā)現(xiàn)了22顆類星體(quasars)109JPL(JetPropulsionLaboratory)是位于加州帕薩迪那美國國家航空航天局的一個下屬機構(gòu),負(fù)責(zé)為NASA開發(fā)和管理無人空間探測任務(wù)。PalomarObservatory(帕洛馬山天文臺)位于美國加州圣地亞哥的帕洛馬山的山頂,海拔1706米,于1928年建立。著名的蘇梅克-列維9號彗星就是在此發(fā)現(xiàn)的,與威爾遜天文臺合稱海爾天文臺。應(yīng)用:生物信息生物信息或基因數(shù)據(jù)挖掘基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正?;颍窟@都需要數(shù)據(jù)挖掘技術(shù)的支持。應(yīng)用:生物信息生物信息或基因的數(shù)據(jù)挖掘,在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法上,都非常復(fù)雜從分析算法上講,更需要一些新的和好的算法正在研究,尚未成熟第1章緒論數(shù)據(jù)挖掘的系統(tǒng)結(jié)構(gòu)與技術(shù)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)113數(shù)據(jù)庫數(shù)據(jù)清洗和集成過濾數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器數(shù)據(jù)挖掘引擎模式評價圖形用戶接口數(shù)據(jù)倉庫知識庫數(shù)據(jù)挖掘技術(shù)預(yù)測(Prediction)根據(jù)其他屬性的值,預(yù)測特定屬性的值描述(Description)導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式114PredictiveDescriptive數(shù)據(jù)挖掘任務(wù)分類(Classification)回歸(Regression)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)(AssociationRuleDiscovery)序列模式發(fā)現(xiàn)(SequentialPatternDiscovery)聚類(Clustering)異常/偏差檢測(Anomaly/DeviationDetection)115PredictivePredictivePredictiveDescriptiveDescriptiveDescriptive數(shù)據(jù)挖掘算法分類決策樹基于規(guī)則貝葉斯支持向量機人工神經(jīng)網(wǎng)絡(luò)……數(shù)據(jù)挖掘算法關(guān)聯(lián)AprioriFP-Growth……數(shù)據(jù)挖掘算法聚類K-MeansDBSCAN層次聚類BIRCHCURE……數(shù)據(jù)挖掘算法回歸一元線性回歸多元線性回歸非線性回歸……回歸:定義回歸(regression)Predictavalueofagivencontinuousvaluedvariablebasedonthevaluesofothervariables,assumingalinearornonlinearmodelofdependency.Greatlystudiedinstatistics,neuralnetworkfields.120xyy=x+1X1Y1Y1’回歸:分析回歸:應(yīng)用Examples:Predictingsalesamountsofnewproductbasedonadvertisingexpenditure.Predictingwindvelocitiesasafunctionoftemperature,humidity,airpressure,etc.Timeseriespredictionofstockmarketindices122關(guān)聯(lián)分析1)定義關(guān)聯(lián)分析(associationanalysis):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性—值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。孤立點分析定義孤立點(outlier):數(shù)據(jù)庫中的那些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象。大部分?jǐn)?shù)據(jù)挖掘方法將孤立點視為噪聲或異常而將其丟棄,然而,在一些實際應(yīng)用中(如欺騙檢測、軍事情報分析等),罕見點事件可能比正常出現(xiàn)的那些更有趣。孤立點數(shù)據(jù)分析稱為孤立點挖掘(outliermining)。孤立點分析孤立點的檢測方法統(tǒng)計試驗檢測方法假定一個數(shù)據(jù)分布或概率模型,并使用距離度量,到其它聚類的距離很大的對象被視為孤立點。基于偏差點方法通過考察一群對象主要特征上的差別識別孤立點。演變分析數(shù)據(jù)演變分析(evolutionanalysis)描述行為隨時間變化的對象的規(guī)律或趨勢,并對其建模。演變分析包括時間相關(guān)數(shù)據(jù)的特征化、區(qū)分、關(guān)聯(lián)、分類或聚類最主要有三種演化分析方法:時間序列數(shù)據(jù)分析序列或周期模式匹配基于類似性的數(shù)據(jù)分析第1章緒論數(shù)據(jù)挖掘所面臨的挑戰(zhàn)數(shù)據(jù)挖掘所面臨的挑戰(zhàn)了解應(yīng)用背景領(lǐng)域、行業(yè)管理活動企業(yè)的業(yè)務(wù)和規(guī)模充分的掌握數(shù)據(jù)的應(yīng)用了解數(shù)據(jù)的基本情況明確數(shù)據(jù)所代表的意義數(shù)據(jù)的質(zhì)量數(shù)據(jù)之間的關(guān)聯(lián)數(shù)據(jù)與業(yè)務(wù)的關(guān)聯(lián)關(guān)系等等。了解計算機相關(guān)技術(shù)128數(shù)據(jù)挖掘所面臨的挑戰(zhàn)可伸縮高維性異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)數(shù)據(jù)的所有權(quán)和分布非傳統(tǒng)數(shù)據(jù)數(shù)據(jù)挖掘所面臨的挑戰(zhàn)可伸縮數(shù)據(jù)規(guī)模變化較大,海量數(shù)據(jù)集越來越普遍算法必須是可伸縮的(scalable)例如,當(dāng)要處理的數(shù)據(jù)不能放進內(nèi)存時,可能需要非內(nèi)存算法使用抽樣技術(shù)或開發(fā)并行和分布算法也可以提高可伸縮程度可伸縮可能還需要新的數(shù)據(jù)結(jié)構(gòu),以有效的方式訪問個別記錄130數(shù)千兆字節(jié)(terabytes)數(shù)據(jù)挖掘所面臨的挑戰(zhàn)高維性具有數(shù)以百計或數(shù)以千計屬性的數(shù)據(jù)集生物信息學(xué):涉及數(shù)千特征的基因表達數(shù)據(jù)不同地區(qū)溫度測量:維度(特征數(shù))的增長正比于測量的次數(shù)為低維數(shù)據(jù)開發(fā)的數(shù)據(jù)分析技術(shù)不能很好地處理高維數(shù)據(jù)某些數(shù)據(jù)分析算法,隨著維度(特征數(shù))的增加,計算復(fù)雜性迅速增加131數(shù)據(jù)挖掘所面臨的挑戰(zhàn)異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)傳統(tǒng)的數(shù)據(jù)分析方法只處理包含相同類型屬性的數(shù)據(jù)集非傳統(tǒng)的數(shù)據(jù)類型的出現(xiàn)需要能夠處理異種屬性的技術(shù)半結(jié)構(gòu)化文本和超鏈接的Web頁面信息具有序列和三維結(jié)構(gòu)的DNA數(shù)據(jù)地球表面不同位置上的時間序列測量值(溫度、氣壓等)的氣象數(shù)據(jù)數(shù)據(jù)中的聯(lián)系如時間和空間的自相關(guān)性、圖的連通性、半結(jié)構(gòu)化文本和XML文檔中元素之間的父子聯(lián)系132數(shù)據(jù)挖掘所面臨的挑戰(zhàn)數(shù)據(jù)的所有權(quán)與分布數(shù)據(jù)地理上分布在屬于多個機構(gòu)的資源中需要開發(fā)分布式數(shù)據(jù)挖掘技術(shù)協(xié)調(diào)訪問權(quán)限分布式數(shù)據(jù)挖掘算法面臨的主要挑戰(zhàn)包括如何降低執(zhí)行分布式計算所需的通信量?如何有效地統(tǒng)一從多個資源得到的數(shù)據(jù)挖掘結(jié)果?如何處理數(shù)據(jù)安全性問題?133數(shù)據(jù)挖掘所面臨的挑戰(zhàn)非傳統(tǒng)的分析傳統(tǒng)的統(tǒng)計學(xué)方法:假設(shè)-檢驗?zāi)J教岢鲆环N假設(shè),設(shè)計實驗來收集數(shù)據(jù),然后針對假設(shè)分析數(shù)據(jù)當(dāng)前的數(shù)據(jù)分析任務(wù)常常需要產(chǎn)生和評估數(shù)以千計的假設(shè)希望自動地產(chǎn)生和評估假設(shè)導(dǎo)致了一些數(shù)據(jù)挖掘技術(shù)的開發(fā)134第1章緒論數(shù)據(jù)挖掘樣例數(shù)據(jù)和相關(guān)資料DASLTheDataAndStoryLibrary(DASL)網(wǎng)址:/136UCIUCIMachineLearningRepository網(wǎng)址:http:///mlUCIKnowledgeDiscoveryinDatabasesArchive(UCIKDDArchive)網(wǎng)址:/137WEKAWekaDatasets網(wǎng)址:https://www.cs.waikato.ac.nz/~ml/weka/datasets.html138其他EarthSystemData網(wǎng)址:https:///psd/dataKDNuggets網(wǎng)址:/datasets/UniversityofWashington(ComputerScienceandEngineering學(xué)院)網(wǎng)址:/research/jair/home.html139交流論壇GitHub網(wǎng)址:https://StackOverflow網(wǎng)站網(wǎng)址:https://Kaggle網(wǎng)址:insideKaggleyou’llfindallthecode&datayouneedtodoyourdatasciencework.Useover19,000publicdatasetsand200,000publicnotebookstoconqueranyanalysisinnotime.140相關(guān)論文JMLR:JournalofMachineLearningResearch網(wǎng)址:http://141第2章數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘項目過程143數(shù)據(jù)分析vs數(shù)據(jù)挖掘144數(shù)據(jù)分析等級模型數(shù)據(jù)分析能力的8個等級常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化數(shù)據(jù)智能程度競爭優(yōu)勢回答:發(fā)生了什么?什么時候發(fā)生的?示例:月度或季度財務(wù)報表報表一般是定期生成,回答在某個特定的領(lǐng)域發(fā)生了什么。常規(guī)報表有其用途,但無法用于制定長期決策?;卮穑河卸嗌贁?shù)量?發(fā)生了多少次?在哪里?示例:一周內(nèi)每天各種門診的病人數(shù)量報告。即席查詢的最大好處是讓使用者不斷提出問題并尋找答案。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化回答:問題到底出在哪里?應(yīng)該如何尋找答案?示例:對各種手機類型的用戶進行排序,探查他們的呼叫行為。通過多維分析(OLAP)的鉆取功能,可以有初步的發(fā)現(xiàn)。鉆取功能如同層層剝筍,發(fā)現(xiàn)問題所在?;卮穑菏裁磿r候該有所反應(yīng)?現(xiàn)在該做什么?示例:當(dāng)銷售額落后于目標(biāo)時,銷售總監(jiān)將收到警報。
可以警示什么時候出了問題,并當(dāng)問題再次出現(xiàn)時及時示警。警報可以通過多種途徑來展示。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化
回答:為什么會出現(xiàn)這種情況?錯失了什么機會?示例:銀行可以弄清楚為什么重新申請房貸的客戶在增多??梢赃M行一些復(fù)雜的分析,比如頻次分析模型或回歸分析等等。統(tǒng)計分析是在歷史數(shù)據(jù)中進行統(tǒng)計并總結(jié)規(guī)律。回答:如果持續(xù)這種發(fā)展趨勢,未來會怎么樣?還需要多少?什么時候需要?示例:零售商可以預(yù)計特定商品未來一段時間在各個門店的需求量。預(yù)報可以說是最熱門的分析應(yīng)用之一,各行各業(yè)都用得到。特別對于供應(yīng)商來說,能夠準(zhǔn)確預(yù)報需求,就可以讓他們合理安排庫存,既不會缺貨,也不會積壓。數(shù)據(jù)分析能力的8個等級數(shù)據(jù)智能程度競爭優(yōu)勢常規(guī)報表即席查詢多維分析警報統(tǒng)計分析預(yù)報預(yù)測型建模優(yōu)化回答:接下來會發(fā)生什么?它對業(yè)務(wù)的影響程度如何?示例:酒店和娛樂行業(yè)可以預(yù)測哪些VIP客戶會對特定度假產(chǎn)品有興趣。如果客戶數(shù)量眾多,并希望展開一次市場營銷活動,那么哪些人會是最可能響應(yīng)的客戶呢?如何劃分出這些客戶?哪些客戶會流失?預(yù)測型建模能夠給出解答?;卮穑喝绾伟咽虑樽龅酶??對于一個復(fù)雜問題來說,那種決策是最優(yōu)的?示例:在給定了業(yè)務(wù)上的優(yōu)先級、資源調(diào)配的約束條件以及可用技術(shù)的情況下,給出IT平臺優(yōu)化的最佳方案,以滿足每個用戶的需求。優(yōu)化帶來創(chuàng)新,同時考慮到資源與需求,幫助找到實現(xiàn)目標(biāo)的最佳方式。149數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘de過程商業(yè)問題行業(yè)經(jīng)驗數(shù)據(jù)工具知識商業(yè)決策數(shù)據(jù)挖掘數(shù)據(jù)挖掘的商業(yè)思路數(shù)據(jù)挖掘de過程數(shù)據(jù)挖掘的技術(shù)思路數(shù)據(jù)數(shù)據(jù)挖掘算法數(shù)據(jù)預(yù)處理(隱含)模型數(shù)據(jù)挖掘de過程數(shù)據(jù)挖掘是一個反復(fù)迭代的人機交互處理過程。該過程需要經(jīng)歷多個步驟,并且很多決策需要由用戶提供從宏觀上看,數(shù)據(jù)挖掘過程主要由三個部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評估。
轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)集成中,應(yīng)了解數(shù)據(jù)挖掘應(yīng)用領(lǐng)域的有關(guān)情況,熟悉相關(guān)的背景知識,確定用戶需求。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)選取的目的是確定目標(biāo)數(shù)據(jù),根據(jù)用戶的需要從原始數(shù)據(jù)庫中選取相關(guān)數(shù)據(jù)或樣本。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
對選出的數(shù)據(jù)再處理,檢查數(shù)據(jù)的完整性及一致性,消除噪聲,濾除與數(shù)據(jù)挖掘無關(guān)的冗余數(shù)據(jù),根據(jù)時間序列和已知的變化情況,利用統(tǒng)計等方法填充丟失的數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
根據(jù)知識發(fā)現(xiàn)的任務(wù)對經(jīng)過預(yù)處理的數(shù)據(jù)進行再處理,主要是通過投影或利用數(shù)據(jù)庫的其他操作減少數(shù)據(jù)量。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
根據(jù)用戶的要求,確定數(shù)據(jù)挖掘要發(fā)現(xiàn)的知識類型。因為對數(shù)據(jù)挖掘的不同要求會在具體的知識發(fā)現(xiàn)過程中采用不同的知識發(fā)現(xiàn)算法。如分類、總結(jié)、關(guān)聯(lián)規(guī)則、聚類等。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
根據(jù)確定的任務(wù)選擇合適的知識發(fā)現(xiàn)算法,包括選取合適的模型和參數(shù)。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
運用選定擇的算法,從數(shù)據(jù)集中提取用戶感興趣的知識,并以一定的方式表示出來(如產(chǎn)生式規(guī)則等)。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
對在數(shù)據(jù)挖掘中發(fā)現(xiàn)的模式(知識)進行解釋。經(jīng)用戶或計算評估后,例如可能會發(fā)現(xiàn)存在冗余模式或無關(guān)的模式,則予以剔除。若模式不能滿足用戶的要求,則需返回到前面的某些處理步驟中反復(fù)提取。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估轉(zhuǎn)換后數(shù)據(jù)
知識目標(biāo)數(shù)據(jù)數(shù)據(jù)預(yù)處理后數(shù)據(jù)模式數(shù)據(jù)源
數(shù)據(jù)挖掘解釋評估數(shù)據(jù)選擇數(shù)據(jù)集成預(yù)處理數(shù)據(jù)轉(zhuǎn)換
最終,將發(fā)現(xiàn)的知識以用戶能了解的方式呈現(xiàn)給用戶。數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘解釋評估數(shù)據(jù)挖掘de過程1.數(shù)據(jù)準(zhǔn)備2.數(shù)據(jù)選取3.數(shù)據(jù)預(yù)處理4.數(shù)據(jù)變換5.確定數(shù)據(jù)挖掘目標(biāo)6.選擇算法7.數(shù)據(jù)挖掘算法(模型)8.模式解釋9.知識評價數(shù)據(jù)挖掘算法占據(jù)非常重要的地位,它主要是利用某些特定的知識發(fā)現(xiàn)算法,在一定的運算效率范圍內(nèi),從數(shù)據(jù)中發(fā)現(xiàn)出有關(guān)知識,決定了整個數(shù)據(jù)挖掘過程的效果與效率。數(shù)據(jù)挖掘過程模型數(shù)據(jù)挖掘過程模型SEMMA5ACRISP-DM第2章數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘的過程模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布CRossIndustryStandardProcessforDataMiningCRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布明確要達到的業(yè)務(wù)目標(biāo),并將其轉(zhuǎn)化為數(shù)據(jù)挖掘主題。要從商業(yè)角度對業(yè)務(wù)部門的需求進行理解,并把業(yè)務(wù)需求的理解轉(zhuǎn)化為數(shù)據(jù)挖掘的定義,擬定達成業(yè)務(wù)目標(biāo)的初步方案。具體包括:商業(yè)背景分析、商業(yè)成功標(biāo)準(zhǔn)的確定、形勢評估獲得企業(yè)資源清單、獲得企業(yè)的要求和設(shè)想評估成本和收益、評估風(fēng)險和意外初步理解行業(yè)術(shù)語確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘計劃CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布是找出可能的影響主題的因素,確定這些影響因素的數(shù)據(jù)載體、數(shù)據(jù)體現(xiàn)形式和數(shù)據(jù)存儲位置。從數(shù)據(jù)收集開始,然后熟悉數(shù)據(jù),具體包括以下工作內(nèi)容:檢測數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進行初步理解簡單描述數(shù)據(jù),探測數(shù)據(jù)意義對數(shù)據(jù)中潛藏的信息和知識提出擬用數(shù)據(jù)加以驗證的假設(shè)。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布是將前面找到的數(shù)據(jù)進行變換、組合,建立數(shù)據(jù)挖掘工具軟件要求格式和內(nèi)容的寬表。要從原始數(shù)據(jù)中形成作為建模分析對象的最終數(shù)據(jù)集。具體工作主要包括:數(shù)據(jù)制表、記錄處理、變量選擇數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)格式化和數(shù)據(jù)清理等各項工作并不需要預(yù)先規(guī)定好執(zhí)行順序,而且數(shù)據(jù)準(zhǔn)備工作還有可能多次執(zhí)行。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布使用軟件工具,選擇合適的建模方法,對準(zhǔn)備好的數(shù)據(jù)表格進行處理,找出數(shù)據(jù)中隱藏的規(guī)律選擇和使用各種建模方法,并將模型參數(shù)進行優(yōu)化對于同樣的業(yè)務(wù)問題和數(shù)據(jù),可能有多種數(shù)據(jù)挖掘技術(shù)方法可供選用,可優(yōu)選提升度高、置信度高、簡單而易于總結(jié)業(yè)務(wù)政策和建議的數(shù)據(jù)挖掘技術(shù)方法在建模過程中,還可能會發(fā)現(xiàn)一些潛在的數(shù)據(jù)問題,這是需要回到數(shù)據(jù)準(zhǔn)備階段重復(fù)進行建立模型階段的具體工作包括:選擇合適的建模技術(shù)進行檢驗設(shè)計建造模型CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布從業(yè)務(wù)角度和統(tǒng)計角度對模型結(jié)論進行評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,并檢查是否遺漏重要的業(yè)務(wù)問題。當(dāng)模型評估階段結(jié)束時,應(yīng)對數(shù)據(jù)挖掘結(jié)果的發(fā)布計劃達成一致。CRISP-DMCRISP-DM流程-跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過程商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評估結(jié)果發(fā)布也稱為模型部署,建立模型本身并不是數(shù)據(jù)挖掘的目標(biāo),雖然模型使數(shù)據(jù)背后隱藏的信息和知識顯現(xiàn)出來,但數(shù)據(jù)挖掘的根本目標(biāo)是將信息和知識以某種方式組織和呈現(xiàn)出來,并用來改善運營和提高效率。在實際的數(shù)據(jù)挖掘工作中,根據(jù)不同的企業(yè)業(yè)務(wù)需求,模型發(fā)布的具體工作可能簡單到提交數(shù)據(jù)挖掘報告,也可能復(fù)雜到將模型集成到企業(yè)的核心運營系統(tǒng)中去。SEMMA方法SEMMA方法/模型是由SASInstitute提出來的。SASInstitute是一家美國跨國的分析軟件開發(fā)企業(yè),也是世界上最大的私營軟件企業(yè),財富500強企業(yè)中有很大一部分使用的都是該公司的管理與分析軟件。SASInstitute開發(fā)并推出了一系列的分析軟件,稱為SAS。SAS軟件起源于美國北卡羅來納州立大學(xué)所開發(fā)的一個統(tǒng)計分析系統(tǒng),可以完成對數(shù)據(jù)進行獲取、管理、分析并形成報告,以便于幫助決策。173SEMMA方法SAS所推出的主要模塊中,與數(shù)據(jù)挖掘相關(guān)的模塊有:SASWarehouseAdministrator數(shù)據(jù)倉庫模塊EnterpriseMiner企業(yè)數(shù)據(jù)挖掘模塊MDDBServerOLAP多維數(shù)據(jù)庫產(chǎn)品可視化、應(yīng)用開發(fā)和決策支持表現(xiàn)工具等相關(guān)的模塊。174SEMMA方法1751Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價通過數(shù)據(jù)抽樣,檢驗數(shù)據(jù)質(zhì)量,根據(jù)業(yè)務(wù)需求精選樣本數(shù)據(jù)子集。SEMMA方法1761Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價探索數(shù)據(jù)規(guī)律、趨勢、相關(guān)性以及可區(qū)分的類別,發(fā)現(xiàn)其數(shù)據(jù)特征,并進行分析和預(yù)處理。SEMMA方法1771Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價明確和量化要解決的問題,調(diào)整數(shù)據(jù)以適應(yīng)問題的需要。SEMMA方法1781Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價根據(jù)數(shù)據(jù)特征和實現(xiàn)目標(biāo)選擇和調(diào)整相關(guān)技術(shù)手段和方法,進行模型的研發(fā)以及知識的發(fā)現(xiàn)。SEMMA方法1791Sample數(shù)據(jù)抽樣2Explore數(shù)據(jù)探索3Modify
數(shù)據(jù)調(diào)整4Model模型研發(fā)5Assess綜合評價模型和知識的綜合解釋和評價。通過綜合評價,找出效果最優(yōu)模型,并結(jié)合業(yè)務(wù)對模型進行針對性的解釋和應(yīng)用。5A1801
Assess評價需求2
Access
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食品加工設(shè)備失效防范面試題集及答案
- 2026年初級經(jīng)濟師之初級經(jīng)濟師財政稅收考試題庫300道含答案【考試直接用】
- 2025云南麗江寧蒗彝族自治縣群團聯(lián)盟公益性崗位招聘2人筆試考試備考試題及答案解析
- 項目定金合同范本
- 2026年二級注冊建筑師之法律法規(guī)經(jīng)濟與施工考試題庫500道【全優(yōu)】
- 2026年天津濱海職業(yè)學(xué)院輔導(dǎo)員招聘備考題庫附答案
- 2026內(nèi)蒙古包頭稀土高新區(qū)教育系統(tǒng)校園招聘20人(四)(內(nèi)蒙古師范大學(xué)招聘站)筆試考試備考題庫及答案解析
- 2026年河南輕工職業(yè)學(xué)院單招職業(yè)傾向性測試模擬測試卷附答案解析
- 內(nèi)墻板勞務(wù)合同范本
- 物流管理崗位面試題庫與答案參考
- 探索絲綢之路課件
- 2025秋季國開《經(jīng)濟學(xué)(本)》期末考試題庫及答案
- (新教材)2026年人教版八年級下冊數(shù)學(xué) 24.3 數(shù)據(jù)的四分位數(shù) 課件
- 2025年甘肅省武威市涼州區(qū)大柳鎮(zhèn)選聘專業(yè)化管理大學(xué)生村文書筆試考試備考試題及答案解析
- 戥秤的課件教學(xué)課件
- 2025內(nèi)蒙古潤蒙能源有限公司招聘22人考試筆試備考試題及答案解析
- 虛擬現(xiàn)實行業(yè) VR 全景拍攝師崗位招聘考試試卷及答案
- 供應(yīng)鏈金融業(yè)務(wù)操作與風(fēng)險管理
- 2025年廣西學(xué)法用法考試試題及答案
- 2025全球包裝材料標(biāo)準(zhǔn)BRCGS第7版內(nèi)部審核全套記錄
- 紫外線燈管強度監(jiān)測課件
評論
0/150
提交評論