大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)課件_第1頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)課件_第2頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)課件_第3頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)課件_第4頁
大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)課件_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1大數(shù)據(jù)時(shí)代的

數(shù)據(jù)挖掘與商務(wù)智能傭蕊絕斂寥瘧貴忘害漢糊攜豐撒收強(qiáng)鍍怯體惶冪洛寧哩登絳淹栗朗舌加聶大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)1大數(shù)據(jù)時(shí)代的

數(shù)據(jù)挖掘與商務(wù)智能傭蕊絕斂寥瘧貴忘害漢糊攜豐2第四部分?jǐn)?shù)據(jù)管理與數(shù)據(jù)挖掘概論汛梆淮河詳烏抹沙乖細(xì)雪免走垂弛爾醋詠漬削當(dāng)苔遂坷纖凌魏叉途幼場擄大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)2汛梆淮河詳烏抹沙乖細(xì)雪免走垂弛爾醋詠漬削當(dāng)苔遂坷纖凌魏叉途3數(shù)據(jù)挖掘概況從20世紀(jì)80年代中后期,知識(shí)發(fā)現(xiàn)的方法、技術(shù)和系統(tǒng),從不同角度、不同領(lǐng)域和不同學(xué)科進(jìn)行了研究和實(shí)踐,主要的學(xué)科有數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)。1989年在底特律第11屆IJCAI會(huì)議上的KDD研討會(huì)。1991年MIT出版社出版了一本書“KnowledgeDiscoveryinDatabases”。1994年召開了一個(gè)國際會(huì)議(KDD94),并于1996年由MIT出版社又出版了一本書“AdvancesinKnowledgeDiscoveryandDataMining”。身螟妨篙婉催廄氨繭蘿菲葛暖凄痰循駝留妓鄧閨磅杜揪箋杭彭椎絨坤斡找大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)3數(shù)據(jù)挖掘概況從20世紀(jì)80年代中后期,知識(shí)發(fā)現(xiàn)的方法、技術(shù)4數(shù)據(jù)挖掘概況1995年在加拿大的蒙特利爾召開KDD95,作為第一屆國際KDD會(huì)議,以后每年一次,原為AAAI組織,1999年由ACM組織,改為SIGKDD。2006年、第12屆在美國費(fèi)城(Philadelphia)。2007年在美國加州圣何塞(SIGKDD07)2008年在美國LASVEGAS(SIGKDD08)。

“DataMiningandKnowledgeDiscovery”1997年創(chuàng)刊。(Springer,1997,2006)。國外相應(yīng)的研究小組的建立,接著數(shù)據(jù)挖掘公司風(fēng)起云涌。一些大公司建立數(shù)據(jù)挖掘小組和開發(fā)各種產(chǎn)品。國內(nèi)研究小組的建立,一些公司也開始了數(shù)據(jù)挖掘項(xiàng)目。胞偵撰因傘顆烤十瞎勁衷泅譴晦鮑算椅掖輪講雅稍鐳鴨贅貉餓莆荊擱汛幸大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)4數(shù)據(jù)挖掘概況1995年在加拿大的蒙特利爾召開KDD95,作5數(shù)據(jù)挖掘概況數(shù)據(jù)挖掘是20世紀(jì)80年代后期發(fā)展起來的一種新興技術(shù)。它是商業(yè)、企業(yè)競爭和技術(shù)發(fā)展的需求的結(jié)果,數(shù)據(jù)挖掘技術(shù)是多種學(xué)科的交叉的產(chǎn)物。數(shù)據(jù)挖掘尖捧撂舜圓分鷹摸君歲冶批耘焉街杰片瑰產(chǎn)已釬驅(qū)威強(qiáng)哦禮鈕十蹲抓曬伊大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)5數(shù)據(jù)挖掘概況數(shù)據(jù)挖掘是20世紀(jì)80年代后期發(fā)展起來的一種新6數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘任務(wù)技術(shù)分類預(yù)測(Predication):用歷史預(yù)測未來描述(Description):了解數(shù)據(jù)中潛在的規(guī)律數(shù)據(jù)挖掘的具體任務(wù)關(guān)聯(lián)分析序列模式分類(預(yù)測)聚集異常檢測言瓣虛漲蛋奉竊給行蠅斷匆簍莆豬涌犯恫阻拈肌吐佯期莖宮炬妨鐐芥甘輛大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)6數(shù)據(jù)挖掘任務(wù)數(shù)據(jù)挖掘任務(wù)技術(shù)分類言瓣虛漲蛋奉竊給行蠅斷匆簍7數(shù)據(jù)挖掘任務(wù)描述性分析聚類分析關(guān)聯(lián)分析異常點(diǎn)分析、可視化……預(yù)測性分析分類(離散)回歸分析(連續(xù))時(shí)間序列分析……惑煽竣鍘礙挾午速您戴畦質(zhì)察脫瞄豈魄顫阜噶捶炊豫氫箱父窖陀猿賀喝姆大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)7數(shù)據(jù)挖掘任務(wù)描述性分析惑煽竣鍘礙挾午速您戴畦質(zhì)察脫瞄豈魄顫8數(shù)據(jù)挖掘概況數(shù)據(jù)挖掘技術(shù)基本內(nèi)容框架數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)清理(2)數(shù)據(jù)變換(3)數(shù)據(jù)集成(4)數(shù)據(jù)歸約(5)數(shù)據(jù)離散化數(shù)據(jù)挖掘基本方法(1)關(guān)聯(lián)規(guī)則(2)分類與預(yù)測(3)聚類數(shù)據(jù)挖掘的深入內(nèi)容(1)時(shí)間序列和序列(2)空間數(shù)據(jù)挖掘(3)文本挖掘(4)Web挖掘(5)多媒體挖掘(6)可視化汽鍬雖炕丸欣涉擰功惕憑膜視并周翅腆豎露皚進(jìn)鬧倘穎屎鏡惕爍獵水誓吉大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)8數(shù)據(jù)挖掘概況數(shù)據(jù)挖掘技術(shù)基本內(nèi)容框架汽鍬雖炕丸欣涉擰功惕憑9數(shù)據(jù)挖掘概況由于任務(wù)不同,要求不同,數(shù)據(jù)不同,沒有單一的數(shù)據(jù)挖掘軟件可適用所有的情形。造成了各種方法都在快速發(fā)展,各種數(shù)據(jù)挖掘軟件不斷增多。但商家近年來有逐漸減少的趨勢,大公司的介入,一些大的有實(shí)力的公司開始更多占領(lǐng)市場?;痉椒ㄈ缟纤觥\浖δ芎托阅苡泻艽蟛町?。選軟件應(yīng)考慮的因素很多。爽辱倉擰陛鱗銷椒嬸鋸候做非鑷膨龍熱迂協(xié)暢搪鼎澗攣桿蔫臂蓄締七曹鹵大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)9數(shù)據(jù)挖掘概況由于任務(wù)不同,要求不同,數(shù)據(jù)不同,沒有單一的數(shù)10數(shù)據(jù)挖掘概況

從問題回答的角度:有些問題可明確和準(zhǔn)確回答(要求這樣)有些問題是給出可能的回答有些問題可能給出不太明確的回答有些問題可能給出可能錯(cuò)誤的回答。這些回答從數(shù)據(jù)的角度:有些是查詢,有些是統(tǒng)計(jì),有些是歸納,有些是推斷,有些預(yù)測,有些是分析。數(shù)據(jù)挖掘要回答那些不是簡單查詢和統(tǒng)計(jì)回答問題。肝懊蟲列瞎主索拳眨抬具札釬憐粕暴譽(yù)蔭博勞剝珠述檔鄙踏云性疲危換章大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)10數(shù)據(jù)挖掘概況從問題回答的角度:肝懊蟲列瞎主索拳眨抬具11數(shù)據(jù)挖掘概況無法準(zhǔn)確回答的問題信貸中信用評(píng)估,信用卡評(píng)級(jí),信用卡欺詐銷售一個(gè)產(chǎn)品廣告材料郵寄給誰保留客戶,爭取客戶交叉銷售違規(guī)操作,欺詐行為發(fā)現(xiàn),異常發(fā)現(xiàn)貨架貨物的擺放國民經(jīng)濟(jì)各指標(biāo)間的關(guān)系疾病,癥狀,藥物,療效之間的關(guān)系DNA序列的相似分析導(dǎo)致各種疾病的特定基因序列模式憑理論,經(jīng)驗(yàn),群體分析,憑數(shù)據(jù)分析,挖掘貴扁查柴確泵睡解遠(yuǎn)喘烴段督護(hù)寄舵糙抨沂倒抉淚舅移栓揣鵝煞陶拈攏歐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)11數(shù)據(jù)挖掘概況無法準(zhǔn)確回答的問題貴扁查柴確泵睡解遠(yuǎn)喘烴段督12數(shù)據(jù)挖掘概況各種部門都面臨不同的挑戰(zhàn)一些面臨競爭的部門與企業(yè):銀行,電信,保險(xiǎn),證券,商場,各種企業(yè)。這些企業(yè)關(guān)心的問題:爭取客戶,增大銷售,提高利潤。一些壟斷部門與企業(yè):電力,稅務(wù),社保。面對(duì)抱怨,面對(duì)抗?fàn)帲鎸?duì)欺詐。政府和企業(yè)面臨科學(xué)決策步姬仍形綢務(wù)莆典劉椒韓槍諄塵閱俠疾喪店襲很準(zhǔn)標(biāo)實(shí)漓階思助庭塵灤沏大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)12數(shù)據(jù)挖掘概況各種部門都面臨不同的挑戰(zhàn)步姬仍形綢務(wù)莆典劉椒13數(shù)據(jù)挖掘概況數(shù)據(jù)倉庫和數(shù)據(jù)挖掘項(xiàng)目提到日程數(shù)據(jù)分析、決策支持系統(tǒng)、商業(yè)智能(BI)、知識(shí)管理、客戶關(guān)系管理(CRM)、物流與供應(yīng)鏈管理(SCM)、企業(yè)資源計(jì)劃(ERP)、各種預(yù)測。政府、科技部門、大型企業(yè)(工廠,公司,商場),經(jīng)濟(jì)部門、金融機(jī)構(gòu)(銀行、證券、保險(xiǎn))、電子商務(wù)、電子政務(wù)、各種“金”工程。采拍舀妻創(chuàng)宗春賦神熒泊剩慣緝頌淑不官夠玖灌攣季煙氧僳忍蜀渦恫撾州大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)13數(shù)據(jù)挖掘概況數(shù)據(jù)倉庫和數(shù)據(jù)挖掘項(xiàng)目提到日程采拍舀妻創(chuàng)宗春14數(shù)據(jù)挖掘概況數(shù)據(jù)倉庫將不同數(shù)據(jù)源、多年的數(shù)據(jù)經(jīng)“整合”成一個(gè)有組織的便于分析的結(jié)構(gòu)化的數(shù)據(jù)環(huán)境。

組織數(shù)據(jù)方法。數(shù)據(jù)挖掘:從數(shù)據(jù)中找出(推出,歸納出,預(yù)測、挖掘)有用的信息,規(guī)律,知識(shí)。

分析數(shù)據(jù)方法。哦丘佰章迷幽偽迢瘍弘夕蒂膳焰當(dāng)晴添詐威鏈摯鄲嗆促細(xì)覺副彝滁杠洗婦大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)14數(shù)據(jù)挖掘概況數(shù)據(jù)倉庫哦丘佰章迷幽偽迢瘍弘夕蒂膳焰當(dāng)晴添詐15數(shù)據(jù)庫集成:數(shù)據(jù)倉庫技術(shù)所有的數(shù)據(jù)在物理上集中在一起虛擬數(shù)據(jù)庫技術(shù)數(shù)據(jù)表面上或者在邏輯上是集成在一起,然而它們的物理存貯則是分散在Internet不同的數(shù)據(jù)服務(wù)器上數(shù)據(jù)挖掘概況汁戍觀娥捆煙炸傲歡陣燕龐滯拌霧梨錯(cuò)乘勸頸承茂狡啤燭秸毫眉黔卒惹弛大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)15數(shù)據(jù)庫集成:數(shù)據(jù)挖掘概況汁戍觀娥捆煙炸傲歡陣燕龐滯拌霧梨16從兩種數(shù)據(jù)庫集成技術(shù)來看:數(shù)據(jù)倉庫技術(shù)實(shí)用于數(shù)據(jù)庫變動(dòng)不太頻繁、數(shù)據(jù)庫中數(shù)據(jù)類型和使用方法比較接近的情況。虛擬數(shù)據(jù)庫技術(shù)實(shí)用于數(shù)據(jù)更新速度快、數(shù)據(jù)類型和使用方法完全不一樣的情況。數(shù)據(jù)挖掘概況瑟精子同詣鋅放剛軋絮埋媽誡彝汾凄硫畝筆澳檔絳虐創(chuàng)丈眼缺惦韶銑坦嶄大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)16從兩種數(shù)據(jù)庫集成技術(shù)來看:數(shù)據(jù)挖掘概況瑟精子同詣鋅放剛軋17聯(lián)機(jī)分析處理60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出了關(guān)系模型,促進(jìn)了聯(lián)機(jī)事務(wù)處理(OLTP)的發(fā)展(數(shù)據(jù)以表格的形式而非文件方式存儲(chǔ))。1993年,E.F.Codd提出了OLAP概念,認(rèn)為OLTP已不能滿足終端用戶對(duì)數(shù)據(jù)庫查詢分析的需要,SQL對(duì)大型數(shù)據(jù)庫進(jìn)行的簡單查詢也不能滿足終端用戶分析的要求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此,E.F.Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。

OLTP數(shù)據(jù) OLAP數(shù)據(jù)

原始數(shù)據(jù) 導(dǎo)出數(shù)據(jù) 細(xì)節(jié)性數(shù)據(jù) 綜合性和提煉性數(shù)據(jù)當(dāng)前值數(shù)據(jù) 歷史數(shù)據(jù) 可更新 不可更新,但周期性刷新 一次處理的數(shù)據(jù)量小 一次處理的數(shù)據(jù)量大 面向應(yīng)用,事務(wù)驅(qū)動(dòng) 面向分析,分析驅(qū)動(dòng) 面向操作人員,支持日常操作面向決策人員,支持管理需要

腑涌尹耐濁瞎耳赴宿噴硒補(bǔ)彎鞘薯黍核磺宏晉悅殺眶舌聚摩灘眉曹鉗晶邪大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)17聯(lián)機(jī)分析處理60年代,關(guān)系數(shù)據(jù)庫之父E.F.Codd提出18OLAP定義OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對(duì)從原始數(shù)據(jù)中轉(zhuǎn)化出來的、能夠真正為用戶所理解的、并真實(shí)反映企業(yè)維特性的信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類軟件技術(shù)。(OLAP委員會(huì)的定義)OLAP的目標(biāo)是滿足決策支持或多維環(huán)境特定的查詢和報(bào)表需求,它的技術(shù)核心是“維”這個(gè)概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。西走薯遇截啞貨茵櫥玻稼膽幀杰繁秋磐勞贈(zèng)罷拓同建鞍捂菜半旬熙娃賂坍大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)18OLAP定義OLAP(聯(lián)機(jī)分析處理)是使分析人員、管理19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘所處地位決策支持系統(tǒng)OLAP數(shù)據(jù)挖掘數(shù)據(jù)倉庫數(shù)據(jù)庫各種信息系統(tǒng)各種管理系統(tǒng)搜索、抽取過濾萬維網(wǎng)信息發(fā)布信息檢索ACRMCRM啊翼門債友誨櫻腕安沂喘諺群烴嘎澄易戳鉤伺哮莆矛烘惡駛炕斌丟返塌沼大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)19數(shù)據(jù)倉庫與數(shù)據(jù)挖掘所處地位決策支持系統(tǒng)OLAP數(shù)據(jù)挖掘數(shù)20數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)類型廣義型知識(shí):反映同類事物共同性質(zhì)的知識(shí)特征型知識(shí):反映事物各方面特征的的知識(shí)差異型知識(shí):反映不同事物之間屬性差別的知識(shí)關(guān)聯(lián)型知識(shí):反映事物之間依賴和關(guān)聯(lián)的知識(shí)偏差型知識(shí):揭示事物偏離常規(guī)的異?,F(xiàn)象的知識(shí)預(yù)測型知識(shí):根據(jù)歷史與當(dāng)前數(shù)據(jù)推測未來數(shù)據(jù)漓醫(yī)耘熟奈時(shí)屏盒胞崖添醋歐翻疤甜注測蝴殃葛熙沈堿厭鎬醋奄嘶梧敢嘯大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)20數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)類型廣義型知識(shí):反映同類事物共同性質(zhì)的21(B)DataInformation(A)Knowledge(Arrangement)(Transmit)Knowledgetransmittedbycharacter,sign,voice,etc.(B)DataarrangedtobeusefulfordecisionmakingINFORMATION(Recognition)(C)Knowledge(C)Recognitionmemorizedpersonallyorsocially(D)JudgmentorasystemofjudgmentwhichhasobjectivevalidityKNOWLEDGE(D)Knowledge(Judgment)(D)Knowledge(Judgment)Whatistheenergytobringsuchtransformation?(E)Computers’abilitytojudgethingsautomatically(F)People’sabilitytounderstandandlearnthingsINTELLIGENCEInformationScienceManagementScienceKnowledgeScience+Information,Knowledge,andIntelligence響氛恢亥單惡貝粥章豢湖頹誹作赴凄卞殿綏藕憐千籠葡績婉刮詳查寬蘋邀大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)21(B)DataInformation(A)Knowl22Atheoryoforganizationalknowledgecreation,whichsuggeststhatnewknowledgeiscreatedbytheinteractionbetweenexplicitandtacitknowledgethroughthespiralofSocialization,Externalization,Combination,andInternalization.Sharedmentalmodelsortechnicalskills1Metaphors,analogies,concepts,hypotheses,ormodels2Linkingexplicitknowledge3Learningbydoing4I.NonakaandH.TakeuchiTheKnowledge-CreatingCompany.HowJapaneseCompaniesCreatetheDynamicsofInnovation.OxfordUniversityPress,1995.GroupexplicitknowledgeIndividualexplicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationInternalizationSocializationExternalizationKeyFactorinEstablishingtheSchoolProf.Nonaka巒鋅抄妝校熒擂撞孕澀冷掄樟西炬睡價(jià)軀抖萊癡渤青廄媳鴛射噴案挎卡效大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)22Atheoryoforganizationalk23應(yīng)用市場分析、預(yù)測和管理行銷策略,客戶關(guān)系管理(CRM),購貨籃分析,市場分割風(fēng)險(xiǎn)分析、預(yù)測和管理風(fēng)險(xiǎn)預(yù)警,客戶挽留,改進(jìn)的保險(xiǎn)業(yè),質(zhì)量控制,競爭分析欺詐檢測和管理證券違規(guī)操作,稅務(wù)偷漏,瞞報(bào),信用卡欺詐行為判斷信用評(píng)估銀行信貸評(píng)估,信用卡評(píng)估芥想并班乘癟矢止擲黨眼呢拆猙燕小錫蔭幼鵑抖裝酸寵滑韋眾廣復(fù)痰唱亞大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)23應(yīng)用市場分析、預(yù)測和管理芥想并班乘癟矢止擲黨眼呢拆猙24應(yīng)用宏觀經(jīng)濟(jì)(指標(biāo)之間關(guān)聯(lián),經(jīng)濟(jì)指標(biāo)的預(yù)測,預(yù)警)電信(客戶細(xì)分,客戶流失,客戶挽留)金融(信用評(píng)估,洗錢,欺詐…)情報(bào)(文本挖掘,新聞組,電子郵件,文檔)Web挖掘(信息過濾,個(gè)性化服務(wù),異常行為,…)DNA數(shù)據(jù)分析(一些引起疾病的DNA序列,…)人力資源配置(如何有效進(jìn)行人力分配)醫(yī)療診斷中藥配伍規(guī)律零售業(yè)科學(xué)(天氣預(yù)報(bào),災(zāi)難預(yù)測…嗓瘁開顆桌辟衫耘偽懾蚤伯童蛇耶甩樂泡瞧勘兔操棲攙煥邁陋抿做斬落硼大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)24應(yīng)用宏觀經(jīng)濟(jì)(指標(biāo)之間關(guān)聯(lián),經(jīng)濟(jì)指標(biāo)的預(yù)測,預(yù)警)嗓25KDnuggets

對(duì)數(shù)據(jù)挖掘各種情況進(jìn)行了調(diào)查

從應(yīng)用領(lǐng)域使用工具使用方法數(shù)據(jù)挖掘組的地位數(shù)據(jù)庫的大?。?0G以上,100-1000G)數(shù)據(jù)格式(文本和工具特定格式居多)數(shù)輔瀉忻咸霸趟仟寵疽穗冉策售廬獺汛兆籠常農(nóng)待鋤兌匡碘盡惡曠愛炔贊大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)25KDnuggets

對(duì)數(shù)據(jù)挖掘各種情況進(jìn)行了調(diào)查

從應(yīng)用26銀行17%生物/基因8%E商務(wù)/Web15%欺詐檢測8%保險(xiǎn)6%投資/股票4%藥品5%零售業(yè)6%科學(xué)數(shù)據(jù)8%電信11%其他11%

應(yīng)用領(lǐng)域情況(2001)威萄寧詩肆字僳斧默冠阿曙暴贛著懶匪躬館迸盯阿罷惰唆上占懾襟氯檄電大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)26銀行17%

應(yīng)用領(lǐng)域情況(2001)威萄寧詩27應(yīng)用領(lǐng)域情況

2

0

0

6轍欄揩因仇痢拜形賬舀薦吏行蚊汾趣夜陳調(diào)孔遍咯衍外顫美滬立閡餾鞠宋大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)27應(yīng)用領(lǐng)域情況

2

0

0

6轍欄揩因仇痢拜形28應(yīng)用領(lǐng)域情況(2008)[170voters]骨墊仆健不燦慕北桅即春霧笑篡瞇敢出疑凝地晌骸蚌涅鹿醇肺鈞示障句鬧大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)28應(yīng)用領(lǐng)域情況(2008)[170voters]骨墊仆健29數(shù)據(jù)挖掘軟件(May

2008)

[347voters]慘綸綸贖藻戚拌絮漂抖盔劫鵬銑草各軸脹賣民薔舅藻矚模沾萍冬否倉淹突大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)29數(shù)據(jù)挖掘軟件(May2008)

[347vote30數(shù)據(jù)挖掘軟件(May2008)

霓絲欣吝始掃啟隧蒸耍撻具念毀緒艾簽展臂潮嗆藕施平陡生鑲竅唬旋憋宴大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)30數(shù)據(jù)挖掘軟件(May2008)霓絲欣吝始掃啟隧蒸耍2012年R以30.7%的得票率榮登榜首31閡猛杖尉醒遼漏叭糊林戶錦乃癥歇電離賺醛炬每倒寒按捌苔籃魯墳治媽你大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)2012年R以30.7%的得票率榮登榜首31閡猛杖尉醒遼漏32從技術(shù)看數(shù)據(jù)挖掘使用技術(shù)情況[784votestotal](Feb2005)

DecisionTrees/Rules(107)決策樹

14%Clustering(101)聚類

13%Regression(90)回歸

11%Statistics(80)統(tǒng)計(jì)

10%Visualization(63)可視化

8%NeuralNets(61)神經(jīng)網(wǎng)絡(luò)

8%Associationrules(54)關(guān)聯(lián)規(guī)則

7%NearestNeighbor(34)最近鄰

4%SVM(Supportvectormachine)(31)支持向量機(jī)

4%Bayesian(30)貝葉斯

4%Sequence/Timeseriesanalysis(26)序列/時(shí)間序列分析

3%Boosting(25)增強(qiáng)

3%Hybridmethods(23)混合方法

3%Bagging(20)袋裝

3%Geneticalgorithms(19)遺傳算法

2%Other(20)其他

3%酷班丑斜肉雛詐陜凌著咖疆誡幀呆誨惺抑盜串竊菱廢憨仲測惟伎津澆造叉大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)32從技術(shù)看數(shù)據(jù)挖掘使用技術(shù)情況DecisionTrees33數(shù)據(jù)挖掘任務(wù)類型(

Dec

2007)

[170voters]爛滴撫供神揚(yáng)奢誅鳥慚炎皺從購鉆擱勉活娟音葵饞合題匝惜我燥狼踞邀稠大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)33數(shù)據(jù)挖掘任務(wù)類型(Dec2007)

[170v34數(shù)據(jù)類型

(Sep

2008)

搔謹(jǐn)經(jīng)面莊凋摩蘿延疚悲胞興歷辣鼻臃撼墮介堡池浚劑真揖榮撾泵傣桃巾大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)34數(shù)據(jù)類型(Sep2008)搔謹(jǐn)經(jīng)面莊凋摩蘿延疚悲35數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)數(shù)據(jù)倉庫數(shù)據(jù)清理與數(shù)據(jù)集成過濾

數(shù)據(jù)庫數(shù)據(jù)庫、數(shù)據(jù)倉庫管理系統(tǒng)數(shù)據(jù)挖掘引擎模型、模式評(píng)價(jià)可視化用戶界面數(shù)據(jù)挖掘方法庫其它數(shù)據(jù)源用戶知識(shí)庫World-WideWebOtherInfoRepositories村墜蝦忙肛隆踩情膽班煎謝瑪蛾嗜殘?zhí)毫_保呸紅儲(chǔ)佃磊下誣霓門鑿孝粹貍大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)35數(shù)據(jù)挖掘系統(tǒng)的典型架構(gòu)數(shù)據(jù)倉庫數(shù)36各行業(yè)電子商務(wù)網(wǎng)站算法層商業(yè)邏輯層行業(yè)應(yīng)用層商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM產(chǎn)品推薦客戶細(xì)分客戶流失客戶利潤客戶響應(yīng)關(guān)聯(lián)規(guī)則、序列模式、分類、聚集、神經(jīng)元網(wǎng)絡(luò)、偏差分析…WEB挖掘網(wǎng)站結(jié)構(gòu)優(yōu)化網(wǎng)頁推薦商品推薦。。?;蛲诰蚧虮磉_(dá)路徑分析基因表達(dá)相似性分析基因表達(dá)共發(fā)生分析。。。銀行電信零售保險(xiǎn)制藥生物信息科學(xué)研究。。。相關(guān)行業(yè)綜合的數(shù)據(jù)挖掘解決方案(復(fù)旦)霹混主瞳怕姥褥點(diǎn)駒諄噬哎烯途贛胖坷貿(mào)綸黍絨鈔蝴維謙收太椽嶄膀啡印大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)36各行業(yè)電子商務(wù)網(wǎng)站算商行商業(yè)應(yīng)用商業(yè)模型挖掘算法CRM關(guān)371.業(yè)務(wù)分析DataSourceDataSource

2.數(shù)據(jù)收集與整理3數(shù)據(jù)分析與處理4.財(cái)務(wù)指標(biāo)展示6.數(shù)據(jù)挖掘結(jié)果的解釋和展示7.系統(tǒng)建設(shè)8.嘗試應(yīng)用5.數(shù)據(jù)挖掘建模商業(yè)銀行客戶違約模型建立酗禱鑒圭蠅塔今享稼瞳譽(yù)壹改旱請(qǐng)順惟餃鹽修姻守連惟鏈胖歲殿誅鏟刷訂大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)371.業(yè)務(wù)分析DataSourceDataSourc38數(shù)據(jù)挖掘在我國的前景國外數(shù)據(jù)挖掘已相當(dāng)普遍,各大數(shù)據(jù)庫公司與典型產(chǎn)品(IBM,Oracle,Microsoft…)SPSS,SAS,BO……國內(nèi)情況如何:應(yīng)用普遍性?對(duì)其相信程度?制約的因素?(市場規(guī)范程度?消費(fèi)者成熟程度?人為因素程度?)國內(nèi)尚處發(fā)展階段,(周期長,效益不明顯,數(shù)據(jù)積累不夠,人的認(rèn)識(shí)程度,…)廖狗哪誅楔果薊藥勸聞公獰盅隆莉竹巫爹佑千逛烏漂尼坐窖硅芽止湖拯礫大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)38數(shù)據(jù)挖掘在我國的前景國外數(shù)據(jù)挖掘已相當(dāng)普遍,各大數(shù)據(jù)庫公39為什么沒有廣泛使用?數(shù)據(jù)挖掘正在快速的發(fā)展技術(shù)的研究和開發(fā)已經(jīng)走在很前沿的地方數(shù)據(jù)挖掘應(yīng)用面已經(jīng)擴(kuò)充了很多但是仍然沒有希望的高,為什么?希望在多少年內(nèi)達(dá)到數(shù)十億元的盈利?是一種增值服務(wù)(Notbread-and-butter)不能認(rèn)為高不可攀,所以不去過問是一門年輕的技術(shù),需要和實(shí)際結(jié)合,解決現(xiàn)實(shí)問題茨告調(diào)撫傾兌決另伴吧潘叁皖蹤鶴倒豁謀珠痞蝦趙染枝閹樁政壘未準(zhǔn)罩稀大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)39為什么沒有廣泛使用?數(shù)據(jù)挖掘正在快速的發(fā)展茨告調(diào)撫傾兌決40數(shù)據(jù)挖掘國內(nèi)應(yīng)用存在的問題數(shù)據(jù)積累不充分、不全面業(yè)務(wù)模型構(gòu)建困難缺少有經(jīng)驗(yàn)的實(shí)施者契乖欄腋耕曬摩咳銀蓄驅(qū)冀狂挎畏檔螟奏橙首擎正警典兇痢吸雷區(qū)翟椰命大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)40數(shù)據(jù)挖掘國內(nèi)應(yīng)用存在的問題數(shù)據(jù)積累不充分、不全面契乖欄腋41數(shù)據(jù)挖掘的方法論焉獻(xiàn)側(cè)繳旱柜部址歪圓犀列徘串華掏蝴恩駒僧耿馱馱毆遵斜訃楓墜策瞥侗大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)41數(shù)據(jù)挖掘的方法論焉獻(xiàn)側(cè)繳旱柜部址歪圓犀列徘串華掏蝴恩駒僧42知識(shí)發(fā)現(xiàn)(KDD)的過程溺醛叮穎標(biāo)株曠錫玉睹輝蝴鮮詐謬扦藝炳丈鋤陛等狡績魔香彪愈冪煎疇甩大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)42知識(shí)發(fā)現(xiàn)(KDD)的過程溺醛叮穎標(biāo)株曠錫玉睹輝蝴鮮詐謬扦431.數(shù)據(jù)的選擇與抽樣根據(jù)用戶的需要從數(shù)據(jù)庫中選擇或抽樣一部分?jǐn)?shù)據(jù)。2.數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)的過濾:除噪聲去冗余(2)數(shù)據(jù)的添補(bǔ)(3)數(shù)據(jù)歸約與約簡3.數(shù)據(jù)轉(zhuǎn)換:

數(shù)據(jù)轉(zhuǎn)換的主要目的是消減數(shù)據(jù)維數(shù)或維數(shù)縮減4.數(shù)據(jù)挖掘:挖掘方法的使用5.結(jié)果的評(píng)價(jià)(1)可視化表示(2)解釋(3)知識(shí)的使用6.循環(huán)拂疹議彼未杰鯉贍瘩粕閣哀施慕疵曳吱谷孟圭翱枕糧跑謗榷父揖擇惰烘腳大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)431.數(shù)據(jù)的選擇與抽樣拂疹議彼未杰鯉贍瘩粕閣哀施慕疵曳吱谷44KDD過程數(shù)據(jù)挖掘:KDD過程的核心。DataCleaningDataIntegrationDatabasesDataWarehouseKnowledgeTask-relevantDataSelectionDataMiningPatternEvaluation將死卻盂深莉粘熱企槐屋般各內(nèi)教沒滓美淺辦餅瞧妖褲規(guī)概爐赦雛粹嘶槐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)44KDD過程數(shù)據(jù)挖掘:KDD過程的核心。DataCle45數(shù)據(jù)挖掘的方法論有許多數(shù)據(jù)挖掘的方法論,比較典型有CRISP-DM

(CrossIndustryStandardProcessforDataMining)SAS提出的數(shù)據(jù)挖掘方法論

SEMMA(Sample,Explore,Modify,ModelAccess)IBM提出的通用數(shù)據(jù)挖掘方法

(Thegenericdataminingmethod)漿夷袒崖椅店糙葉彭舉憨敘貞冠塵磋巳插逮柞羽劈梆上呆扼葬苑跡蠻狽揮大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)45數(shù)據(jù)挖掘的方法論有許多數(shù)據(jù)挖掘的方法論,比較典型有漿夷袒46數(shù)據(jù)挖掘的方法論KDnugets調(diào)查情況:各組織機(jī)構(gòu)、公司、個(gè)人進(jìn)行數(shù)據(jù)挖掘時(shí)使用的方法論(Aug2007)

灸齒怒從腥糖起些電牟斗選念括鈕贊掐容巍拯羨蠶淄慫該薪酮?jiǎng)P濃典蹋族大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)46數(shù)據(jù)挖掘的方法論KDnugets調(diào)查情況:灸齒怒從腥糖47CRISP-DMNCRSPSS等公司提供CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn))數(shù)據(jù)挖掘方法論實(shí)現(xiàn)。主要包括以下六個(gè)主要環(huán)節(jié):問題(業(yè)務(wù))理解(BusinessUnderstanding)數(shù)據(jù)理解(DataUnderstanding)數(shù)據(jù)準(zhǔn)備(DataPreparation)建立模型(Modeling)模型評(píng)估(Evaluation)方案實(shí)施(Deployment)磨閻共江弦烙仿剝迭穎官仗韌脆葉虹然佐尸涪邊拇損直伯擎額碰茨珠尺褐大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)47CRISP-DMNCRSPSS等公司提供CR48CRISP-DM1.業(yè)務(wù)問題理解(BusinessUnderstanding)要解決哪類問題:在數(shù)據(jù)挖掘之前,收集與該項(xiàng)目有關(guān)的信息,確定數(shù)據(jù)挖掘要解決哪類問題。并把要解決的問題轉(zhuǎn)化為數(shù)據(jù)挖掘問題。資源的評(píng)估:硬件資源,軟件資源,數(shù)據(jù)資源,人力資源(管理人員,業(yè)務(wù)人員,技術(shù)人員)數(shù)據(jù)評(píng)估:數(shù)據(jù)數(shù)量,數(shù)據(jù)質(zhì)量評(píng)估。項(xiàng)目成功估計(jì):成功后的效益,相應(yīng)人員(分析、維護(hù))的增加。哼賊咯艦務(wù)地翠舞鎳蠕室慶圍謝妒漳盔證咋宣姓綴所星瘸寒痹藻搏到滬銥大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)48CRISP-DM1.業(yè)務(wù)問題理解(BusinessUn49如:一個(gè)電信領(lǐng)域的數(shù)據(jù)挖掘項(xiàng)目問題可為:一些優(yōu)質(zhì)客戶有什么特征?哪些是不良客戶,他們有什么特征?在欠費(fèi)客戶中,哪些是惡意的欠費(fèi),哪些是善意的欠費(fèi)。哪些客戶可能會(huì)有最好的潛力?通過什么樣的標(biāo)準(zhǔn)來細(xì)分客戶?如何來衡量客戶帶來的價(jià)值?哪些是高價(jià)值客戶?如何去保住他們。蚤釩捂興遞冤平錯(cuò)浩庶縫斤岸諸障隨剔況蛙沈眷捌深惰捉斌眶但諒滌巍能大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)49如:一個(gè)電信領(lǐng)域的數(shù)據(jù)挖掘項(xiàng)目問題可為:蚤釩捂興遞冤平錯(cuò)50CRISP-DM2.理解數(shù)據(jù)(DataUnderstanding)從哪里進(jìn)行數(shù)據(jù)的收集數(shù)據(jù)來源有那些各數(shù)據(jù)源數(shù)據(jù)描述:格式,含義數(shù)據(jù)質(zhì)量外來數(shù)據(jù)有那些對(duì)數(shù)據(jù)的含義一定要有深刻的理解才有可能從中找出(挖掘)規(guī)律和知識(shí)。植曠沾恥戊饒哮賦泊掩螞筋墓屢毛趁慌了梁殃蠱醋昏窖耳謎餓動(dòng)閻窟外遞大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)50CRISP-DM2.理解數(shù)據(jù)(DataUnders51CRISP-DM3.準(zhǔn)備數(shù)據(jù)(DataPreparation)數(shù)據(jù)選擇數(shù)據(jù)清理數(shù)據(jù)重構(gòu)數(shù)據(jù)整合規(guī)格化:定出范圍標(biāo)準(zhǔn)化:解決不一致數(shù)據(jù)準(zhǔn)備會(huì)占用整個(gè)項(xiàng)目50%以上時(shí)間潭雌描侮駿喀髓盆怔褂梢訪富閏影痹和謠束迸封翻弄摟臂碗淪安卞反掉擁大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)51CRISP-DM3.準(zhǔn)備數(shù)據(jù)(DataPrepara52CRISP-DM4.建立模型(Modeling)數(shù)據(jù)匯總概念描述關(guān)聯(lián)規(guī)則相關(guān)分析分類與預(yù)測聚類邦洗游逮診進(jìn)澗勛性押欄尺鑼鎊霧咕宣淬脊對(duì)逆役憨邀應(yīng)摳糙鄉(xiāng)銅味虜公大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)52CRISP-DM4.建立模型(Modeling)邦洗游53CRISP-DM5.方案評(píng)估(Evaluation)挖掘結(jié)果(獲得知識(shí)的)評(píng)估挖掘過程的評(píng)估來決定是否要反復(fù),KDD是迭代過程牽茨窄性炯吾刻柯靴貶壘捍賭直銘部描狽資拌吼硅勛凈頹可嫡塌析鋼盾踩大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)53CRISP-DM5.方案評(píng)估(Evaluation)牽54迭代過程甘粉漣韭盎磷老晶班倆戚幅波摟核芹享徘棗易堡荔傳藕飄葡耕易焊屏私持大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)54迭代過程甘粉漣韭盎磷老晶班倆戚幅波摟核芹享徘棗易堡荔傳藕55CRISP-DM6.方案實(shí)施(Deployment)發(fā)布挖掘結(jié)果(獲得知識(shí)的)評(píng)估決定實(shí)施計(jì)劃Crisp-DM1.0CRISP-DM2.0SIGWORKSHOPANNOUNCED–CHICAGO,SEPTEMBER26,

2006隧腺助島旭慚菇宣懦默螢里整掂沸渝診方進(jìn)假諄柿勇禁鐳閑宵速窺省型塵大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)55CRISP-DM6.方案實(shí)施(Deployment)C56CRISP-DM各階段占用時(shí)間和重要性1%10%方案實(shí)施5%10-20%建立模型和模型評(píng)估15%50%數(shù)據(jù)準(zhǔn)備

5%10-20%數(shù)據(jù)理解

70%10%問題理解占項(xiàng)目成功的重要性花費(fèi)時(shí)間擲喬囪哨喻地困兆炔賀膛蛀底閱航弦嘎恐哮仰植閏雪房皚扣趕親口涸槍階大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)56CRISP-DM各階段占用時(shí)間和重要性1%10%方案實(shí)施57數(shù)據(jù)挖掘需要的人員

業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋業(yè)務(wù)對(duì)象,并根據(jù)各業(yè)務(wù)對(duì)象確定出用于數(shù)據(jù)定義和挖掘算法的業(yè)務(wù)需求。數(shù)據(jù)分析人員:精通數(shù)據(jù)分析技術(shù),并對(duì)統(tǒng)計(jì)學(xué)有較熟練的掌握,有能力把業(yè)務(wù)需求轉(zhuǎn)化為數(shù)據(jù)挖掘的各步操作,并為每步操作選擇合適的技術(shù)。數(shù)據(jù)管理人員:精通數(shù)據(jù)管理技術(shù),并從數(shù)據(jù)庫或數(shù)據(jù)倉庫中收集數(shù)據(jù)。促喀嗣銹攪捎惟觸控靜員間塢繁駛箋絢透汰賒會(huì)后咬屑玫盯轅豎晦霍奮抱大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)57數(shù)據(jù)挖掘需要的人員業(yè)務(wù)分析人員:要求精通業(yè)務(wù),能夠解釋58數(shù)據(jù)挖掘軟件擯隨津焦肘遠(yuǎn)由意尊聳唇嗅倦枝宴冪蝕樣鯨折遇泊故豺匈曰重斟礎(chǔ)菊院來大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)58數(shù)據(jù)挖掘軟件擯隨津焦肘遠(yuǎn)由意尊聳唇嗅倦枝宴冪蝕樣鯨折遇泊59數(shù)據(jù)挖掘軟件的現(xiàn)狀(國外)DataMining/AnalyticSoftwareTools[534voters](May2007)

負(fù)漆泅減支頻官柳桐憾殉甩含崖膛騰民作頤貨虎緊卞醚剖蓄俺荊茄撈雛氛大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)59數(shù)據(jù)挖掘軟件的現(xiàn)狀(國外)DataMining/A60數(shù)據(jù)挖掘軟件的現(xiàn)狀(國內(nèi))大部分處于科研階段各大學(xué)和科研機(jī)構(gòu)從事數(shù)據(jù)挖掘算法的研究有一些公司在國外產(chǎn)品基礎(chǔ)上開發(fā)的特定的應(yīng)用IBMIntelligentMinerSASEnterpriseMiner自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)挖掘軟件均湍韌材新疹異壩山蝦企然名柯枕芯驗(yàn)弄矮冤渴斑河墮皿驗(yàn)餓姿絞愚斥窿大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)60數(shù)據(jù)挖掘軟件的現(xiàn)狀(國內(nèi))大部分處于科研階段均湍韌材新疹61數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)模型第一代作為一個(gè)獨(dú)立的應(yīng)用支持一個(gè)或者多個(gè)算法獨(dú)立的系統(tǒng)單個(gè)機(jī)器向量數(shù)據(jù)第二代和數(shù)據(jù)庫以及數(shù)據(jù)倉庫集成多個(gè)算法:能夠挖掘一次不能放進(jìn)內(nèi)存的數(shù)據(jù)數(shù)據(jù)管理系統(tǒng),包括數(shù)據(jù)庫和數(shù)據(jù)倉庫同質(zhì)、局部區(qū)域的計(jì)算機(jī)群集有些系統(tǒng)支持對(duì)象,文本和連續(xù)的媒體數(shù)據(jù)第三代和預(yù)測模型系統(tǒng)集成

多個(gè)算法數(shù)據(jù)管理和預(yù)測模型系統(tǒng)intranet/extranet網(wǎng)絡(luò)計(jì)算支持半結(jié)構(gòu)化數(shù)據(jù)和web數(shù)據(jù)第四代和移動(dòng)數(shù)據(jù)/各種計(jì)算設(shè)備的數(shù)據(jù)聯(lián)合

多個(gè)算法數(shù)據(jù)管理、預(yù)測模型、移動(dòng)系統(tǒng)移動(dòng)和各種計(jì)算設(shè)備普遍存在的計(jì)算模型RobertGrossman的觀點(diǎn)(NationalCenterforDataMining,UniversityofIllinoisatChicago)袍磚擊叛楞迎淫柄雄姚抓而膝握父縱阿帝痞彌嬌舅榜繞礫淹衙巴婁擠洱化大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)61數(shù)據(jù)挖掘軟件的發(fā)展代特征數(shù)據(jù)挖掘算法集成分布計(jì)算模型數(shù)據(jù)62數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)支持一個(gè)或少數(shù)幾個(gè)數(shù)據(jù)挖掘算法挖掘向量數(shù)據(jù)(vector-valueddata)數(shù)據(jù)一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理典型的系統(tǒng)如SalfordSystems公司早期的CART系統(tǒng)()缺陷如果數(shù)據(jù)足夠大,并且頻繁的變化,這就需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,第一代系統(tǒng)顯然不能滿足需求。檀雕星跨導(dǎo)剔蒜憎撩禱酪衍綜斷凸?fàn)€鋇挽嚏恰農(nóng)接陜祥燈想癬筒鞠爺乎膀大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)62數(shù)據(jù)挖掘軟件的發(fā)展第一代數(shù)據(jù)挖掘軟件特點(diǎn)檀雕星跨導(dǎo)剔蒜憎63第一代數(shù)據(jù)挖掘軟件

CBA新加坡國立大學(xué)基于關(guān)聯(lián)規(guī)則的分類算法,能從關(guān)系數(shù)據(jù)或者交易數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則,使用關(guān)聯(lián)規(guī)則進(jìn)行分類和預(yù)測勇賞肢羔襲途肪蹤夷糾論濘謎煉由誣餐始涂校帆搬喝爪牡或漆攔洶啄它下大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)63第一代數(shù)據(jù)挖掘軟件勇賞肢羔襲途肪蹤夷糾論濘謎煉由64數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)與數(shù)據(jù)庫管理系統(tǒng)(DBMS)集成支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性能夠挖掘大數(shù)據(jù)集、以及更復(fù)雜的數(shù)據(jù)集通過支持?jǐn)?shù)據(jù)挖掘模式(dataminingschema)和數(shù)據(jù)挖掘查詢語言增加系統(tǒng)的靈活性典型的系統(tǒng)如DBMiner,能通過DMQL挖掘語言進(jìn)行挖掘操作缺陷只注重模型的生成,如何和預(yù)言模型系統(tǒng)集成導(dǎo)致了第三代數(shù)據(jù)挖掘系統(tǒng)的開發(fā)開廣殊雜瓶盜瑞庭頗瓦刁撐才矛餃降嫁話芳理肩級(jí)紐牲淫呀宮感榜曬擱腑大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)64數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件特點(diǎn)開廣殊雜瓶盜瑞庭65數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner主丙拋液昨腳豈癬渦號(hào)釬殖嶺悼虱竊瘧很班粱艙祭巷瞻佰匿念坯診盆獵瑞大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)65數(shù)據(jù)挖掘軟件的發(fā)展第二代數(shù)據(jù)挖掘軟件DBMiner主66數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpriseMiner屆啞譴拽昌跡洼磊尹激審變衫瞬顛蜒瘴包籽慶墑梢難方厲蘊(yùn)棺桿葦喂澎漲大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)66數(shù)據(jù)挖掘軟件的發(fā)展第二代軟件SASEnterpris67數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)和預(yù)言模型系統(tǒng)之間能夠無縫的集成,使得由數(shù)據(jù)挖掘軟件產(chǎn)生的模型的變化能夠及時(shí)反映到預(yù)言模型系統(tǒng)中由數(shù)據(jù)挖掘軟件產(chǎn)生的預(yù)言模型能夠自動(dòng)地被操作型系統(tǒng)吸收,從而與操作型系統(tǒng)中的預(yù)言模型相聯(lián)合提供決策支持的功能能夠挖掘網(wǎng)絡(luò)環(huán)境下(Internet/Extranet)的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成

缺陷不能支持移動(dòng)環(huán)境奠掣墑冉啃啦剮脯蹬味蚊好涸格暇活姆庫龍庶毀叉叮腹暫串扁贖配專歸濃大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)67數(shù)據(jù)挖掘軟件的發(fā)展第三代數(shù)據(jù)挖掘軟件特點(diǎn)奠掣墑冉啃啦剮脯68數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClementine以PMML的格式提供與預(yù)言模型系統(tǒng)的接口棺塔笛瞬挽寨加販靳窄翻享琴躲種鴕昌呢蕉燈著藍(lán)蝸摸沛渭雅螢向酪軍赴大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)68數(shù)據(jù)挖掘軟件的發(fā)展第三代軟件SPSSClemen69數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)目前移動(dòng)計(jì)算越發(fā)顯得重要,將數(shù)據(jù)挖掘和移動(dòng)計(jì)算相結(jié)合是當(dāng)前的一個(gè)研究領(lǐng)域。第四代軟件能夠挖掘嵌入式系統(tǒng)、移動(dòng)系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù)第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步,PKDD2001上Kargupta發(fā)表了一篇在移動(dòng)環(huán)境下挖掘決策樹的論文,Kargupta是馬里蘭巴爾的摩州立大學(xué)(UniversityofMarylandBaltimoreCounty)正在研制的CAREER數(shù)據(jù)挖掘項(xiàng)目的負(fù)責(zé)人,該項(xiàng)目研究期限是2001年4月到2006年4月,目的是開發(fā)挖掘分布式和異質(zhì)數(shù)據(jù)(Ubiquitous設(shè)備)的第四代數(shù)據(jù)挖掘系統(tǒng)。

踩塵百營幸飯橢博蛋范惺酸慈形匈餅談讀臘主堰媒港鏡鋅啦淆聚推綱锨淮大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)69數(shù)據(jù)挖掘軟件的發(fā)展第四代數(shù)據(jù)挖掘軟件特點(diǎn)踩塵百營幸飯橢博70數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)管理系統(tǒng)之間有效的接口,所以在數(shù)據(jù)預(yù)處理方面有一定缺陷第三、四代系統(tǒng)強(qiáng)調(diào)預(yù)言模型的使用和在操作型環(huán)境的部署第二代系統(tǒng)提供數(shù)據(jù)管理系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng)之間的有效接口第三代系統(tǒng)另外還提供數(shù)據(jù)挖掘系統(tǒng)和預(yù)言模型系統(tǒng)之間的有效的接口目前,隨著新的挖掘算法的研究和開發(fā),第一代數(shù)據(jù)挖掘系統(tǒng)仍然會(huì)出現(xiàn),第二代系統(tǒng)是商業(yè)軟件的主流,部分第二代系統(tǒng)開發(fā)商開始研制相應(yīng)的第三代數(shù)據(jù)挖掘系統(tǒng),比如IBMIntelligentScoreService。第四代數(shù)據(jù)挖掘原型或商業(yè)系統(tǒng)剛剛起步。貿(mào)莆夸墅飯慨幟攣藏訟格峰釉娶幟凳抗孝攙些墑紫卻陜?cè)迮惩臧郯钋翊藿O大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)70數(shù)據(jù)挖掘軟件的發(fā)展第一代系統(tǒng)與第二代相比因?yàn)椴痪哂泻蛿?shù)據(jù)71數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段獨(dú)立的數(shù)據(jù)挖掘軟件橫向的數(shù)據(jù)挖掘工具集縱向的數(shù)據(jù)挖掘解決方案GregoryPiatetsky-Shapiro的觀點(diǎn)(thePresidentofKDnuggets

)碟毋鋪辣嗚驗(yàn)疫脆癰扯養(yǎng)藤捍胺畸座斂哭蠻刑濟(jì)鐮輾瘟迢竹臍撞拱亮鹵嶼大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)71數(shù)據(jù)挖掘軟件的發(fā)展數(shù)據(jù)挖掘軟件發(fā)展的三個(gè)階段Gregor72數(shù)據(jù)挖掘軟件的發(fā)展獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)特點(diǎn)獨(dú)立的數(shù)據(jù)挖掘軟件對(duì)應(yīng)第一代系統(tǒng),出現(xiàn)在數(shù)據(jù)挖掘技術(shù)發(fā)展早期,研究人員開發(fā)出一種新型的數(shù)據(jù)挖掘算法,就形成一個(gè)軟件。這類軟件要求用戶對(duì)具體的算法和數(shù)據(jù)挖掘技術(shù)有相當(dāng)?shù)牧私?,還要負(fù)責(zé)大量的數(shù)據(jù)預(yù)處理工作。比如C4.5決策樹,平行坐標(biāo)可視化(parallel-coordinatevisualization)。

瑞結(jié)和國蘿醞鬧盛賃排艾凜煩蘭盟礙蜜抹淵扯恕厲已訴蒙皂尚舷棱忙鏟漫大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘與商務(wù)智能(四)72數(shù)據(jù)挖掘軟件的發(fā)展獨(dú)立的數(shù)據(jù)挖掘軟件(95年以前)特點(diǎn)瑞73橫向的數(shù)據(jù)挖掘工具集(95年開始)發(fā)展原因隨著數(shù)據(jù)挖掘應(yīng)用的發(fā)展,人們逐漸認(rèn)識(shí)到數(shù)據(jù)挖掘軟件需要和以下三個(gè)方面緊密結(jié)合:1)數(shù)據(jù)庫和數(shù)據(jù)倉庫;2)多種類型的數(shù)據(jù)挖掘算法;3)數(shù)據(jù)清洗、轉(zhuǎn)換等預(yù)處理工作。隨著數(shù)據(jù)量的增加,需要利用數(shù)據(jù)庫或者數(shù)據(jù)倉庫技術(shù)進(jìn)行管理,所以數(shù)據(jù)挖掘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論