版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘與商務(wù)智能范勤勤物流研究中心目錄第一章聯(lián)系方式辦公地點(diǎn):科研樓429BEmail:forever123fan@163.com考核方式閉卷考試(70%)+考勤(30%)課時(shí)安排總學(xué)時(shí)36,起止1-9周目錄第一章內(nèi)容安排第一章緒論第二章挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性第三章分類(lèi):基本概念第四章分類(lèi):高級(jí)方法第五章聚類(lèi)分析:基本概念和方法第六章離群點(diǎn)檢測(cè)第七章認(rèn)識(shí)數(shù)據(jù)第八章數(shù)據(jù)預(yù)處理目錄第一章參考書(shū)JiaweiHan,MichelineKamber,JianPei(著).范明,孟小峰.(譯)
數(shù)據(jù)挖掘:概念與技術(shù),機(jī)械工業(yè)出版社,2012.MargaretH.Dunham.數(shù)據(jù)挖掘教程.清華大學(xué)出版社.2003(英文)U.M.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy.AdvancesinKnowledgeDiscoveryandDataMining.AAAI/MITPress,1996.史忠植.知識(shí)發(fā)現(xiàn).清華大學(xué)出版社,2002.陳文偉,黃金才.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘.人民郵電出版社,20041234567第一章緒論為什么進(jìn)行數(shù)據(jù)挖掘?什么是數(shù)據(jù)挖掘?可以挖掘什么類(lèi)型的數(shù)據(jù)?可以挖掘什么類(lèi)型的模式?使用什么技術(shù)?面向什么類(lèi)型的應(yīng)用?數(shù)據(jù)挖掘的主要問(wèn)題?目錄第一章為什么進(jìn)行數(shù)據(jù)挖掘?數(shù)據(jù)挖掘的發(fā)展動(dòng)力數(shù)據(jù)爆炸問(wèn)題自動(dòng)數(shù)據(jù)收集工具和成熟的數(shù)據(jù)庫(kù)技術(shù)使得大量的數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中以待分析Business:Web,e-commerce,transactions,stocks,…Science:Remotesensing,bioinformatics,scientificsimulation,…Societyandeveryone:News,YouKu,wechat,QQ,….7數(shù)據(jù)挖掘的發(fā)展動(dòng)力8巨量數(shù)據(jù)的例子Europe‘sVeryLongBaselineInterferometry(VLBI,特長(zhǎng)基線干涉儀):16個(gè)天文望遠(yuǎn)鏡,每個(gè)望遠(yuǎn)鏡每秒產(chǎn)生1個(gè)G的天文觀測(cè)數(shù)據(jù)。電信公司數(shù)據(jù):每天有幾十億的電話(huà)。銀行數(shù)據(jù):交易記錄。百度:每天處理的數(shù)據(jù)量將近100個(gè)PB,1PB=100萬(wàn)個(gè)G,相當(dāng)于5000個(gè)國(guó)家圖書(shū)館的信息量總和。航運(yùn):一艘營(yíng)運(yùn)中的船舶,24小時(shí)內(nèi)通常會(huì)生成高達(dá)2GB的數(shù)據(jù)信息,這包括天氣、發(fā)動(dòng)機(jī)、航行位置、速度、燃油消耗等。數(shù)據(jù)挖掘的發(fā)展動(dòng)力-社會(huì)需求9我們擁有豐富的數(shù)據(jù),但卻缺乏知識(shí)人們渴望通過(guò)對(duì)這些龐大的數(shù)據(jù)分析得到更多的有助于決策的信息。雖然,目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效率地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢(xún)、統(tǒng)計(jì)等功能,但由于數(shù)據(jù)量龐大以及數(shù)據(jù)庫(kù)系統(tǒng)中分析方法的嚴(yán)重缺乏,使得它無(wú)法發(fā)現(xiàn)數(shù)據(jù)中隱藏的相互聯(lián)系,更無(wú)法根據(jù)當(dāng)前的數(shù)據(jù)去預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。因此,出現(xiàn)了所謂“數(shù)據(jù)多,知識(shí)少”的現(xiàn)象,造成了嚴(yán)重的資源浪費(fèi)。數(shù)據(jù)挖掘的發(fā)展動(dòng)力數(shù)據(jù)挖掘從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的綜合解決方法數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)和在線分析處理(OLAP)10社會(huì)信息化后,社會(huì)的運(yùn)轉(zhuǎn)是軟件的運(yùn)轉(zhuǎn)社會(huì)信息化后,社會(huì)的歷史是數(shù)據(jù)的歷史
數(shù)據(jù)管理系統(tǒng)
數(shù)據(jù)收集和數(shù)據(jù)庫(kù)創(chuàng)建數(shù)據(jù)庫(kù)技術(shù)的演化文件系統(tǒng)1960s和以前層次數(shù)據(jù)庫(kù)和網(wǎng)狀數(shù)據(jù)庫(kù)1970s關(guān)系數(shù)據(jù)模型,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)的實(shí)現(xiàn)1980s早期各種高級(jí)數(shù)據(jù)庫(kù)系統(tǒng)(擴(kuò)展的關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)等等)面向應(yīng)用的數(shù)據(jù)庫(kù)系統(tǒng)(空間數(shù)據(jù)庫(kù)、時(shí)序數(shù)據(jù)庫(kù)、多媒體數(shù)據(jù)庫(kù)等等)1980s晚期數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)、多媒體數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)數(shù)據(jù)庫(kù)1990s流數(shù)據(jù)管理和挖掘基于各種應(yīng)用的數(shù)據(jù)挖掘XML數(shù)據(jù)庫(kù)和整合的信息系統(tǒng)2000s11什么是數(shù)據(jù)挖掘?概述數(shù)據(jù)挖掘(從數(shù)據(jù)中發(fā)現(xiàn)知識(shí))從大量的數(shù)據(jù)中挖掘哪些令人感興趣的(易被理解、新穎的、潛在有用的、非平凡的)模式或知識(shí)挖掘的不僅僅是數(shù)據(jù)(所以“數(shù)據(jù)挖掘”并非一個(gè)精確的用詞)數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測(cè)模型數(shù)據(jù)挖掘的替換詞數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)知識(shí)提煉數(shù)據(jù)/模式分析數(shù)據(jù)考古數(shù)據(jù)捕撈、信息收獲等等13數(shù)據(jù)挖掘:數(shù)據(jù)庫(kù)中的知識(shí)挖掘(KDD)數(shù)據(jù)挖掘——知識(shí)挖掘的核心數(shù)據(jù)清理數(shù)據(jù)集成數(shù)據(jù)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)Knowledge任務(wù)相關(guān)數(shù)據(jù)選擇數(shù)據(jù)挖掘模式評(píng)估14KDD的步驟KDD過(guò)程數(shù)據(jù)清理:(消除噪聲和刪除不一致的數(shù)據(jù)。占全過(guò)程60%的工作量)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)數(shù)據(jù)選擇(從數(shù)據(jù)庫(kù)中提取與分析任務(wù)相關(guān)的數(shù)據(jù))數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式)數(shù)據(jù)挖掘(核心步驟,使用智能方法提取數(shù)據(jù)模式)模式評(píng)估(根據(jù)某種興趣度度量,識(shí)別提供知識(shí)的真正有趣的模式)知識(shí)表示(使用可視化和知識(shí)表示技術(shù),向用戶(hù)提供挖掘的知識(shí))15典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)清洗過(guò)濾數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器數(shù)據(jù)挖掘引擎模式評(píng)估圖形用戶(hù)界面知識(shí)庫(kù)數(shù)據(jù)集成16數(shù)據(jù)挖掘系統(tǒng)的特征17數(shù)據(jù)的特征算法的特征知識(shí)系統(tǒng)的特征數(shù)據(jù)挖掘系統(tǒng)的特征——數(shù)據(jù)特征18大容量POS數(shù)據(jù)(某個(gè)超市每天要處理高達(dá)2000萬(wàn)筆交易)衛(wèi)星圖像(NASA的地球觀測(cè)衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類(lèi)型混合的數(shù)據(jù)源,來(lái)自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)數(shù)據(jù)挖掘系統(tǒng)的特征——算法特征19構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語(yǔ)言:反映了算法可以發(fā)現(xiàn)什么樣的知識(shí)模式評(píng)價(jià):反映了什么樣的模式可以稱(chēng)為知識(shí)模式探索:包括針對(duì)某一特定模式對(duì)參數(shù)空間的探索和對(duì)模式空間的探索主要方法分類(lèi)聚類(lèi)相關(guān)規(guī)則回歸其他數(shù)據(jù)挖掘系統(tǒng)的特征——知識(shí)系統(tǒng)特征20知識(shí)發(fā)現(xiàn)系統(tǒng)需要一個(gè)前處理過(guò)程知識(shí)發(fā)現(xiàn)系統(tǒng)是一個(gè)自動(dòng)/半自動(dòng)過(guò)程知識(shí)發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識(shí)規(guī)則分類(lèi)關(guān)聯(lián)并非所有的東西都是數(shù)據(jù)挖掘基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP系統(tǒng)OLAP系統(tǒng)專(zhuān)注于數(shù)據(jù)的匯總,而數(shù)據(jù)挖掘系統(tǒng)可以對(duì)數(shù)據(jù)進(jìn)行多種復(fù)雜的處理信息系統(tǒng)專(zhuān)注于數(shù)據(jù)的查詢(xún)處理機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個(gè)多學(xué)科的融合21可以挖掘什么類(lèi)型的數(shù)據(jù)?數(shù)據(jù)類(lèi)型數(shù)據(jù)庫(kù)數(shù)據(jù)事務(wù)數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)其他類(lèi)型的數(shù)據(jù)空間數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù)流數(shù)據(jù)多媒體數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)異種數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)23數(shù)據(jù)庫(kù)數(shù)據(jù)數(shù)據(jù)庫(kù)數(shù)據(jù)24數(shù)據(jù)庫(kù)系統(tǒng):由一組內(nèi)部相關(guān)的數(shù)據(jù)和一組管理和存取數(shù)據(jù)的軟件程序組成關(guān)系數(shù)據(jù)庫(kù)是表的匯集,每個(gè)表都被賦予一個(gè)唯一的名字。例子:商店、學(xué)校當(dāng)數(shù)據(jù)挖掘用于關(guān)系數(shù)據(jù)庫(kù)時(shí),可以進(jìn)一步搜索趨勢(shì)或數(shù)據(jù)模式。分析顧客數(shù)據(jù):新顧客的信用風(fēng)險(xiǎn)檢測(cè)偏差:哪些商品的銷(xiāo)售出人預(yù)料數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)25數(shù)據(jù)倉(cāng)庫(kù)(數(shù)據(jù)立方體):是一個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲(chǔ)庫(kù),存放在一致的模式下,并且通常駐留在單個(gè)站點(diǎn)上。例子:沃爾瑪,銀行事務(wù)數(shù)據(jù)事務(wù)數(shù)據(jù)26事務(wù)數(shù)據(jù)庫(kù)的每個(gè)記錄代表一個(gè)事務(wù):如顧客的一個(gè)購(gòu)物,一個(gè)航班訂票事務(wù)標(biāo)識(shí)號(hào)(trans_ID)商品ID的列表T0011,5,8,9,12T0021,8,14……數(shù)據(jù)挖掘技術(shù)的應(yīng)用通過(guò)頻繁項(xiàng)集來(lái)挖掘促銷(xiāo)策略:如一起銷(xiāo)售商品的集合空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)空間數(shù)據(jù)庫(kù)是指在關(guān)系型數(shù)據(jù)庫(kù)(DBMS)內(nèi)部對(duì)地理信息進(jìn)行物理存儲(chǔ)。空間數(shù)據(jù)庫(kù)中存儲(chǔ)的海量數(shù)據(jù)包括對(duì)象的空間拓?fù)涮卣?、非空間屬性特征以及對(duì)象在時(shí)間上的狀態(tài)變化數(shù)據(jù)挖掘技術(shù)的應(yīng)用通過(guò)空間分類(lèi)和空間趨勢(shì)分析,引入機(jī)器學(xué)習(xí)算法,對(duì)有用模式進(jìn)行智能檢索常見(jiàn)的空間數(shù)據(jù)庫(kù)數(shù)據(jù)類(lèi)型地理信息系統(tǒng)(GIS)遙感圖像數(shù)據(jù)醫(yī)學(xué)圖像數(shù)據(jù)27時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)都存放與時(shí)間有關(guān)的數(shù)據(jù)。時(shí)間數(shù)據(jù)庫(kù)通常存放包含時(shí)間相關(guān)屬性的數(shù)據(jù)。時(shí)序數(shù)據(jù)庫(kù)存放隨時(shí)間變化的值序列例子:股票市場(chǎng)的價(jià)格、環(huán)境溫度、銀行交易等對(duì)時(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘?qū)r(shí)間數(shù)據(jù)庫(kù)和時(shí)序數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,可以通過(guò)研究事物發(fā)生發(fā)展的過(guò)程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對(duì)象的演變特征或?qū)ο笞兓厔?shì)28流數(shù)據(jù)特點(diǎn)與傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)相比,流數(shù)據(jù)在存儲(chǔ)、查詢(xún)、訪問(wèn)、實(shí)時(shí)性的要求等方面都有很大區(qū)別主要應(yīng)用場(chǎng)合網(wǎng)絡(luò)監(jiān)控傳感器網(wǎng)絡(luò)航空航天流媒體…等等29多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)多媒體數(shù)據(jù)庫(kù)實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫(kù)技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對(duì)象的形式進(jìn)行存儲(chǔ)對(duì)于多媒體數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘?qū)τ诙嗝襟w數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,需要將存儲(chǔ)和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫(kù)的多特征提取和基于相似性的模式匹配30面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)面向?qū)ο髷?shù)據(jù)庫(kù)是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫(kù)技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對(duì)數(shù)據(jù)以對(duì)象的形式進(jìn)行存儲(chǔ),并在這個(gè)基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫(kù)的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢(xún)數(shù)據(jù)庫(kù)的能力等數(shù)據(jù)挖掘面向?qū)ο髷?shù)據(jù)庫(kù)和對(duì)象-關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)挖掘會(huì)涉及一些新的技術(shù),比如處理復(fù)雜對(duì)象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類(lèi)型、類(lèi)和子類(lèi)層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過(guò)程等等。對(duì)象-關(guān)系數(shù)據(jù)庫(kù)對(duì)象-關(guān)系數(shù)據(jù)庫(kù)基于對(duì)象-關(guān)系模型構(gòu)造,該模型通過(guò)處理復(fù)雜對(duì)象的豐富數(shù)據(jù)類(lèi)型和對(duì)象定位等功能,擴(kuò)充關(guān)系模型31異構(gòu)數(shù)據(jù)庫(kù)和歷史(legacy)數(shù)據(jù)庫(kù)歷史數(shù)據(jù)庫(kù)是一系列的異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)的集合,包括不同種類(lèi)的數(shù)據(jù)庫(kù)系統(tǒng),像關(guān)系數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、文件系統(tǒng)等等對(duì)于異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)共享應(yīng)當(dāng)達(dá)到兩點(diǎn)一是實(shí)現(xiàn)數(shù)據(jù)庫(kù)轉(zhuǎn)換;二是實(shí)現(xiàn)數(shù)據(jù)的透明訪問(wèn)。有效利用歷史數(shù)據(jù)庫(kù)的關(guān)鍵在于實(shí)現(xiàn)不同數(shù)據(jù)庫(kù)之間的數(shù)據(jù)信息資源、硬件設(shè)備資源和人力資源的合并和共享WEBSERVICE技術(shù)的出現(xiàn)有利于歷史數(shù)據(jù)庫(kù)數(shù)據(jù)的重新利用32文本數(shù)據(jù)庫(kù)和萬(wàn)維網(wǎng)(WWW)文本數(shù)據(jù)庫(kù)存儲(chǔ)的是對(duì)對(duì)象的文字性描述萬(wàn)維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫(kù)文本數(shù)據(jù)庫(kù)的分類(lèi)無(wú)結(jié)構(gòu)類(lèi)型(大部分的文本資料和網(wǎng)頁(yè))半結(jié)構(gòu)類(lèi)型(XML數(shù)據(jù))結(jié)構(gòu)類(lèi)型(圖書(shū)館數(shù)據(jù))數(shù)據(jù)挖掘內(nèi)容內(nèi)容檢索WEB訪問(wèn)模式檢索33數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理數(shù)據(jù)從那里來(lái)?信用卡交易、會(huì)員卡、商家的優(yōu)惠卷、消費(fèi)者投訴電話(huà)、公眾生活方式研究交叉市場(chǎng)分析貨物銷(xiāo)售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測(cè)目標(biāo)市場(chǎng)構(gòu)建一系列的“客戶(hù)群模型”,這些顧客具有相同特征:興趣愛(ài)好、收入水平、消費(fèi)習(xí)慣,等等確定顧客的購(gòu)買(mǎi)模式34數(shù)據(jù)挖掘應(yīng)用——市場(chǎng)分析和管理顧客分析哪類(lèi)顧客購(gòu)買(mǎi)哪種商品(聚類(lèi)分析或分類(lèi)預(yù)測(cè))提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息(數(shù)據(jù)的集中趨勢(shì)和變化)客戶(hù)需求分析確定適合不同顧客的最佳商品預(yù)測(cè)何種因素能夠吸引新顧客35數(shù)據(jù)挖掘應(yīng)用——公司分析和風(fēng)險(xiǎn)管理財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測(cè)交叉區(qū)域分析和時(shí)間序列分析(財(cái)務(wù)資金比率,趨勢(shì)分析等等)競(jìng)爭(zhēng)對(duì)競(jìng)爭(zhēng)者和市場(chǎng)趨勢(shì)的監(jiān)控將顧客按等級(jí)分組和基于等級(jí)的定價(jià)過(guò)程將定價(jià)策略應(yīng)用于競(jìng)爭(zhēng)更激烈的市場(chǎng)中資源計(jì)劃總結(jié)和比較資源和花費(fèi)36數(shù)據(jù)挖掘應(yīng)用——欺詐行為檢測(cè)和異常模式的發(fā)現(xiàn)方法對(duì)欺騙行為進(jìn)行聚類(lèi)和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用(衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等)汽車(chē)保險(xiǎn):檢測(cè)交通事故獲取保險(xiǎn)賠償?shù)娜巳合村X(qián):發(fā)現(xiàn)可疑的貨幣交易行為醫(yī)療保險(xiǎn):職業(yè)病人,醫(yī)生以及相關(guān)數(shù)據(jù)分析;不必要的或相關(guān)的測(cè)試電信:電話(huà)呼叫欺騙行為;電話(huà)呼叫模型(呼叫目的地、持續(xù)時(shí)間、日或周呼叫次數(shù)。分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差)零售產(chǎn)業(yè):分析師估計(jì)有38%的零售額下降是由于雇員的不誠(chéng)實(shí)行為造成的反恐怖主義37數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例38例子1:信貸決策(inthe1980s,AmericanExpress)已知:申請(qǐng)人金融和個(gè)人信息調(diào)查表問(wèn)題:是否批準(zhǔn)貸款簡(jiǎn)單的統(tǒng)計(jì)方法可以決定90%的案例“臨界線案例”要由信貸員做出決定50%準(zhǔn)予貸款的“臨界線案例”未按期還款.解決方案:拒絕所有“臨界線案例”?No!臨界線案例是最活躍的,重要的客戶(hù)數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例39例子1:信貸決策(inthe1980s,AmericanExpress)1000“臨界線案例”的訓(xùn)練集20個(gè)屬性:年齡為當(dāng)前老板工作的年限在當(dāng)前居住地居住的年限擁有銀行帳戶(hù)的年限所持有的其他信用卡,…學(xué)習(xí)到的規(guī)則:正確率為70%信貸員決策的正確率為50%規(guī)則可以用來(lái)向客戶(hù)解釋決策背后的原因數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例40例子2:購(gòu)物籃分析關(guān)聯(lián)分析技術(shù)被用來(lái)發(fā)現(xiàn)在交易傾向同時(shí)被購(gòu)買(mǎi)的商品(用來(lái)分析收銀數(shù)據(jù))啤酒+尿布擺在一起促銷(xiāo)數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例41例子3:超市預(yù)知高中生懷孕一家門(mén)店被客戶(hù)投訴將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒客戶(hù)道歉數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例42例子4:圖像處理學(xué)習(xí)到的規(guī)則:正確率為70%已知:沿海水域的雷達(dá)衛(wèi)星圖像問(wèn)題:檢測(cè)出是否有浮油Noteasy:看上去的深色區(qū)域可能是由天氣因素造成的。(如大風(fēng))需要接受過(guò)培訓(xùn)的人員到圖片所示區(qū)域?qū)嵉乜疾欤喊嘿F的過(guò)程數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例43例子4:圖像處理從標(biāo)準(zhǔn)化圖像提取黑色區(qū)域?qū)傩裕簠^(qū)域規(guī)模形狀、面積亮度邊角的銳利度和鋸齒形狀附近的其他區(qū)域背景信息解決問(wèn)題受到如下限制:訓(xùn)練數(shù)據(jù)很少:原油泄漏事件是很少發(fā)生的不均衡數(shù)據(jù):絕大多數(shù)的深色區(qū)域不是浮油造成的數(shù)據(jù)挖掘應(yīng)用領(lǐng)域舉例44例子5:預(yù)測(cè)奧斯卡關(guān)2013年,微軟紐約研究院的經(jīng)濟(jì)學(xué)家DAVID利用大數(shù)據(jù)成功預(yù)測(cè)24個(gè)奧斯卡獎(jiǎng)項(xiàng)中的19個(gè)。2014年,DAVID成功預(yù)測(cè)24個(gè)獎(jiǎng)項(xiàng)中的21個(gè)。
可以挖掘什么類(lèi)型的模式?概述一般功能描述性的數(shù)據(jù)挖掘-描述數(shù)據(jù)的一般性質(zhì),了解數(shù)據(jù)中潛在的規(guī)律預(yù)測(cè)性的數(shù)據(jù)挖掘-對(duì)數(shù)據(jù)進(jìn)行推斷,做預(yù)測(cè)常用的數(shù)據(jù)挖掘功能通常,用戶(hù)并不知道在數(shù)據(jù)中能挖掘出什么東西,對(duì)此我們會(huì)在數(shù)據(jù)挖掘中應(yīng)用一些常用的數(shù)據(jù)挖掘功能,挖掘出一些常用的模式,包括:類(lèi)/概念描述:特性化和區(qū)分挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性用于預(yù)測(cè)分析的分類(lèi)與回歸聚類(lèi)分析離群點(diǎn)分析46類(lèi)/概念描述:特性化和區(qū)分StatusBirth_countryAge_rangeGpaCountGraduateCanada25-30Good90UndergraduateCanada25-30Good210概念描述為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當(dāng)所描述的概念所指的是一類(lèi)對(duì)象時(shí),也稱(chēng)為類(lèi)描述)數(shù)據(jù)區(qū)分:提供兩個(gè)或多個(gè)數(shù)據(jù)集的比較描述。例:數(shù)據(jù)特征化:提供給定數(shù)據(jù)集的簡(jiǎn)潔匯總。例:對(duì)AllElectronic公司的“大客戶(hù)”(年消費(fèi)額$1000以上)的特征化描述:40-50歲,有固定職業(yè),信譽(yù)良好,等等47挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性頻繁模式在數(shù)據(jù)中頻繁出現(xiàn)的模式,包括頻繁項(xiàng)集、頻繁子序列和頻繁子結(jié)構(gòu)示例關(guān)聯(lián)規(guī)則挖掘從事務(wù)數(shù)據(jù)庫(kù),關(guān)系數(shù)據(jù)庫(kù)和其他信息存儲(chǔ)中的大量數(shù)據(jù)的項(xiàng)集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性廣泛的用于購(gòu)物籃或事務(wù)數(shù)據(jù)分析48用于預(yù)測(cè)分析的分類(lèi)與回歸概念描述根據(jù)訓(xùn)練數(shù)據(jù)集和類(lèi)標(biāo)號(hào)屬性,構(gòu)建模型來(lái)分類(lèi)現(xiàn)有數(shù)據(jù),并用來(lái)分類(lèi)新數(shù)據(jù)(分類(lèi)),用來(lái)預(yù)測(cè)類(lèi)型標(biāo)志未知的對(duì)象類(lèi)(預(yù)測(cè))分類(lèi)規(guī)則。IFage=“<=30”ANDstudent=“no”THENbuys_computer=“no”IFage=“<=30”ANDstudent=“yes”THENbuys_computer=“yes”IFage=“31…40”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“excellent”THENbuys_computer=“yes”IFage=“>40”ANDcredit_rating=“fair”THENbuys_computer=“no”其他比如:按氣候?qū)?guó)家分類(lèi),按汽油消耗定額將汽車(chē)分類(lèi)導(dǎo)出模型的表示:決策樹(shù)、分類(lèi)規(guī)則、神經(jīng)網(wǎng)絡(luò)可以用來(lái)預(yù)報(bào)某些未知的或丟失的數(shù)字值49聚類(lèi)分析聚類(lèi)分析將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的過(guò)程最大化類(lèi)內(nèi)的相似性和最小化類(lèi)間的相似性應(yīng)用對(duì)WEB日志的數(shù)據(jù)進(jìn)行聚類(lèi),以發(fā)現(xiàn)相同的用戶(hù)訪問(wèn)模式50離群點(diǎn)分析離群點(diǎn)分析離群點(diǎn):一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)通常離群點(diǎn)被作為“噪音”或異常被丟棄,但在欺騙檢測(cè)中卻可以通過(guò)對(duì)罕見(jiàn)事件進(jìn)行離群點(diǎn)分析而得到結(jié)論應(yīng)用信用卡欺詐檢測(cè)移動(dòng)電話(huà)欺詐檢測(cè)客戶(hù)劃分醫(yī)療分析(異常)51所有模式都是有趣的嗎?結(jié)論數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的模式興趣度的客觀和主觀度量客觀度量:基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì),比如:支持度、置信度等等主觀度量:基于用戶(hù)對(duì)數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動(dòng)的等等模式興趣度的度量一個(gè)模式是有趣的,如果(1)它易于被人理解;(2)在某種程度上,對(duì)于新的或測(cè)試數(shù)據(jù)是有效的;(3)具有潛在效用;(4)新穎的;(5)符合用戶(hù)確信的某種假設(shè)52使用什么技術(shù)?數(shù)據(jù)挖掘:多個(gè)學(xué)科的融合統(tǒng)計(jì)學(xué)數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)信息檢索機(jī)器學(xué)習(xí)數(shù)據(jù)挖掘應(yīng)用模式識(shí)別可視化算法高性能計(jì)算54統(tǒng)計(jì)學(xué)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026福建寧德師范學(xué)院附屬小學(xué)招聘編外教師20人備考題庫(kù)及答案詳解(考點(diǎn)梳理)
- 2026浙江臺(tái)州椒江區(qū)第三中心幼兒園總園及分園教師招聘?jìng)淇碱}庫(kù)及參考答案詳解
- 2026青海果洛州招聘社會(huì)救助經(jīng)辦人員152人備考題庫(kù)及答案詳解(易錯(cuò)題)
- 2026甘肅倚核人力資源有限公司招聘?jìng)淇碱}庫(kù)及參考答案詳解
- 廣安市武勝超前外國(guó)語(yǔ)學(xué)校招聘?jìng)淇碱}庫(kù)(6人)有答案詳解
- 2026浙江杭州市轉(zhuǎn)塘小學(xué)誠(chéng)聘語(yǔ)文、數(shù)學(xué)、英語(yǔ)教師(非事業(yè))備考題庫(kù)及完整答案詳解1套
- 2026浙江溫州市龍灣區(qū)市場(chǎng)監(jiān)督管理局招聘辦公室文員1人備考題庫(kù)及參考答案詳解1套
- 2026遼寧大連理工大學(xué)教授 - 海外優(yōu)青崗位招聘?jìng)淇碱}庫(kù)及答案詳解(新)
- 2026甘肅蘭州海關(guān)技術(shù)中心酒泉實(shí)驗(yàn)室招聘非在編人員2人備考題庫(kù)及完整答案詳解1套
- 中建交通三公司2026屆秋季校園招聘?jìng)淇碱}庫(kù)及完整答案詳解一套
- 床上運(yùn)動(dòng)及轉(zhuǎn)移技術(shù)課件
- 子宮腺肌癥術(shù)后護(hù)理
- 獨(dú)資股東協(xié)議書(shū)范本
- 2024-2025蘇教版小學(xué)數(shù)學(xué)二年級(jí)上冊(cè)期末考試測(cè)試卷及答案(共3套)
- 光伏發(fā)電項(xiàng)目風(fēng)險(xiǎn)
- 風(fēng)力發(fā)電項(xiàng)目分包合同施工合同
- GB/T 8607-2024專(zhuān)用小麥粉
- 新版外國(guó)人永久居住身份證考試試題
- 2024年中考數(shù)學(xué)復(fù)習(xí):瓜豆原理講解練習(xí)
- 高一歷史期末試題中國(guó)近現(xiàn)代史
- (高清版)DZT 0210-2020 礦產(chǎn)地質(zhì)勘查規(guī)范 硫鐵礦
評(píng)論
0/150
提交評(píng)論