版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘?qū)д?Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等譯 人民郵電出版社,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?2,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?3,主要參考書(shū),Jiawei Han, Micheline Kamber and Jian Pei Data Mining: Concepts and Techniqus (third Edition), Monrgan Kaufmann Publishers Inc., 2012 范明, 孟小峰譯 數(shù)據(jù)挖掘:概念與技術(shù)(
2、第二版) 機(jī)械工業(yè)出版社, 2007,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?4,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?5,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?6,Jiawei Han,在數(shù)據(jù)挖掘領(lǐng)域做出杰出貢獻(xiàn)的鄭州大學(xué)校友韓家煒,第1章 緒論,英文幻燈片制作: Tan, Steinbach, Kumar 中文幻燈片編譯:范明,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?8,為什么挖掘數(shù)據(jù)?(商業(yè)),大量數(shù)據(jù)被收集,存儲(chǔ)在數(shù)據(jù)庫(kù)數(shù)據(jù) 倉(cāng)庫(kù)中 Web data, e-commerce purchases at department/grocery stores Bank/Credit Car
3、d transactions 計(jì)算機(jī)越來(lái)越便宜,功能越來(lái)越 強(qiáng)大 競(jìng)爭(zhēng)壓力越來(lái)越大 Provide better, customized services for an edge (e.g. in Customer Relationship Management),2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?9,為什么挖掘數(shù)據(jù)?(科學(xué)),數(shù)據(jù)以極快的速度收集和存儲(chǔ) (GB/hour) remote sensors on a satellite telescopes scanning the skies microarrays generating gene expression data scie
4、ntific simulations generating terabytes (千兆字節(jié)) of data 傳統(tǒng)的技術(shù)難以處理這些 raw data 數(shù)據(jù)挖掘可能幫助科學(xué)家 in classifying and segmenting data in Hypothesis Formation,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?10,挖掘大型數(shù)據(jù)集:動(dòng)機(jī),常常有些信息“隱藏”在數(shù)據(jù)中, 并非顯而易見(jiàn)的 人分析需要數(shù)周數(shù)月, 才能發(fā)現(xiàn)有用的信息 許多數(shù)據(jù)根本未曾分析過(guò),The Data Gap,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?11,什么是數(shù)據(jù)挖掘,許多不同定義 本書(shū)定義 在大型數(shù)據(jù)存
5、儲(chǔ)庫(kù)中,自動(dòng)地發(fā)現(xiàn)有用信息的過(guò)程。 Exploration Produce dependency rules which will predict occurrence of items based on occurrences of other items.,Rules Discovered: Milk - Coke Diaper, Milk - Beer,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?30,關(guān)聯(lián)規(guī)則:應(yīng)用1,Marketing and Sales Promotion: Let the rule discovered be Bagels, - Potato Chips Potato
6、 Chips as consequent = Can be used to determine what should be done to boost its sales. Bagels in the antecedent = Can be used to see which products would be affected if the store discontinues selling bagels. Bagels in antecedent and Potato chips in consequent = Can be used to see what products shou
7、ld be sold with Bagels to promote sale of Potato chips!,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?31,關(guān)聯(lián)規(guī)則:應(yīng)用2,Supermarket shelf management. Goal: To identify items that are bought together by sufficiently many customers. Approach: Process the point-of-sale data collected with barcode scanners to find dependencies among i
8、tems. A classic rule - If a customer buys diaper and milk, then he is very likely to buy beer. So, dont be surprised if you find six-packs stacked next to diapers!,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?32,聚類(lèi): 定義,Given a set of data points, each having a set of attributes, and a similarity measure among them, find clu
9、sters such that Data points in one cluster are more similar to one another. Data points in separate clusters are less similar to one another. Similarity Measures: Euclidean Distance if attributes are continuous. Other Problem-specific Measures,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?33,聚類(lèi): 應(yīng)用1,Market Segmentation: Goal
10、: subdivide a market into distinct subsets of customers where any subset may conceivably be selected as a market target to be reached with a distinct marketing mix. Approach: Collect different attributes of customers based on their geographical and lifestyle related information. Find clusters of sim
11、ilar customers. Measure the clustering quality by observing buying patterns of customers in same cluster vs. those from different clusters.,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?34,聚類(lèi): 應(yīng)用2,Document Clustering: Goal: To find groups of documents that are similar to each other based on the important terms appearing in t
12、hem. Approach: To identify frequently occurring terms in each document. Form a similarity measure based on the frequencies of different terms. Use it to cluster. Gain: Information Retrieval can utilize the clusters to relate a new document or search term to clustered documents,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?35
13、,文檔聚類(lèi): 例,Clustering Points: 3204 Articles of Los Angeles Times. Similarity Measure: How many words are common in these documents (after some word filtering).,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?36,異常檢測(cè),任務(wù):識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀(guān)測(cè)值 這樣的觀(guān)測(cè)值稱(chēng)為異常點(diǎn)(anomaly)或離群點(diǎn)(outlier) 發(fā)現(xiàn)真正的異常點(diǎn),而避免錯(cuò)誤地將正常的對(duì)象標(biāo)注為異常點(diǎn) 應(yīng)用 信用卡欺詐檢測(cè) 網(wǎng)絡(luò)入侵檢測(cè),數(shù)據(jù)挖掘的應(yīng)用,2020
14、年7月5日星期日,數(shù)據(jù)挖掘?qū)д?38,數(shù)據(jù)挖掘的應(yīng)用,數(shù)據(jù)庫(kù)分析和決策支持 市場(chǎng)分析和管理 針對(duì)銷(xiāo)售(target marketing), 顧客關(guān)系管理, 購(gòu)物籃分析, 交叉銷(xiāo)售(cross selling), 市場(chǎng)分割(market segmentation) 風(fēng)險(xiǎn)分析與管理 預(yù)測(cè), 顧客關(guān)系, 改進(jìn)保險(xiǎn), 質(zhì)量控制, 競(jìng)爭(zhēng)能力分析 欺騙檢測(cè)與管理 其它應(yīng)用 文本挖掘 (新聞組, email, 文檔資料) 流數(shù)據(jù)挖掘(Stream data mining) Web挖掘. DNA 數(shù)據(jù)分析,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?39,市場(chǎng)分析與管理(1),用于分析的數(shù)據(jù)源在哪? 信用卡交易,
15、 會(huì)員卡, 打折優(yōu)惠卷, 顧客投訴電話(huà), (公共) 生活時(shí)尚研究 針對(duì)銷(xiāo)售(Target marketing) 找出顧客群, 他們具有相同特征 : 興趣, 收入水平, 消費(fèi)習(xí)慣, 等. 確定顧客隨時(shí)間變化的購(gòu)買(mǎi)模式 個(gè)人帳號(hào)到聯(lián)合帳號(hào)的轉(zhuǎn)變: 結(jié)婚, 等. 交叉銷(xiāo)售分析(Cross-market analysis) 產(chǎn)品銷(xiāo)售之間的關(guān)聯(lián)/相關(guān) 基于關(guān)聯(lián)信息的預(yù)測(cè),2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?40,市場(chǎng)分析與管理(2),顧客分類(lèi)(Customer profiling) 數(shù)據(jù)挖掘能夠告訴我們什么樣的顧客買(mǎi)什么產(chǎn)品(聚類(lèi)或分類(lèi)) 識(shí)別顧客需求 對(duì)不同的顧客識(shí)別最好的產(chǎn)品 使用預(yù)測(cè)發(fā)現(xiàn)什么因
16、素影響新顧客 提供匯總信息 各種多維匯總報(bào)告 統(tǒng)計(jì)的匯總信息 (數(shù)據(jù)的中心趨勢(shì)和方差),2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?41,法人分析和風(fēng)險(xiǎn)管理,財(cái)經(jīng)規(guī)劃和資產(chǎn)評(píng)估 現(xiàn)金流分析和預(yù)測(cè) 臨時(shí)提出的資產(chǎn)評(píng)估 交叉組合(cross-sectional) 和時(shí)間序列分析 (金融比率(financial-ratio), 趨勢(shì)分析, 等.) 資源規(guī)劃 : 資源與開(kāi)銷(xiāo)的匯總與比較 競(jìng)爭(zhēng): 管理競(jìng)爭(zhēng)者和市場(chǎng)指導(dǎo) 對(duì)顧客分類(lèi)和基于類(lèi)的定價(jià) 在高度競(jìng)爭(zhēng)的市場(chǎng)調(diào)整價(jià)格策略,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?42,欺騙檢測(cè)和管理(1),應(yīng)用 廣泛用于健康照料, 零售, 信用卡服務(wù), 電訊 (電話(huà)卡欺騙)
17、, 等. 方法 使用歷史數(shù)據(jù)建立欺騙行為模型, 使用數(shù)據(jù)挖掘幫助識(shí)別類(lèi)似的實(shí)例 例 汽車(chē)保險(xiǎn): 檢測(cè)這樣的人, 他/她假造事故騙取保險(xiǎn)賠償 洗錢(qián): 檢測(cè)可疑的金錢(qián)交易 (US Treasurys Financial Crimes Enforcement Network) 醫(yī)療保險(xiǎn) : 檢測(cè)職業(yè)病患者, 醫(yī)生和介紹人圈,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?43,欺騙檢測(cè)和管理(2),檢測(cè)不適當(dāng)?shù)尼t(yī)療處置 澳大利亞健康保險(xiǎn)會(huì)(Australian Health Insurance Commission) 發(fā)現(xiàn)許多全面的檢查是請(qǐng)求做的, 而不是實(shí)際需要的 (每年節(jié)省100萬(wàn)澳元). 檢測(cè)電話(huà)欺騙
18、 電話(huà)呼叫模式: 通話(huà)距離, 通話(huà)時(shí)間, 每天或每周通話(huà)次數(shù). 分析偏離期望的模式. 英國(guó)電訊(British Telecom)識(shí)別頻繁內(nèi)部通話(huà)的呼叫者的離散群, 特別是移動(dòng)電話(huà), 超過(guò)數(shù)百萬(wàn)美元的欺騙. 零售 分析家估計(jì), 38%的零售業(yè)萎縮是由于不忠誠(chéng)的雇員造成的.,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?44,其它應(yīng)用,運(yùn)動(dòng) IBM Advanced Scout分析NBA的統(tǒng)計(jì)數(shù)據(jù) ( 阻擋投籃, 助攻, 和犯規(guī) ) 獲得了對(duì)紐約小牛隊(duì)(New York Knicks)和邁艾米熱隊(duì)( Miami Heat )的競(jìng)爭(zhēng)優(yōu)勢(shì) 天文 借助于數(shù)據(jù)挖掘的幫助,JPL 和 Palomar Observ
19、atory 發(fā)現(xiàn)了22 顆類(lèi)星體(quasars) Internet Web Surf-Aid IBM Surf-Aid 將數(shù)據(jù)挖掘算法用于有關(guān)交易的頁(yè)面的Web訪(fǎng)問(wèn)日志, 以發(fā)現(xiàn)顧客喜愛(ài)的頁(yè)面, 分析Web 銷(xiāo)售的效果, 改進(jìn)Web 站點(diǎn)的組織, 等.,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?45,數(shù)據(jù)挖掘界簡(jiǎn)史,1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro) Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Fra
20、wley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD95-98) Journal of Data
21、Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD1999-2001 conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc.,2020年7月5日星期日,數(shù)據(jù)挖掘?qū)д?46,參考文獻(xiàn)源,Data mining and KDD (SIGKDD member CDROM): Conference proceedings: KDD, and others, such as PKDD, PAKDD, etc. Journal: Data Mining and Knowledge Discovery Database field (SIGMOD member CD ROM): Conference proc
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東省東莞市常平鎮(zhèn)校際聯(lián)盟2024-2025學(xué)年七年級(jí)上學(xué)期期末地理試卷(解析版)
- 醫(yī)療服務(wù)質(zhì)量評(píng)價(jià)體系構(gòu)建
- 2026年河南中醫(yī)藥大學(xué)高職單招職業(yè)適應(yīng)性考試備考題庫(kù)有答案解析
- 2026年貴州工程職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試參考題庫(kù)帶答案解析
- 2026年哈爾濱城市職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試模擬試題有答案解析
- 護(hù)理臨床護(hù)理路徑優(yōu)化與患者體驗(yàn)提升
- 財(cái)政預(yù)算監(jiān)督課件
- 醫(yī)療護(hù)理禮儀操作流程
- 醫(yī)學(xué)影像診斷流程與禮儀要求
- 大數(shù)據(jù)在醫(yī)療資源優(yōu)化配置中的作用
- 合資船舶合同范本
- 2025年云南昆明巫家壩建設(shè)發(fā)展有限責(zé)任公司及下屬公司第四季度社會(huì)招聘31人筆試參考題庫(kù)附帶答案詳解(3卷)
- 2026年湖南化工職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試題庫(kù)含答案詳解
- 食材配送公司管理制度(3篇)
- 2024年供應(yīng)鏈運(yùn)營(yíng)1+X職業(yè)技能等級(jí)證書(shū)中級(jí)考試(含答案解析)
- 國(guó)家金融監(jiān)督管理總局真題面試題及答案
- 油鋸操作與安全知識(shí)培訓(xùn)課件
- 醫(yī)院信息科員工考核標(biāo)準(zhǔn)及細(xì)則
- 鐵路安規(guī)培訓(xùn)課件
- 施工進(jìn)度保證措施及應(yīng)急響應(yīng)措施
- 2025年高阻隔膜行業(yè)當(dāng)前市場(chǎng)規(guī)模及未來(lái)五到十年發(fā)展趨勢(shì)報(bào)告
評(píng)論
0/150
提交評(píng)論