版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、通過本章的學習,將能夠:*理解數據挖掘的含義*熟悉數據挖掘的功能*熟悉數據挖掘的主要技術*掌握數據挖掘的業(yè)務流程*了解客戶關系管理對數據挖掘的需求*理解數據挖掘在客戶關系管理中的作用4數據挖掘數據挖掘數據庫越來越大數據庫越來越大有價值的知識有價值的知識可怕的數據可怕的數據數據挖掘背景5數據爆炸,知識貧乏數據爆炸,知識貧乏 苦惱: 淹沒在數據中 ; 不能制定合適的決策! 數據數據n模式模式n趨勢趨勢n事實事實n關系關系n模型模型n關聯(lián)規(guī)則關聯(lián)規(guī)則n序列序列n目標市場目標市場n資金分配資金分配n貿易選擇貿易選擇n在哪兒做廣告在哪兒做廣告n銷售的地理位置銷售的地理位置n金融金融n經濟經濟n政府政府n
2、POSn人口統(tǒng)計人口統(tǒng)計n生命周期生命周期數據挖掘是一個利用各種分析工具在海量數據中發(fā)現模型和數據間關系的過程,這些模型和關系可以用來做出預測。 數據挖掘(數據挖掘(Data MiningData Mining)數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘是一種新的商業(yè)信息處理技術,其主要特點是對商業(yè)數據庫中的大量業(yè)務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關鍵性數據。數據挖掘數據挖掘的特點數據挖掘與傳統(tǒng)分析方法的區(qū)別數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現
3、知識。數據挖掘所得到的信息應具有先未知,有效和可實用三個特征:l先前未知的信息是指該信息是預先未曾預料到的,既數據挖掘是要發(fā)現那些不能靠直覺發(fā)現的信息或知識,甚至是違背直覺的信息或知識l有效信息是指符合實際情況且具有一定的代表性l可實用是指可以指導企業(yè)的營銷決策*數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)數據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現知識現知識 *數據挖掘所得到的信息應具有先未知、有效和可實用數據挖掘所得到的信息應具有先未知、有效和可實用三個特征三個特征*數據源必須是大量的、真實的、有噪聲的數據源必須是大量的、真實的、有噪聲的*發(fā)現的是用戶感興趣的知識發(fā)現的是用戶感興趣的
4、知識 *發(fā)現的知識要可接受、可理解、可運用發(fā)現的知識要可接受、可理解、可運用 *并不要求發(fā)現放之四海皆準的知識,僅支持特定的發(fā)并不要求發(fā)現放之四海皆準的知識,僅支持特定的發(fā)現問題現問題 *數據挖掘任務:描述和預測數據挖掘任務:描述和預測*描述可以通過下述方法得到:描述可以通過下述方法得到:*1、數據特征化、數據特征化*2、數據區(qū)分、數據區(qū)分*3、數據特征化和比較、數據特征化和比較客戶接觸客戶接觸 客戶信息客戶信息客戶數據庫客戶數據庫統(tǒng)計分析與數據挖掘統(tǒng)計分析與數據挖掘客戶知識發(fā)現客戶知識發(fā)現客戶管理客戶管理知識發(fā)現:從數據中深入抽取隱含的、未知的和有潛在用途的信息知識發(fā)現:從數據中深入抽取隱含
5、的、未知的和有潛在用途的信息從商業(yè)數據到商業(yè)智能各行業(yè)電子商務網站各行業(yè)電子商務網站算算法法層層商商業(yè)業(yè)邏邏輯輯層層行行業(yè)業(yè)應應用用層層商業(yè)應用商業(yè)模型挖掘算法CRM產品推薦產品推薦客戶細分客戶細分客戶流失客戶流失客戶利潤客戶利潤客戶響應客戶響應關聯(lián)規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析關聯(lián)規(guī)則、序列模式、分類、聚集、神經元網絡、偏差分析WEB挖掘挖掘網站結構優(yōu)化網站結構優(yōu)化網頁推薦網頁推薦商品推薦商品推薦。基因挖掘基因挖掘基因表達路徑分析基因表達路徑分析基因表達相似性分析基因表達相似性分析基因表達共發(fā)生分析基因表達共發(fā)生分析。銀行銀行電信電信零售零售保險保險制藥制藥生物信息生物信息
6、科學研究科學研究。相關行業(yè)數據挖掘的應用Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神經網絡神經網絡 Neural NetworksNeural Networks聚類分析聚類分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis決策樹決策樹 Decision TreesDecision Trees 傾向性分析 客戶保留 客戶生命周期管理 目標市場
7、 價格彈性分析 客戶細分 市場細分 傾向性分析 客戶保留 目標市場 欺詐檢測關聯(lián)分析關聯(lián)分析 AssociationAssociation 市場組合分析 套裝產品分析 目錄設計 交叉銷售數據挖掘的應用數據挖掘技術的分類數據挖掘技術的分類回顧分析:注重解決過去和現在的問題 如:兩年來不同地區(qū)、人口和產品情況下的各銷售部門銷售業(yè)績分析預測分析:在歷史信息的基礎上預測某些事件和行為 如:建立預測模型來描述客戶的流失率分類:根據某種標準將數據庫記錄分類到許多預先定義好的類別 如:信用卡公司將客戶記錄分為好、中、差三類 分類可以產生規(guī)則:如果一個客戶收入超過5000萬元,年齡在4555歲之間,居住在某地
8、區(qū),那么他的信用等級為好。數據挖掘技術數據挖掘技術的分類數據挖掘技術的分類聚類:根據某些屬性將數據庫分割為一些子集和簇 如:在了解客戶的過程中,嘗試使用從未使用過的屬性分割人群以發(fā)現潛在客戶的簇關聯(lián):通過考察記錄來識別數據間的密切關系 關聯(lián)關系常常表現為規(guī)則,常用于超市購物籃分析如:所有包含A和B的記錄中有60同時包含C。演變分析:描述行為隨時間變化的對象的規(guī)律或趨勢 如:通過對客戶多次購物行為的分析可以發(fā)現購物行為在時間上的關系 常用于產品目錄營銷的分析數據挖掘的一般目的就是數據挖掘的一般目的就是檢測、解釋和預測檢測、解釋和預測數據中定性的和或定量的模式數據中定性的和或定量的模式數據挖掘技術
9、*(四)孤立點分析*數據庫中包含一些數據對象,他們與數據的一般行為或模型不一致。*(五)分類和預測*找出描述并區(qū)分數據類或概念的模型,以便能夠使用模型預測和分類標志未知的對象類。現代方法關聯(lián)規(guī)則(Association Rules) 關聯(lián)規(guī)則的表現形式 關聯(lián)規(guī)則是一種無指導學習的數據挖掘中最普遍的知識發(fā)現,是指在行為上具有某種關聯(lián)的多個事物在一次事件中可能同時出現,從而在多個事物中建立聯(lián)系規(guī)則的方法。 “如果怎么樣、怎么樣、怎么樣,那么就會怎么樣” 關聯(lián)規(guī)則的構成 前件“如果怎么樣、怎么樣、怎么樣” 后件“那么就怎么樣” 如果買了西裝,就會買領帶 如果買精顯彩電,就會買家庭影院系統(tǒng)規(guī)則的構成如
10、果怎么樣、怎么樣、怎么樣,就會怎么樣如果怎么樣、怎么樣、怎么樣,就會怎么樣前件,激發(fā)條件前件,激發(fā)條件后件,結果后件,結果規(guī)則表現為在前件所有條件成立的前提下,規(guī)則表現為在前件所有條件成立的前提下,后件結果會以某一正確概率出現后件結果會以某一正確概率出現關聯(lián)規(guī)則(Association Rules)規(guī)則的置信度和支持度關聯(lián)規(guī)則(Association Rules) 規(guī)則的置信度又稱為規(guī)則的正確率,是指在前提出現的情況下,后件出現的概率 規(guī)則的支持度又稱為規(guī)則的覆蓋率,是指包含規(guī)則出現的屬性值的交易占所有交易的百分比 例:如果客戶買牛奶,那么他們也會買面包 置信度:在10000次交易中客戶購買了
11、牛奶,而且其中的5000個交易也同時購買了面包,則上述規(guī)則的置信度為50001000050 支持度:在超市一個月的客戶交易中,共有600000次交易,其中購買牛奶的交易為60000次,支持度為6000060000010 規(guī)則的生成現代方法關聯(lián)規(guī)則(Association Rules) 最近鄰方法 規(guī)則:如果一個客戶處于的狀況,那么他可能是一個逃款者 關聯(lián)規(guī)則可以使用傳統(tǒng)的方法生成,但適當提供的屬性很多時,因為每條規(guī)則的結果可能包含大量的前提條件,使用傳統(tǒng)方法會變得不切實際。規(guī)則的生成關聯(lián)規(guī)則(Association Rules) 市場籃子分析就是一種關聯(lián)規(guī)則的表現 時間序列分析是一種反映客戶行
12、為在時間上的關聯(lián)性的關聯(lián)規(guī)則商業(yè)銀行的客戶細分商業(yè)銀行的客戶細分規(guī)則的應用關聯(lián)規(guī)則(Association Rules)以前件為目標歸納所有前件一樣的規(guī)則分析后件的營銷效果設計促銷方案(完善前件)例收集所有前件為文具、復讀機的規(guī)則,分析這些商品打折是否促進其他高利潤商品的銷售,從而調整商品結構、設計促銷方案規(guī)則的應用關聯(lián)規(guī)則(Association Rules)以后件為目標歸納所有后件一樣的規(guī)則分析什么因素與后件有關或對后件有影響設計前件促成后件例收集到所有后件為西裝的規(guī)則,可以幫助我們了解西裝的銷售受哪些因素的影響或與哪些因素相關,從而可以考慮將這些因素集合在一起而產生促銷效果。規(guī)則的應用關
13、聯(lián)規(guī)則(Association Rules)置信度低置信度低置信度高置信度高支持度高支持度高支持度低支持度低規(guī)則的置信度和支持度規(guī)則的置信度和支持度規(guī)則很少是正確的,規(guī)則很少是正確的,但可以經常使用但可以經常使用規(guī)則很少是正確的,規(guī)則很少是正確的,而且很少被使用而且很少被使用規(guī)則多數情況下是正確,規(guī)則多數情況下是正確,但很少被使用但很少被使用規(guī)則多數情況下是正確的規(guī)則多數情況下是正確的,而且可以經常使用,而且可以經常使用以置信度或支持度為目標*Bell Atlantic的數據挖掘系統(tǒng)非常成功,不僅為他們的業(yè)務開展帶來很大的方便,而且節(jié)省了許多開支。Bell Atlantic的電話服務目前已經覆
14、蓋了美國14個州,擁有商業(yè)電話、住家電話帳戶近億個。*Bell Atlantic 數據挖掘系統(tǒng)的首要任務就是盡快地追收拖欠的電話費,同時盡量減少收債部門的成本。*軟件系統(tǒng)的選擇非常重要。經過反復挑選后,Bell Atlantic采用了SAS統(tǒng)計軟件系統(tǒng)建立數據挖掘系統(tǒng),然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統(tǒng)。 *然后是建立SAS格式庫。許多數據需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來進行數據轉換。有的數據不是連續(xù)變量,比如婚姻狀況(單身/已婚),也需要進行一些變換才可以進行計算。日期也是需要模式化的,不同計算機系統(tǒng)記錄日期方法不同,需要把日期轉換
15、成一致的方法。在金融保險行業(yè)日期這個變量非常重要,因為很多客戶的行為都記錄在日期里面了。電話公司里記帳、付款的日期也非常重要。 數據挖掘方法學數據挖掘方法學模式模式 數據庫中一個事件或事件的結合,這些事件比預期的要經常發(fā)生,其實際發(fā)生率明顯不同于隨機情況下的可期望發(fā)生率。 模式是數據驅動的,一般只反映數據本身模型模型 對構建事件的源時的歷史數據庫的描述,并且能夠成功地應用于新的數據,以便對缺少的數據作出預測或對期望的數據作出說明。模型的一般表現形式數學方程式描述各客戶段的規(guī)則集計算機表示方式 模式可視化數據挖掘技術數據挖掘方法學數據挖掘方法學取樣取樣 根據問題的需要采用隨機取樣的方法從數據庫中
16、抽取數據進行挖掘,有助于迅速發(fā)現模式、創(chuàng)建模型 數據本身的處理過程需要驗證驗證模型 模型創(chuàng)建過程需要保證正確 模型應用的驗證 在依據一些歷史數據建造模型后,將模型應用于未參與建造模型的其他類似的歷史數據,比較其模型輸出結果與實際結果。數據挖掘技術經典方法經典方法統(tǒng)計統(tǒng)計 統(tǒng)計可以通過對類似下列問題的回答獲得模式在我的數據庫中存在什么模式某個事件發(fā)生的可能性是什么那些模式是重要的模式 統(tǒng)計的一個重要價值就是它提供了對數據庫的高層視圖,這種視圖提供了有用的信息,但不要求在細節(jié)上理解數據庫的每一條記錄。數據挖掘方法經典方法經典方法最近鄰最近鄰 通過檢測與預測對象最接近的對象的狀況對預測對象進行預測
17、原理: 某一特定對象可能與其他某一或某些對象比其 它一些第三對象更接近; 相互之間“接近”的對象會有相似的取值 根據其中一個對象的取值,預測其最近鄰對象的預測值 商業(yè) 應用:文獻檢索市場籃子分析 應用 評價: 最近鄰的數量最近鄰的距離決定最近鄰預測的可信度數據挖掘方法現代方法現代方法基礎理論有指導的學習(Supervised Learning)歸納 概念 分類標準與模型 分類有指導的學習的目的:建立分類模型用模型確定新數據實例的類別訓練數據(Training Data)與檢驗集(Test Set)用于創(chuàng)建模型的數據實例稱為訓練數據用于檢驗模型的準確度的數據實例稱為檢驗集數據挖掘方法 有指導的學
18、習有指導的學習(Supervised Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫數據挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?有指導的學習(Supervi
19、sed Learning)患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesNoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒淋巴腫、發(fā)燒是有意義的屬性嗓子痛、充血、頭痛是無意義的屬性數據挖掘方法 有指導的學習有指導的學習(Supervised Learning)淋巴腫發(fā) 燒
20、No No Yes Yes 咽炎敏感癥感冒患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果11NoNoYesYesYes?12YesYesNoNoYes?13NoNoNoNoYes?未知分類的數據實例(檢驗集)數據挖掘方法無指導的學習無指導的學習(Unsupervised Learning)為沒有預先定義分類標準的數據建立模型客戶ID客戶類型交易保證金帳戶交易方法交易數月性別年齡嗜好年收入1005聯(lián)合NoOnline12.5F30-39網球45.9萬1013委托保管NoBroke0.5F50-59滑雪89.9萬1245聯(lián)合NoOnline3.6M20-29高爾夫23.9萬2110個人YesBroke2
21、2.3M30-39釣魚45.9萬1001個人YesOnline5.0M40-49高爾夫67.9萬ABC投資公司客戶表數據挖掘方法無指導的學習無指導的學習(Unsupervised Learning)區(qū)分在線投資者和經紀人投資者的特征是什么一個新客戶未開設交易保證金帳戶,如何確定其將來是否會開設這種帳戶能建立一個預測新投資者月均交易數的模型嗎女性和男性投資者有什么不同的特征交易方式交易保證金帳戶月均交易數性別數數 據據 挖挖 掘掘 問問 題題屬屬 性性哪些屬性相似性決定ABC公司的客戶分組屬性值的哪些不同之處分隔了客戶數據庫有指導有指導的學習的學習無指導無指導的學習的學習數據挖掘方法現代方法決策
22、樹(Decision Tree)決策樹是一種有指導學習的數據挖掘方法決策樹的組成決策節(jié)點、分支、葉子根節(jié)點分支葉子Debt$40K節(jié)點 決策樹的分支過程就是對數據進行分類的過程,利用幾個變量(每個變量對應一個問題)來判斷數據所屬的類別。在分支后,要使不同分支之間數據的差異盡可能大、同一分支內的數據盡量相同。這一分割過程也就是數據的“純化”過程。數據挖掘方法決決策策樹樹的的算算法法步步驟驟假設T為訓練實例集選擇一個最能區(qū)別T中實例的屬性創(chuàng)建一個決策節(jié)點,它的值為所選擇的屬性創(chuàng)建該節(jié)點的分支,每個分支代表所選屬性的一個唯一值使用分支的值,將數據實例分割為子類對于步驟5所創(chuàng)建的各個子類: 如果子類中
23、的數據實例滿足以下條件,可按此決策樹對新數據實例指定類別 分割中只包含一條數據實例 分割中所有數據實例的屬性都相同 繼續(xù)分割得到的改進不明顯 如果子類不滿足上述條件,則設T為當前子類數據實例集合,返回步驟 2數據挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標準: 最大化反映數據差異,使樹的層次和節(jié)點數最小患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感
24、癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫淋巴腫發(fā)發(fā) 燒燒No No Yes Yes 咽炎敏感癥感冒數據挖掘方法患者代碼嗓子痛發(fā)燒淋巴腫充血頭痛診斷結果1YesyesYesYesYes咽炎2NoNoNoYesYes敏感癥3YesYesNoYesNo感冒4YesNoYesNoNo咽炎5NoYesNoYesNo感冒6NoNoNoYesNo敏感癥7NoNoYesNoNo咽炎8YesNoNoYesYes敏感癥9NoYesNoYesYes感冒10yesYesnoYesYes感冒淋巴腫發(fā) 燒No No Yes Yes 敏感癥敏感癥咽炎No Yes 頭 痛淋巴腫感冒發(fā) 燒淋
25、巴腫No Yes 咽炎No Yes 數據挖掘方法決策樹的屬性選取決策樹的屬性選取屬性選取標準: 最大化反映數據差異,使樹的層次和節(jié)點數最小信用卡促銷數據庫信用卡促銷數據庫收入收入段段壽險促壽險促銷銷信用卡保信用卡保險險性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-
26、3萬萬YesYesF19選取收入段為根節(jié)點選取壽險促銷為輸出屬性沿著每個分支有兩個類,選取最頻繁出現的類收入段收入段2Yes2No4Yes1No3No 1Yes2Yes23萬萬 34萬萬 45萬萬 56萬萬訓練集分類的正確性為111573數據挖掘方法決策樹(Decision Tree):例信用卡促銷數據庫選取信用卡保險為根節(jié)點選取壽險促銷為輸出屬性沿著每個分支有兩個類,選取最頻繁出現的類信用卡保險信用卡保險6Yes6No3Yes 0NoNoYes訓練集分類的正確性為91560數據挖掘方法收入收入段段壽險促壽險促銷銷信用卡保信用卡保險險性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNo
27、F404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19決策樹(Decision Tree):例信用卡促銷數據庫選取數值型屬性年齡為根節(jié)點選取壽險促銷為輸出屬性依照年齡排序,對照輸出屬性進行數據分割,選擇數據分割點年年 齡齡9Yes3No0Yes 3No4343以年齡43結合壽險促銷Yes,訓練集分類的正確性
28、為121580172729353839404142434343455555YNYYYYYYNYYNNNN數據挖掘方法收入收入段段壽險促壽險促銷銷信用卡保信用卡保險險性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19決策樹(Decision Tr
29、ee):例信用卡促銷數據庫年 齡Yes(61)No(21)4343性 別F M信用卡保險Yes(20)No(30)No Yes信用卡數據庫的三節(jié)點決策樹信用卡數據庫的三節(jié)點決策樹訓練集分類的正確性為131587數據挖掘方法收入收入段段壽險促壽險促銷銷信用卡保信用卡保險險性性別別年年齡齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295
30、-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19決策樹(DecisionTree):例信用卡促銷數據庫收入收入段段壽險促壽險促銷銷信用卡保信用卡保險險性別性別年齡年齡4-5萬萬NoNoM453-4萬萬YesNoF404-5萬萬NoNoM423-4萬萬YesYesM435-6萬萬YesNoF382-3萬萬 NoNoF553-4萬萬YesYesM352-3萬萬NoNo M273-4萬萬NoNo F433-4萬萬YesNoF414-5萬萬YesNoM432-3萬萬YesNoF295-6萬萬YesNoF394-5萬萬NoNoM552-3萬萬YesYesF19信用卡保險Yes
31、(52)No(41)NoYes性 別F MYes(30)信用卡數據庫的兩節(jié)點決策樹信用卡數據庫的兩節(jié)點決策樹訓練集分類的正確性為121580數據挖掘方法決策樹(Decision Tree):例信用卡促銷數據庫檢驗集收入段壽險促銷信用卡保險性別年齡檢驗結果4-5萬NoNoM42正確2-3萬NoNoM27正確3-4萬NoNoM43正確2-3萬YesNoM29錯誤年 齡Yes(61)No(21)4343性 別F M信用卡保險Yes(20)No(30)No Yes信用卡數據庫的三節(jié)點決策樹信用卡數據庫的三節(jié)點決策樹數據挖掘方法現代方法現代方法K平均值算法 K-平均值算法是一種簡單而有效的無指導學習的統(tǒng)
32、計聚類方法,將一組數據劃分為不相關的簇算算 法法 步步 驟驟選擇一個K值,用以確定簇的總數在數據集中任意選擇K個數據實例,作為初始的簇中心試用簡單的歐氏距離將其它數據實例賦予距離它們最近的簇中心試用每個簇中的數據實例,計算每個簇的新的平均值如果新的平均值等于次迭代的平均值,終止該過程。否則,用新平均值作為簇中心并重復步驟35。點A(x1,y1)與點B(x2,y2)之間的歐氏距離計算式為Disce ABxxyytan()()()121222數據挖掘方法K平均值算法:例K-平均值輸入屬性實例XY1(C1)1.01.521.04.53(C2)2.01.542.03.553.02.565.06.01.選擇K=2,即將所有數據實例分為兩個簇2.選擇實例1作為第1個簇的中心,實例3作為第2個簇的中心3.計算各數據實例與C1、C2之間的歐氏距離Dist(C11)=0.00 Dist(C21)=1.00 C1Dist(C12)=3.00 Dist(C22)=3.16 C1Dist(C13)=1.00 Dist(C23)=0.00 C2Dist(C14)=2.24 Dist(C24)=2.00 C2Dist(C15)=
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 師大數學二模題目及答案
- 輸血的三查八對制度
- 2025年津市市事業(yè)編考試題目及答案
- 董事會負責審議內部審計制度
- 2025年山西農業(yè)廳事業(yè)單位考試及答案
- 2025年6月15日事業(yè)單位考試及答案
- 2025年上饒23年事業(yè)單位考試及答案
- 2025年視覺美工面試題庫及答案
- 2025年鐘樓區(qū)公開招聘筆試及答案
- 藥事管理法律法規(guī)及相關制度
- (高清版)AQ 1056-2008 煤礦通風能力核定標準
- 高中名校自主招生考試數學重點考點及習題精講講義上(含答案詳解)
- 論地理環(huán)境對潮汕飲食文化的影響
- 值班人員在崗情況檢查記錄表周一
- 西充縣山永家庭農場生豬養(yǎng)殖項目(擴建)環(huán)評報告
- 赤峰南臺子金礦有限公司金礦2022年度礦山地質環(huán)境治理計劃書
- 漏洞掃描技術和天鏡產品介紹
- 徐州市銅山區(qū)法院系統(tǒng)書記員招聘考試真題
- 氣穴現象和液壓沖擊
- GB/T 33598.3-2021車用動力電池回收利用再生利用第3部分:放電規(guī)范
- 江蘇省泰州市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會明細及行政區(qū)劃代碼
評論
0/150
提交評論