版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
分類預(yù)測(cè):決策樹新工科建設(shè)之路·數(shù)據(jù)科學(xué)與大數(shù)據(jù)系列公安大數(shù)據(jù)應(yīng)用基礎(chǔ)第五章01決策樹概述什么是決策樹決策樹的目的是通過(guò)對(duì)訓(xùn)練集的學(xué)習(xí),獲得輸入變量和輸出變量不同取值下的數(shù)據(jù)分類和預(yù)測(cè)規(guī)律,并用于對(duì)新數(shù)據(jù)的分類預(yù)測(cè)。決策樹算法屬于有監(jiān)督學(xué)習(xí)范疇,要求訓(xùn)練集中既包含輸入變量也包含輸出變量。決策樹概述決策樹得名于其分析結(jié)論的展示方式類似一棵倒置的樹,如圖5-1所示。決策樹概述可將訓(xùn)練集中的每個(gè)樣本看成n維空間上的一個(gè)點(diǎn),輸出變量取不同類別的點(diǎn)以不同的形狀表示(如圓圈或三角形)。決策樹建立的過(guò)程就是決策樹各個(gè)分支依次形成的過(guò)程,從幾何意義上理解,也就是決策樹的每個(gè)分支在一定規(guī)則下對(duì)n維空間進(jìn)行矩形區(qū)域劃分的過(guò)程。決策樹建好后,n維空間將被劃分成若干個(gè)小的區(qū)域。通常,由于n維空間不直觀、不易理解,因此往往采用樹形方式展現(xiàn)。決策樹的幾何理解決策樹概述圖5-2展示了一個(gè)二維空間的矩形劃分和該劃分所對(duì)應(yīng)的決策樹。決策樹概述決策樹的生長(zhǎng)決策樹的生長(zhǎng)過(guò)程本質(zhì)上是對(duì)訓(xùn)練樣本進(jìn)行反復(fù)分類的過(guò)程。決策樹的各個(gè)分支是在數(shù)據(jù)被不斷分類的過(guò)程中逐漸生長(zhǎng)出來(lái)的。決策樹的剪枝完整的決策樹一般不是一棵分類預(yù)測(cè)的最佳樹,其主要原因是,完整的決策樹對(duì)訓(xùn)練樣本特征的描述“過(guò)于精確”。決策樹概述決策樹的核心問(wèn)題02SPSSModeler中的C5.0算法及應(yīng)用在SPSSModeler中,C5.0模型默認(rèn)的決策樹分割點(diǎn)處理策略是,在確定了最佳分組變量以后,如果最佳分組變量是分類型變量,則按照分組變量的上一個(gè)取值將樣本分為k組,形成樹的左分支;如果最佳分組變量是數(shù)值型變量,則自動(dòng)以最小化描述準(zhǔn)則(MDLP)算法分箱后的最小組限值為限,小于最小組限值的為一組,大于最小組限值的為另一組,形成二叉樹。C5.0決策樹的分割點(diǎn)SPSSModeler中的C5.0算法及應(yīng)用(4)計(jì)算兩兩相鄰組的卡方統(tǒng)計(jì)量觀測(cè)值,根據(jù)顯著性水平和自由度得到卡方臨界值。ChiMerge分箱法的基本步驟如下:(5)重復(fù)第(2)步至第(4)步,直到任何兩個(gè)相鄰組都無(wú)法合并,即卡方統(tǒng)計(jì)量觀測(cè)值都不小于卡方臨界值為止。(1)將輸入變量按變量值升序排序。(2)定義若干個(gè)初始區(qū)間,使輸入變量的每個(gè)取值均單獨(dú)落在一個(gè)區(qū)間內(nèi)。(3)計(jì)算輸入變量與輸出變量的交叉分組頻數(shù)表。SPSSModeler中的C5.0算法及應(yīng)用C5.0決策樹的剪枝過(guò)程完整的決策樹因過(guò)于“依賴”訓(xùn)練集會(huì)出現(xiàn)過(guò)擬合的問(wèn)題,使得它在測(cè)試集上不能有令人滿意的表現(xiàn),因此必須進(jìn)行剪枝。C5.0算法采用后剪枝方法從葉節(jié)點(diǎn)向上逐層進(jìn)行剪枝,這個(gè)過(guò)程的關(guān)鍵是誤差估計(jì)及剪枝標(biāo)準(zhǔn)的設(shè)置。SPSSModeler中的C5.0算法及應(yīng)用誤差估計(jì)通常,應(yīng)在測(cè)試集上估計(jì)誤差并進(jìn)行剪枝,但C5.0算法并沒(méi)有這樣做,它利用統(tǒng)計(jì)學(xué)置信區(qū)間的估計(jì)方法,直接在訓(xùn)練集上估計(jì)誤差。剪枝標(biāo)準(zhǔn)的設(shè)置當(dāng)?shù)玫焦烙?jì)誤差后,C5.0算法將按照“減小-誤差”(Reduce-Error)法判斷是否剪枝。SPSSModeler中的C5.0算法及應(yīng)用C5.0算法不僅能夠生成決策樹,還能夠生成推理規(guī)則。決策樹與推理規(guī)則有極為緊密的聯(lián)系。決策樹的文字形式是推理規(guī)則,推理規(guī)則表達(dá)了輸入變量取值及不同輸入變量之間的邏輯與(并且)、邏輯或(或者)關(guān)系與輸出變量取值的內(nèi)在聯(lián)系,一般表示形式為“若<條件>,則<結(jié)論>”,非常直觀易懂。C5.0決策樹的推理規(guī)則集SPSSModeler中的C5.0算法及應(yīng)用C5.0決策樹的應(yīng)用案例背景1年關(guān)將至,A市B派出所對(duì)100位民警進(jìn)行了警務(wù)績(jī)效考核?;A(chǔ)數(shù)據(jù)警務(wù)績(jī)效考核.xls。業(yè)務(wù)目標(biāo)(1)學(xué)習(xí)并運(yùn)用C5.0模型;(2)研究哪些因素將顯著影響民警的警務(wù)績(jī)效考核結(jié)果?!啊盨PSSModeler中的C5.0算法及應(yīng)用案例背景1A市B公安局有34位在職民警,根據(jù)上級(jí)單位下發(fā)文件的要求,現(xiàn)要晉升部分人員。請(qǐng)運(yùn)用所學(xué)知識(shí),預(yù)測(cè)在職民警小王的晉升結(jié)果。業(yè)務(wù)目標(biāo)(1)學(xué)習(xí)并運(yùn)用C5.0模型。(2)對(duì)小王的晉升結(jié)果進(jìn)行預(yù)測(cè)。能力目標(biāo)(1)能夠?qū)⒆陨頂?shù)據(jù)引入結(jié)果;(2)理解模型結(jié)果?!啊盨PSSModeler中的C5.0算法及應(yīng)用03SPSSModeler中的C&RT算法及應(yīng)用C&RT算法同樣包括決策樹的生長(zhǎng)和剪枝兩個(gè)過(guò)程,其與C5.0算法的主要差別體現(xiàn)在以下方面。(1)C&RT算法中的輸入變量和輸出變量可以是分類型變量也可以是數(shù)值型變量,而C5.0算法中的輸出變量只能是分類型變量。(2)C&RT算法只能建立二叉樹,而C5.0算法可以建立多叉樹。SPSSModeler中的C&RT算法及應(yīng)用(3)C&RT算法以Gini系數(shù)和方差為基礎(chǔ)選擇最佳分組變量和最佳分割點(diǎn),而C5.0算法則以信息熵為基礎(chǔ)計(jì)算信息增益率。(4)對(duì)在分組變量上取缺失值的樣本,C&RT算法采用代理(Surrogate)變量的處理方式,而C5.0算法采用加權(quán)處理方式。(5)C&RT算法依據(jù)測(cè)試集進(jìn)行剪枝,而C5.0算法只依據(jù)訓(xùn)練集通過(guò)近似正態(tài)分布進(jìn)行剪枝。SPSSModeler中的C&RT算法及應(yīng)用C&RT的生長(zhǎng)過(guò)程C&RT的生長(zhǎng)過(guò)程本質(zhì)上是對(duì)訓(xùn)練樣本進(jìn)行反復(fù)分組的過(guò)程,同樣涉及兩個(gè)問(wèn)題。第一,如何從眾多的輸入變量中選擇一個(gè)最佳的分組變量;第二,如何從分組變量的眾多取值中找到一個(gè)最佳分割點(diǎn)。SPSSModeler中的C&RT算法及應(yīng)用01020304C&RT的預(yù)剪枝策略:(1)決策樹的最大深度;(2)決策樹中父節(jié)點(diǎn)和子樹包含的最小樣本量;(3)決策樹節(jié)點(diǎn)中輸出變量的最小差異減少量。SPSSModeler中的C&RT算法及應(yīng)用C&RT的剪枝過(guò)程C&RT的后剪枝策略C&RT采用的后剪枝策略稱為最小代價(jià)復(fù)雜度剪枝法(MinimalCostComplexityPruning,MCCP)。SPSSModeler中的C&RT算法及應(yīng)用運(yùn)行SPSSModeler,在“源”選項(xiàng)卡中選擇Excel節(jié)點(diǎn),并將其添加到數(shù)據(jù)流中,導(dǎo)入“決策樹練習(xí).xlsx”文件,如圖5-26所示。SPSSModeler中的C&RT算法及應(yīng)用C&RT的應(yīng)用在“建?!边x項(xiàng)卡中選擇C&RT節(jié)點(diǎn),并將其連接到數(shù)據(jù)流的恰當(dāng)位置上,進(jìn)行參數(shù)設(shè)置,如圖5-27所示。SPSSModeler中的C&RT算法及應(yīng)用單擊“運(yùn)行”按鈕,C&RT模型的分析結(jié)果如圖5-28所示。SPSSModeler中的C&RT算法及應(yīng)用對(duì)預(yù)測(cè)變量重要性進(jìn)行分析,結(jié)果如圖5-29所示。SPSSModeler中的C&RT算法及應(yīng)用04SPSSModeler中的CHAID算法及應(yīng)用輸入變量的預(yù)處理:(1)輸出變量為分類型變量,輸入變量為數(shù)值型變量。(2)輸出變量為分類型變量,輸入變量為分類型變量。(3)輸出變量為數(shù)值型變量,輸入變量為數(shù)值型變量。(4)輸出變量為數(shù)值型變量,輸入變量為分類型變量。SPSSModeler中的CHAID算法及應(yīng)用CHAID算法的最佳分組變量確定最佳分組變量對(duì)經(jīng)過(guò)預(yù)處理的輸入變量,計(jì)算其與輸出變量相關(guān)性檢驗(yàn)的統(tǒng)計(jì)量的概率-P值。同理,對(duì)數(shù)值型輸出變量,采用F統(tǒng)計(jì)量,對(duì)分類型輸出變量,采用卡方檢驗(yàn)統(tǒng)計(jì)量或似然比卡方檢驗(yàn)統(tǒng)計(jì)量。顯然,計(jì)算出的概率-P值越小,表示輸入變量與輸出變量的聯(lián)系越緊密,應(yīng)作為當(dāng)前最佳分組變量。當(dāng)計(jì)算出的概率-P值相同時(shí),應(yīng)選擇檢驗(yàn)統(tǒng)計(jì)量觀測(cè)值最大的輸入變量。SPSSModeler中的CHAID算法及應(yīng)用CHAID算法的剪枝過(guò)程CHAID采用預(yù)剪枝策略,通過(guò)參數(shù)控制決策樹充分生長(zhǎng)。其控制參數(shù)與C&RT預(yù)剪枝過(guò)程的控制參數(shù)基本一致。SPSSModeler中的CHAID算法及應(yīng)用CHAID算法對(duì)當(dāng)前最佳分組變量選擇的依據(jù)是相關(guān)性檢驗(yàn)的統(tǒng)計(jì)量的概率-P值。但應(yīng)注意到,無(wú)論是采用似然比卡方檢驗(yàn)還是采用F檢驗(yàn),概率-P值都與其檢驗(yàn)統(tǒng)計(jì)量的自由度密切相關(guān)。多個(gè)輸入變量經(jīng)預(yù)處理后形成的分組數(shù)目不可能都相同,體現(xiàn)在統(tǒng)計(jì)檢驗(yàn)上就是自由度不同,這將直接影響概率-P值的大小。所以,在無(wú)法確保輸入變量的分組數(shù)目完全相同的條件下,該方法存在不足。ExhaustiveCHAID算法SPSSModeler中的CHAID算法及應(yīng)用同5.3.3節(jié),在完成簡(jiǎn)單數(shù)據(jù)處理基礎(chǔ)上,選擇“建?!边x項(xiàng)卡中的CHAID節(jié)點(diǎn),并將其連接到數(shù)據(jù)流的恰當(dāng)位置上,進(jìn)行參數(shù)設(shè)置,如圖5-30所示。SPSSModeler中的C&RT算法及應(yīng)用CHAID算法的應(yīng)用05SPSSModeler中的QUEST算法及應(yīng)用(1)直接采用卡方檢驗(yàn)或F檢驗(yàn)的方法,分別檢驗(yàn)各輸入變量與輸出變量的相關(guān)性。(2)選擇檢驗(yàn)統(tǒng)計(jì)量的概率-P值最小,且小于顯著性水平的輸入變量,作為當(dāng)前的最佳分組變量。(3)如果最小的檢驗(yàn)統(tǒng)計(jì)量的概率-P值不小于顯著性水平。SPSSModeler中的QUEST算法及應(yīng)用01020304輸出變量的預(yù)處理:(1)分別計(jì)算輸出變量k個(gè)水平下,p個(gè)輸入變量的均值,得到k個(gè)包含p個(gè)元素的均值向量。(2)如果k個(gè)均值向量均相等,則將權(quán)值最大(即樣本量最多)的組作為一組,其余各組合并為另一組,形成兩個(gè)“超類”。(3)如果k個(gè)均值向量不相等,可將k個(gè)均值向量看成p維空間上的k個(gè)點(diǎn)。SPSSModeler中的QUEST算法及應(yīng)用確定最佳分割點(diǎn)由于QUEST算法僅用于生成二叉樹,因此在確定最佳分割點(diǎn)時(shí),需將數(shù)值型分組變量分成兩個(gè)組,將分類型分組變量合并成兩個(gè)“超類”。對(duì)不同類型的分組變量應(yīng)采用不同的處理策略。SPSSModeler中的QUEST算法及應(yīng)用同5.3.3節(jié),在完成簡(jiǎn)單數(shù)據(jù)處理基礎(chǔ)上,選擇“建?!边x項(xiàng)卡中的QUEST節(jié)點(diǎn),并將其連
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年山西省財(cái)政稅務(wù)??茖W(xué)校高職單招職業(yè)適應(yīng)性測(cè)試模擬試題及答案詳細(xì)解析
- 2026年河北建材職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試備考題庫(kù)及答案詳細(xì)解析
- 2026年山西水利職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試備考試題含詳細(xì)答案解析
- 2026年安徽警官職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026年廣東農(nóng)工商職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試參考題庫(kù)含詳細(xì)答案解析
- 2026年江蘇航運(yùn)職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 2026年青島黃海學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 雅安進(jìn)出口貿(mào)易有限公司公開招聘人員(2人)參考考試試題及答案解析
- 2026年貴州城市職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)筆試參考題庫(kù)含詳細(xì)答案解析
- 2026中國(guó)一重集團(tuán)國(guó)際有限責(zé)任公司面向集團(tuán)內(nèi)部及社會(huì)招聘業(yè)務(wù)人員參考考試試題及答案解析
- 2026中好建造(安徽)科技有限公司招聘45人筆試備考試題及答案解析
- 2025年輔警面試考試復(fù)習(xí)題庫(kù)目及解析答案
- 北師大版三年級(jí)數(shù)學(xué)(上)期末家長(zhǎng)會(huì)-三載深耕學(xué)有所成【課件】
- 風(fēng)機(jī)安全鏈課件
- 2025年企業(yè)設(shè)備故障處理手冊(cè)
- 紀(jì)檢部部長(zhǎng)競(jìng)選課件
- 遼寧省沈陽(yáng)市沈河區(qū)2025-2026學(xué)年度上學(xué)期九年級(jí)期末語(yǔ)文試卷(含答案)
- DB36∕T 2141-2025 兒童福利機(jī)構(gòu)兒童檔案管理規(guī)范
- 玻璃幕墻施工專項(xiàng)方案
- GB/T 21790-2025閃點(diǎn)的測(cè)定用小型閉杯試驗(yàn)儀測(cè)定閃燃非閃燃和閃點(diǎn)的方法
- 肝臟代謝重編程-洞察與解讀
評(píng)論
0/150
提交評(píng)論