付費(fèi)下載
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
有問(wèn)題百度搜索拓端數(shù)據(jù)”就可以了歡迎登陸官網(wǎng):/datablog機(jī)器學(xué)習(xí):在SAS中運(yùn)行隨機(jī)森林?jǐn)?shù)據(jù)分析報(bào)告為了在SAS中運(yùn)行隨機(jī)森林,我們必須使用PROCHPFOREST指定目標(biāo)變量,并概述天氣變量是類別'還是定量實(shí)例1為了進(jìn)行此分析,我們使用了目標(biāo)(Repsone變量),該目標(biāo)是分類的(SAS語(yǔ)言中標(biāo)稱的),如下面的圖像代碼中所描述的黃色和紅色:PROC身二工2丁二匚京/由THISISTOHUWAHASTSOCTSEZSTKSEKE1=干土巨二:鼻TrPj£"T二?R-.u二E■工—ICWthZdJLZ15HRACJCZGCWiL一—--■.bJlL3It:=i二民工工」止一「*一七一二一JIMFQRTAJn?SYSLTKfcVE7DENTERIKSEPARATEISKTSTAZMKT二R二R:;二HU&L丁A巨[值*PROCHOF0FT:TARGETHZSHSCIZrU:I三二3三至二二C三二2i=一;七二聲』=一三三三二二,三二G■三二忑二三二5三二C習(xí)1:二三?三三二,二三TT二二二:二£7二之二」1一二-i.-t±=--az.jeze?s._----__--JrkVN;V"一?一運(yùn)行代碼后,我們得到了一系列表格,這些表格將詳細(xì)分析數(shù)據(jù)。例如,模型信息讓我們知道,隨機(jī)選擇了3個(gè)變量來(lái)測(cè)試每個(gè)節(jié)點(diǎn)或每個(gè)樹(shù)中可能的分割(黃色)。我們還可以看到,運(yùn)行的最大樹(shù)數(shù)為100,如藍(lán)色下劃線所示。該模型信息還告訴我們,袋中部分”設(shè)置為默認(rèn)值的60%,使OBB的比率為40%。請(qǐng)注意,修剪分?jǐn)?shù)”默認(rèn)設(shè)置為“0”因?yàn)閷⑵渥罱咏O(shè)置為“1,”然后樹(shù)木將具有的最低生長(zhǎng)水平。換句話說(shuō)是不修剪。HPFOREST自動(dòng)僅使用在任何觀察值下均沒(méi)有缺失記錄的有效變量。但是,我們還可以看到,在研究樣本的213個(gè)國(guó)家中,有213個(gè)被利用。這是因?yàn)槲乙呀?jīng)利用了一組沒(méi)有缺失值的縣。
有問(wèn)題百度搜索“拓端數(shù)據(jù)”就可以了歡迎登陸官網(wǎng):/datablogTkHFFORESTPiriocedurePerfwmaneeInkwmationE*e-cuti£>nMode|NymHrofThreads2AccessInfDTflTJtion班口EngiiwRolePattiWORK距碼letode1InFormationPararoetsrVilwViriibte*}toTry2iDeFiunbP4axiiTrFifmTre^sSe#a51nbagFraHEtiorU.S?XFml二:PrurwFractionRrup#ThruhNdn-i1AFISLe^fFracton_____ripcEMJt)LeafSlze5-eHing-1ZfefSL-..:-Leafflu*1:口(frBwyBins紀(jì)IntervalStsEMMnimumCategorySizt5;xr皿No*罰E?時(shí)”::?MaU而則DepthzcAlpha□efmiz.Ejc113inti”處?ItefaL.::Rowsof%?quFncetgSkip5SpiitCrittfion?.Mtthod:***:2*jrihErlisEingHaigHindiingUdl*,MumbtrcfObif-r*alieni%陛Numibe-rofObseirvatiofirsNumberofObfreirvations接下來(lái),我們可以看到模型生成帶有基線擬合統(tǒng)計(jì)量”的表。就本研究中的數(shù)據(jù)而言,我們可以看到該模型識(shí)別出38%的誤分類,換句話說(shuō)是62%的準(zhǔn)確分類<這表示大部分樣本已在每個(gè)隨機(jī)選擇的樣本中正確分類。有問(wèn)題百度搜索“拓端數(shù)據(jù)”就可以了歡迎登陸官網(wǎng):/datablogBeelineFrtStatistic1St£tl5t]CBeelineFrtStatistic1St£tl5t]CValue丈URTN#Sqmr&ErrorMw1i?rfiaa6onRate塔二LogLoti-D.W在下表中分析森林的適合度時(shí),我們可以看到誤分類率已經(jīng)達(dá)到了最低點(diǎn),樹(shù)號(hào)為100.這表明在OOB樣本中使用該模型進(jìn)行測(cè)試時(shí),誤分類率僅在22%。Top10FieTop10Fie謠WfIIhHumberatTim口于事「武尸白EH1Trig2引AErrcirPOEI>Mi=10:,而對(duì)"FialelTiPj>in|U|國(guó)Ratelooai皿Ld%3d5lx>^5BOOS1119.197j2^1<!J1C:二;Ml*2tlire?J9HLJJNXC7IXD1i.Dll3j1*1KBn■asr-7431'i□3J11J竭)1F40¥023注---:陽(yáng)E相二F匯曠二七工糊73D235-tQ3+0…B72里丁6C.244,13■弓5二53ZZ.=j:9D2津c汪032-953?”月ID3^:53t244”熱二.EW二TheMisclassification
ratetends
todecreaseBottom10Bottom10TheMisclassificationAlmostLevelsoff最后,我們看到SASPOCHPFOREST為我們提供了損失減少變量的重要性表。下表概述了每個(gè)變量如何有助于模型的可預(yù)測(cè)性的重要性等級(jí)。如下圖所示,酒精變量排名最高?,F(xiàn)在,以下內(nèi)容將幫助我們理解如何閱讀表格:?規(guī)則數(shù):告訴我們使用變量的拆分規(guī)則數(shù)歡迎登陸官網(wǎng):/datablog每個(gè)數(shù)據(jù)計(jì)算兩次:Gini:這是在袋裝”階段計(jì)算的數(shù)據(jù)GiniOOB:這是在“OutofBag階段中計(jì)算生的數(shù)據(jù)擬合統(tǒng)計(jì)告訴我們,OOB數(shù)據(jù)的偏差較小,因此,數(shù)據(jù)通過(guò)OOBGini度量進(jìn)行排序就預(yù)測(cè)自殺率高于正常水平而言,這些變量被列為高度重要性(頂部)和最低重要性(底部)。從下表中我們可以看生,最容易預(yù)測(cè)模型自殺率高于正常模型的變量是酒精消費(fèi)量,就業(yè)率和城市率。LoasReductionVarhbleImportanceVariableNumberofRulesGintOOBGiniMargin□OBMarginHIGHALCOHOL129002647300231200529460046982HIGHEMPLOY1360.01S3W0.00697O.Q32S200.01958&HIGHURBAN1250.0129250.005150025851001896SHIGHELECTRIC78OOO8733Q.Q016B0G134660008143HIGHARMED二11300W&220001H0.0216430010213breasted11cerperlOOth1O.OOOE^O000022O.Q013200001959HJGHINTERNET990.0Q5&47-D.D0Q360。116gdQ.0D3&5&hivrate320012300-Q0010100245990.01610^HIGHCO590.004718-000412D.D0943500005環(huán)有問(wèn)題百度搜索拓端數(shù)據(jù)”就可以了歡迎登陸官網(wǎng):/datablog通過(guò)上面的練習(xí),我們可以看到隨機(jī)森林是一種數(shù)據(jù)挖掘算法,可以選擇重要的解釋變量,這些變量可以用于確定響應(yīng)變量(目標(biāo)變量)的結(jié)果,無(wú)論是分類變量還是定量變量。止匕外,此練習(xí)還允許我們結(jié)合使用分類變量和定量變量。總之,這個(gè)森林讓我們知道哪些變量很重要,但彼此之間沒(méi)有關(guān)系。實(shí)例2:缺失值和估算值本示例使用SAS樣本庫(kù)中的房屋凈值數(shù)據(jù)來(lái)說(shuō)明使用缺失值和估算值之間的區(qū)別。數(shù)據(jù)丟失的非隨機(jī)模式可以幫助預(yù)測(cè)目標(biāo)。當(dāng)缺失值由訓(xùn)練數(shù)據(jù)中的推定值代替時(shí),PROCHPFOREST無(wú)法使用此模式。下面的語(yǔ)句通過(guò)兩次運(yùn)行PROCHPFOREST來(lái)說(shuō)明這一點(diǎn):一次在原始數(shù)據(jù)上運(yùn)行,一次在數(shù)據(jù)缺失的標(biāo)稱值已被變量的模式替換而缺失的間隔值已被變量的均值替換后的數(shù)據(jù)。該Sampsio.Hmeq數(shù)據(jù)集包含虛擬抵押數(shù)據(jù),其中每個(gè)案例代表房屋抵押貸款的申請(qǐng)人。所有申請(qǐng)人都有現(xiàn)有抵押。BAD對(duì)于最終違約或嚴(yán)重違約的申請(qǐng)人,二進(jìn)制目標(biāo)等于1。九個(gè)間隔輸入可用于建模。JOB并且REASON是唯一的標(biāo)稱輸入。對(duì)于模式JOB和REASON分另1J是OTHER和DEBTCON。prochpimputedata=sampsio.hmeqout=imout;inputmortduevalueyojclagenin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年零售業(yè)庫(kù)存管理與數(shù)據(jù)分析手冊(cè)
- 水務(wù)行業(yè)水質(zhì)檢測(cè)與監(jiān)測(cè)手冊(cè)
- 2025年醫(yī)療保險(xiǎn)業(yè)務(wù)風(fēng)險(xiǎn)防控指南
- 2025年質(zhì)量管理體系文件
- 醫(yī)療保險(xiǎn)業(yè)務(wù)處理與審核指南(標(biāo)準(zhǔn)版)
- 旅游服務(wù)規(guī)范與質(zhì)量手冊(cè)
- 公共安全防范技術(shù)與設(shè)備操作手冊(cè)
- 新錄警人員培訓(xùn)管理制度
- 服務(wù)管理培訓(xùn)制度
- 關(guān)于公務(wù)員培訓(xùn)制度
- 2025年宜昌市“招才興業(yè)”市直事業(yè)單位人才引進(jìn)47人·重慶大學(xué)站筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 2026海南交通投資控股公司秋招面筆試題及答案
- 2025年安徽理工大學(xué)馬克思主義基本原理概論期末考試模擬試卷
- 2025年大學(xué)大一(法學(xué))法理學(xué)試題及答案
- 膽囊癌課件教學(xué)課件
- 廣西2025年高等職業(yè)教育考試全區(qū)模擬測(cè)試 能源動(dòng)力與材料 大類試題及逐題答案解說(shuō)
- 2026江蘇省公務(wù)員考試公安機(jī)關(guān)公務(wù)員(人民警察)歷年真題匯編附答案解析
- 超市冷庫(kù)應(yīng)急預(yù)案(3篇)
- 5年(2021-2025)山東高考生物真題分類匯編:專題17 基因工程(解析版)
- 2025年10月自考00610高級(jí)日語(yǔ)(二)試題及答案
- 新華資產(chǎn)招聘筆試題庫(kù)2025
評(píng)論
0/150
提交評(píng)論