下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于隨機(jī)森林的氣溫預(yù)測這天的平均最溫度值:這就是我們的值了,當(dāng)天的真實最溫度:這列可能是湊喧鬧的,你的伴侶猜想的可能值,:,##對于時間數(shù)據(jù),我們也可以進(jìn)些轉(zhuǎn)換,的就是有些具包在繪圖或者計算的過程中,需要標(biāo)準(zhǔn)的時間格式:#處理時間數(shù)據(jù)#分別得到年,,=[]=[]=[]#格式=[+-++-+,,,,]=[,%-%-%][:5]結(jié)果顯::348,9,表我們的數(shù)據(jù)共有348條記錄,每個樣本有9個特征。
假如你想觀看下各個指標(biāo)的統(tǒng)計特性,還可以.來直接展下:#%:..##接著我們設(shè)計畫圖的布局,這我們需要展4項指標(biāo),分別為最溫的值,前天,昨天,伴侶猜測的溫最值。
既然4是個圖,那不妨就2*2的規(guī)模來畫吧,#設(shè)置布局,1,2,3,4==2,=2,=10,10=45#,[];;#,[_1];;#,[_2];;#,[];;=2#各項指標(biāo)看起來都還算正常,由于是國外的天數(shù)據(jù)所以跟咱們的統(tǒng)計標(biāo)準(zhǔn)有些區(qū)分。
接下來就要考慮數(shù)據(jù)預(yù)處理問題了,原始數(shù)據(jù)中在列中并不是#獨(dú)熱編碼=5#這樣就完成了數(shù)據(jù)集中屬性值的預(yù)處理作,默認(rèn)會把全部屬性值都轉(zhuǎn)換成獨(dú)熱編碼的格式,并且還幫我們動添加了后綴看起來更清楚了,這我們其實也可以按-:,#數(shù)據(jù)與#=[]#在特征中去掉=,=1#名字單獨(dú)保存下,以備后患_=#轉(zhuǎn)換成合適的格式=#,_,_,_=__,,_=,_=42訓(xùn)練集特征:,訓(xùn)練集:,測試集特征:,測試集:,:..個基礎(chǔ)的隨機(jī)森林模型萬事俱備,我們可以來建隨機(jī)森林模型啦,先導(dǎo)具包,先建1000個樹試試吧,其他參數(shù)先默認(rèn)值,之后我們會再深到調(diào)參任務(wù)中#導(dǎo)#建模=_=1000,_=42#_,_#由于數(shù)據(jù)樣本量還是常的,所以很快就可以得到結(jié)果了,這我們先指標(biāo)來進(jìn)評估,也就是平均肯定百分誤差,其實對于回歸任務(wù),評估法還是#猜測結(jié)果=_#計算誤差=-_#=100*_:,#得到特征重要性=#轉(zhuǎn)換格式_=[,,2,_,]#排序_=_,=:[1],=#對應(yīng)進(jìn)打印[:{:20}:{}.*_]最重要的特征再來試試#選擇最重要的那兩個特征來試試__=_=1000,_=42#拿到這倆特征_=[_1,]_=_[:,_]_=_[:,_]#_,_#猜測結(jié)果=_=-_#評估結(jié)果=100*_:..:,#轉(zhuǎn)換成格式_=#_,,=#_,_,=#;;;#期數(shù)據(jù)=[:,]=[:,]=[:,]#轉(zhuǎn)換期格式=[+-++-+,,,,]=[,%-%-%]#創(chuàng)建個表格來存期和其對應(yīng)的數(shù)值_=={:,:}#同理,再創(chuàng)建個來存期和其對應(yīng)的模型猜測值=_[:,]=_[:,]=_[:,]_=[+-++-+,,,,]_=[,%-%-%_]_=={:_,:}#_[],_[],-,=#猜測值:.._[],_[],,==60;#;;;看起來還可以,這個勢我們的模型已經(jīng)基本能夠把握了,接下來我們要再深到數(shù)據(jù)中了,考慮個問題:的數(shù)據(jù)量增,會對結(jié)果產(chǎn)什么影響呢新的特征會改進(jìn)模型效果嗎此時的時間效率會怎樣、更多的數(shù)據(jù)效果會不會更好呢#導(dǎo)具包#讀取數(shù)據(jù)=5數(shù)據(jù)規(guī)模,#統(tǒng)計指標(biāo),2數(shù)據(jù)規(guī)模2191,12新的數(shù)據(jù)中,數(shù)據(jù)規(guī)模發(fā)了變化,數(shù)據(jù)量擴(kuò)充到了2191條并且加了新的天指標(biāo):_1:前天的風(fēng)速_1:前天的降_1:前天的積雪深度既然有了新的特征,先來看看他們長什么樣吧,同樣的式繪制就可以了::..#轉(zhuǎn)換成標(biāo)準(zhǔn)格式#得到各種期數(shù)據(jù)=[]=[]=[]#格式轉(zhuǎn)換=[+-++-+,,,,]=[,%-%-%]#%##,1,2,3,4==2,=2,=15,10=45#,[];;#,[_1];;#,[_2];;#,[];;=2#設(shè)置整體布局:..,1,2,3,4==2,=2,=15,10=45#平均最,[];;#,[_1],-;;#降,[_1],-;;#,[_1],;;=2在數(shù)據(jù)分析和特征提取的過程中,我們的動身點(diǎn)都是盡可能多的選擇有價值的特征,由于其實階段我們能得到的信息越多,之后建??梢岳男畔⒁彩窃蕉嗟?如在這份數(shù)據(jù)中,我們有完整期數(shù)據(jù),但是顯天的變換確定是跟季節(jié)因素有關(guān)的,但是在原始數(shù)據(jù)集中并沒有體現(xiàn)出季節(jié)的指標(biāo),我們可以創(chuàng)建個季節(jié)變量當(dāng)做新的特征,論是對之后建模還是分析都會起到關(guān)心的:有了季節(jié)特征之后,假如我想觀看下不同季節(jié)的時候上述各項指標(biāo)的變換狀況該怎么做呢這給家推舉個常實的繪圖函數(shù),需要我們先安裝這個具包,它相當(dāng)于是在的基礎(chǔ)上進(jìn)封裝,說了就是起來更簡潔規(guī)范了:#創(chuàng)建個季節(jié)變量=[][]:[1,2,12]:[3,4,5]:[6,7,8]:[9,10,11]:#有了季節(jié)我們就可以分析更多東西了_=[[_1,_1,,]]_[]=#導(dǎo)=,_=;#選擇你喜愛的顏模板=[,,,]#_,=,_=,=,_==,_==;可以看到,軸和軸都是我們這4項指標(biāo),不同顏的點(diǎn)表不同的季節(jié),在主對線上軸和軸都是相同特征表其在不同季節(jié)時的數(shù)值分布狀況,其他位置散點(diǎn)圖來表兩個特征之間的關(guān)系,例如在左下_1和就呈現(xiàn)出了很強(qiáng)的相關(guān)性。
:..#獨(dú)熱編碼=#提取特征和=[]=,=1#特征名字留著備_=#轉(zhuǎn)換成所需格式==#,_,_,_=__,,_=,_=0:,:,:,:,#新的訓(xùn)練集由1643個樣本組成,測試集有548個樣本。
先來看看數(shù)據(jù)集的狀況,這由于我們重新打開了個新的,全部代碼中重新讀取了數(shù)據(jù)的結(jié)果:..#具包導(dǎo)#為了剔除特征個數(shù)對結(jié)果的影響,這特征統(tǒng)只有數(shù)據(jù)集中特征__=[_[_1,_1,_1]]#讀取數(shù)據(jù)集_=_=_#數(shù)據(jù)和轉(zhuǎn)換_=_[]_=,=1__=_=_#,__,__,__=___,_,_=,#同樣的樹模型進(jìn)#同樣的參數(shù)與隨機(jī)種=_=100,_=0#這的訓(xùn)練集使的是__,__;#為了測試效果能夠公正,統(tǒng)使致的測試集,這選擇了剛剛我切分過的新數(shù)據(jù)集的測試集=_[:,__]#先計算溫度平均誤差=-_平均溫度誤差:,,2,.#=100*_#這為了便觀看,我們就100減去誤差了,盼望這個值能夠越越好=100-:,,2,%.可以看到,當(dāng)我們把數(shù)據(jù)量增之后,效果發(fā)了些提升,這也符合實際狀況,在機(jī)器任務(wù)中,我們都是盼望數(shù)據(jù)量能夠越越好,這樣可利的信息就更多了。
下我們要再對下特征數(shù)量對結(jié)果的影響,之前這兩次較還沒有加新的特征,這回我們把降,風(fēng)速,積雪3特征加訓(xùn)練集中,看看效果會怎樣:,只增數(shù)據(jù)量的話,結(jié)果會提升嗎:..#剔除掉新的特征,保證數(shù)據(jù)特征是致的__=_[:,__]__=_[:,__]=_=100,_=0__,_;#猜測_=__#結(jié)果_
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 貨運(yùn)安全教育培訓(xùn)制度
- 財產(chǎn)調(diào)查制度
- 行政審批定崗定責(zé)制度
- 用工風(fēng)險培訓(xùn)課件內(nèi)容
- 2026江西省數(shù)字產(chǎn)業(yè)集團(tuán)有限公司中層管理崗位引才1人參考考試題庫附答案解析
- 2026青海海西州中國聯(lián)通德令哈市分公司招聘5人參考考試題庫附答案解析
- 2026北京大學(xué)新結(jié)構(gòu)經(jīng)濟(jì)學(xué)研究院招聘勞動合同制人員1人參考考試題庫附答案解析
- 2026廣西來賓市第一批“服務(wù)產(chǎn)業(yè)發(fā)展專項人才計劃”29人備考考試試題附答案解析
- 2026年度青島市市南區(qū)所屬事業(yè)單位公開招聘工作人員(25名)參考考試試題附答案解析
- 2026山東臨沂沂河新區(qū)部分事業(yè)單位招聘綜合類崗位工作人員3人備考考試試題附答案解析
- 《水利工程白蟻燈光誘殺技術(shù)導(dǎo)則》編制說明
- ISO28000:2022供應(yīng)鏈安全管理體系
- 全媒體運(yùn)營師-國家職業(yè)標(biāo)準(zhǔn)(2023年版)
- GLB-2防孤島保護(hù)裝置試驗報告
- 汽車CAN總線介紹課件
- 關(guān)于婚內(nèi)協(xié)議書范本
- 歷史七年級上冊知識點(diǎn)匯總
- isbp745中英文版解析
- 文物古建筑修繕工程施工組織設(shè)計
- 蘇教版語文《唐詩宋詞選讀》選修(教材上全部詩歌,已全部校對無誤)
- 住院病案首頁填寫說明
評論
0/150
提交評論