Python與人工智能編程-基礎(chǔ)與實(shí)驗(yàn) 課件 實(shí)驗(yàn)13、14 隨機(jī)森林原理及應(yīng)用、SVM原理及應(yīng)用_第1頁
Python與人工智能編程-基礎(chǔ)與實(shí)驗(yàn) 課件 實(shí)驗(yàn)13、14 隨機(jī)森林原理及應(yīng)用、SVM原理及應(yīng)用_第2頁
Python與人工智能編程-基礎(chǔ)與實(shí)驗(yàn) 課件 實(shí)驗(yàn)13、14 隨機(jī)森林原理及應(yīng)用、SVM原理及應(yīng)用_第3頁
Python與人工智能編程-基礎(chǔ)與實(shí)驗(yàn) 課件 實(shí)驗(yàn)13、14 隨機(jī)森林原理及應(yīng)用、SVM原理及應(yīng)用_第4頁
Python與人工智能編程-基礎(chǔ)與實(shí)驗(yàn) 課件 實(shí)驗(yàn)13、14 隨機(jī)森林原理及應(yīng)用、SVM原理及應(yīng)用_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

隨機(jī)森林原理及應(yīng)用實(shí)驗(yàn)十三課程學(xué)習(xí)目標(biāo)了解隨機(jī)森林基礎(chǔ)知識(shí)熟練掌握基于隨機(jī)森林的Scikit-learn三個(gè)通用模板使用方法隨機(jī)森林原理

現(xiàn)在假設(shè)你有10位朋友,每位朋友會(huì)根據(jù)不同的考量(如天氣、風(fēng)景、費(fèi)用等)來推薦不同的旅游地點(diǎn)。每位朋友都是一棵決策樹,他們的建議就相當(dāng)于決策樹的預(yù)測(cè)結(jié)果。當(dāng)你需要做出最終決定時(shí),你會(huì)收集所有朋友的建議,然后選擇得到最多推薦的旅游目的地作為你的最終選擇。這就好比隨機(jī)森林中的“投票”過程,最終的決策結(jié)果是基于所有朋友意見的綜合。通過整合多位朋友的建議,你可以得到更全面、更可靠的旅行目的地選擇。這就是隨機(jī)森林的核心原理:通過整合多個(gè)決策樹的意見,以得到更準(zhǔn)確、更穩(wěn)定的預(yù)測(cè)結(jié)果。隨機(jī)森林原理

再來一段比較官方的解釋:隨機(jī)森林有的時(shí)候也被稱為是隨機(jī)決策森林,是一種集合學(xué)習(xí)方法,既可以用于分類,也可以用于回歸。而所謂集合學(xué)習(xí)算法,其實(shí)就是把多個(gè)機(jī)器學(xué)習(xí)算法綜合在一起,以構(gòu)建一個(gè)更強(qiáng)大的模型。這也就很好地解釋了為什么這種算法稱為隨機(jī)森林了,如圖所示,因?yàn)樗坝泻芏鄻洹甭?!隨機(jī)森林優(yōu)勢(shì)和不足目前在機(jī)器學(xué)習(xí)領(lǐng)域,無論是分類還是回歸,隨機(jī)森林都是應(yīng)用最廣泛的算法之一??梢哉f,隨機(jī)森林十分強(qiáng)大,使用決策樹并不需要用戶過于在意參數(shù)的調(diào)節(jié)。其優(yōu)缺點(diǎn)如下表所示。優(yōu)點(diǎn)缺點(diǎn)不需要復(fù)雜的數(shù)據(jù)預(yù)處理對(duì)于超高維數(shù)據(jù)集、稀疏數(shù)據(jù)集不適用不需要過于在意參數(shù)調(diào)節(jié)處理非線性、高度相關(guān)特征效果不佳支持并行處理,加快訓(xùn)練速度相對(duì)需要更多的計(jì)算資源和內(nèi)存隨機(jī)森林應(yīng)用舉例準(zhǔn)備數(shù)據(jù)集:在這里我們采用sklearn自帶的wine數(shù)據(jù)集。加載并劃分?jǐn)?shù)據(jù)集。隨機(jī)森林應(yīng)用舉例使用隨機(jī)森林依據(jù)模板V1.0實(shí)現(xiàn)紅酒數(shù)據(jù)集分類。隨機(jī)森林應(yīng)用舉例使用隨機(jī)森林依據(jù)模板V2.0實(shí)現(xiàn)紅酒數(shù)據(jù)集分類。隨機(jī)森林應(yīng)用舉例使用隨機(jī)森林依據(jù)模板V3.0實(shí)現(xiàn)紅酒數(shù)據(jù)集分類。本節(jié)實(shí)驗(yàn)作業(yè)依據(jù)模板V1.0使用隨機(jī)森林算法對(duì)乳腺癌數(shù)據(jù)集進(jìn)行分類;依據(jù)模板V2.0使用隨機(jī)森林算法對(duì)乳腺癌數(shù)據(jù)集進(jìn)行分類。具體操作請(qǐng)查看視頻教程SVM原理及應(yīng)用實(shí)驗(yàn)十四課程學(xué)習(xí)目標(biāo)了解SVM基礎(chǔ)知識(shí)熟練掌握基于SVM的Scikit-learn三個(gè)通用模板的使用方法SVM基本概念“線性可分”和“線性不可分”。舉個(gè)例子,假設(shè)男生的情緒分布如圖1所示??梢钥吹?當(dāng)我們提取的樣本特征是“有好玩的”和“有好吃的”這兩項(xiàng)的時(shí)候,能夠很容易用圖中的直線把男生的情緒分成“開心”和“不開心”兩類,在這種情況下就說樣本是線性可分的。但是女生的情緒可能要復(fù)雜得多,有時(shí)候從男生的角度來看,她們的情緒分布可能如圖2所示。

圖1圖2SVM基本概念從上圖2中已經(jīng)可以感受到線性模型“深深的絕望”了,無論用哪一條直線,都無法將女生的情緒進(jìn)行正確的分類。在這種情況下,就說樣本是線性不可分的。假如“開心”的情緒是輕盈的,而“不開心”的情緒是沉重的,我們把情緒扔到水里,“開心”就會(huì)漂浮起來,而“不開心”就會(huì)沉下去,情緒分布變成如圖所示的樣子??偟膩碚f,SVM的基本原理是通過在特征空間中找到一個(gè)最優(yōu)超平面,將不同類別的樣本分開,并確保超平面到各類別樣本的最短距離(間隔)最大化。圖3圖4SVM的優(yōu)勢(shì)和不足SVM可以說是在機(jī)器學(xué)習(xí)領(lǐng)域非常強(qiáng)大的算法,對(duì)各種不同類型的數(shù)據(jù)集都有不錯(cuò)的表現(xiàn)。它可以在數(shù)據(jù)特征很少的情況下生成非常復(fù)雜的決定邊界,當(dāng)然特征數(shù)量很多的情況下表現(xiàn)也不錯(cuò)。換句話說,SVM應(yīng)對(duì)高維數(shù)據(jù)集和低維數(shù)據(jù)集都還算是得心應(yīng)手且能夠處理非線性問題。但是,前提條件是數(shù)據(jù)集的規(guī)模不太大。如果數(shù)據(jù)集中的樣本數(shù)量在幾萬以內(nèi),SVM都能駕馭得了,但如果樣本數(shù)量超過10萬的話,SVM就會(huì)非常耗費(fèi)時(shí)間和內(nèi)存。SVM的優(yōu)缺點(diǎn)如表所示。優(yōu)點(diǎn)缺點(diǎn)可以處理高維度和低維度數(shù)據(jù)SVM算法對(duì)大規(guī)模訓(xùn)練樣本難以實(shí)施相比隨機(jī)森林,可以解決復(fù)雜的非線性分類問題用SVM解決多分類問題存在困難可以通過使用不同的核函數(shù)應(yīng)用于多種不同類型的問題對(duì)數(shù)據(jù)預(yù)處理要求高,對(duì)參數(shù)和核函數(shù)的選擇敏感SV

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論