版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PAGE2PAGE2PAGE3PAGE3課題機器學習概述與有監(jiān)督學習課時2課時(90min)教學目標知識技能目標:(1)熟悉機器學習的概念、相關(guān)術(shù)語、分類和應(yīng)用場景(2)理解有監(jiān)督學習模型(3)掌握分類任務(wù)和回歸任務(wù)的基本思想和實現(xiàn)方法思政育人目標:關(guān)心國家大事,抓住機遇,展現(xiàn)新作為,增強愛黨、愛國情感了解前沿技術(shù),教學重難點教學重點:有監(jiān)督學習模型教學難點:分類任務(wù)和回歸任務(wù)的基本思想和實現(xiàn)方法教學方法講授法、討論法、問答法教學用具計算機、投影儀、多媒體課件、教材教學設(shè)計→→→傳授新知(20min)→→傳授新知(50min)→課堂練習(7min)→課堂小結(jié)(3min)→作業(yè)布置(2min)教學過程主要教學內(nèi)容及步驟設(shè)計意圖課前任務(wù)【教師】布置課前任務(wù),和學生負責人取得聯(lián)系,讓其提醒同學通過文旌課堂APP或其他學習軟件,完成課前任務(wù)人類可以學習,人工智能中機器也可以模仿人的部分智能,也可以進行機器學習,請大家搜索一下機器學習的相關(guān)知識,說說你所理解的機器學習是什么?【學生】完成課前任務(wù)通過課前任務(wù),使學生了解本次課程的重點,增加學生的學習興趣考勤
(2min)【教師】通過文旌課堂APP讓學生簽到【學生】簽到,班干部交假條培養(yǎng)學生的組織紀律性,掌握學生的出勤情況問題導(dǎo)入(3min)【教師】提出以下問題,并邀請學生回答“聽君一席話,勝讀十年書”里面蘊含了什么樣的人生哲學,思考一下人類學習的過程,進一步討論一下機器如何進行學習?【學生】討論、舉手回答【教師】通過學生的回答引入要講的知識,并板書:機器學習綜合大家的討論,咱們來看一下應(yīng)該什么是機器學習。本節(jié)課主要介紹機器學習的相關(guān)知識。【學生】聆聽通過問題導(dǎo)入的方法,引導(dǎo)學生主動思考,激發(fā)學生的學習興趣傳授新知
(20min)7.1機器學習概述7.1.1什么是機器學習【教師】提問:什么是機器學習?【學生】討論、舉手回答【教師】總結(jié)機器學習(machinelearning)是通過各種算法從數(shù)據(jù)中學習如何完成任務(wù),并獲得完成任務(wù)方法的一門學科。它可以對數(shù)據(jù)進行自動分析,并從中獲得規(guī)律或模型,然后利用規(guī)律或模型對未知數(shù)據(jù)進行預(yù)測。它是人工智能的核心,是使計算機具有智能的重要途徑。(1)機器學習是研究如何用機器模擬人類學習活動的一門學科。(2)機器學習是研究機器如何獲取新知識和新技能,并識別現(xiàn)有知識的學科。(3)機器學習是研究機器如何模擬人類的學習活動,自主獲取新知識和新技能,不斷提升系統(tǒng)性能的學科。機器學習的基本思路就是使用一定的算法解析訓練數(shù)據(jù)(進行模型訓練);然后學習數(shù)據(jù)中存在的一些特征,得到模型;最后使用得到的模型對實際問題做出分類、決策或預(yù)測等。7.1.2機器學習的相關(guān)術(shù)語機器學習的研究對象是數(shù)據(jù),其中,具有相似結(jié)構(gòu)的數(shù)據(jù)樣本集合稱為數(shù)據(jù)集;對某個對象的描述稱為樣本或示例;對象的某方面表現(xiàn)稱為特征或?qū)傩裕惶卣骰驅(qū)傩陨系娜≈捣Q為特征值或?qū)傩灾?;描述樣本特征參?shù)的個數(shù)稱為維數(shù)?!窘處煛坑肞PT展示“術(shù)語標記”圖片,進行舉例說明以計算機識別圖像中的動物是否是貓為例,其中數(shù)據(jù)集、樣本、特征、特征值如圖7-1所示?!緦W生】聆聽、理解在機器學習中,執(zhí)行某個學習算法,從數(shù)據(jù)中學習得到模型的過程稱為訓練或?qū)W習;訓練過程中使用的數(shù)據(jù)稱為訓練數(shù)據(jù);每個樣本稱為訓練樣本;訓練樣本組成的集合稱為訓練集。為得到效果最佳的模型,常用來調(diào)整模型參數(shù)的樣本稱為驗證樣本;驗證樣本組成的集合稱為驗證集。獲得模型后,使用模型對未知數(shù)據(jù)進行預(yù)測的過程稱為測試;用于預(yù)測的樣本稱為測試樣本;測試樣本組成的集合稱為測試集,可用于評價模型的性能。模型適用于新樣本的能力,稱為泛化能力。7.1.3機器學習的分類【教師】展示表格“謂詞公式的等價式”,列出了一些常用的等價式【教師】提醒:從不同的角度,根據(jù)不同的方式,可以將機器學習劃分為不同的類別,如表所示。機器學習的分類有很多種,其中,有監(jiān)督學習和無監(jiān)督學習是機器學習中常用且易懂的方法,本章將詳細介紹這兩種機器學習方法。7.1.4機器學習的應(yīng)用場景機器學習中處理的數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是指用二維表結(jié)構(gòu)表達的數(shù)據(jù),有嚴格定義的數(shù)據(jù)模型,主要通過關(guān)系型數(shù)據(jù)庫存儲和管理,如政府行政審批、財務(wù)、醫(yī)療、企業(yè)ERP等系統(tǒng)中的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)結(jié)構(gòu)不完整或不規(guī)則,沒有預(yù)定義的數(shù)據(jù)模型,如文本、語音、圖像和視頻等?!窘處煛空故颈砀瘛皺C器學習的應(yīng)用場景”,講解知識【教師】提醒:在人們?nèi)粘I钪?,接觸的數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主。針對不同的非結(jié)構(gòu)化數(shù)據(jù),機器學習的不同應(yīng)用場景如表所示?!窘處煛恐v解科技之光相關(guān)內(nèi)容【學生】聆聽、記錄、理解通過教師的講解和課堂互動,使學生了解機器學習的概念教師結(jié)合例子講解相關(guān)術(shù)語課堂思政,增強學生對知識應(yīng)用的感觸,加強學生的國家榮譽感新知導(dǎo)入(3min)【教師】講解新的知識有監(jiān)督學習是利用含有標簽的數(shù)據(jù)集對學習模型進行訓練,然后得到預(yù)測模型,最后利用測試集對預(yù)測模型的性能進行評估的學習方法?!緦W生】聆聽【教師】導(dǎo)入新的知識點:有監(jiān)督學習通過導(dǎo)入環(huán)節(jié),激發(fā)學生的學習興趣傳授新知(50min)7.2有監(jiān)督學習7.2.1什么是有監(jiān)督學習【教師】講解有監(jiān)督學習的概念有監(jiān)督學習是利用含有標簽的數(shù)據(jù)集對學習模型進行訓練,然后得到預(yù)測模型,最后利用測試集對預(yù)測模型的性能進行評估的學習方法?!窘處煛坑肞PT展示“有監(jiān)督學習模型的一般建立流程”圖片,進行知識講解有監(jiān)督學習模型的一般建立流程如圖所示?!緦W生】聆聽、理解在有監(jiān)督學習中,一般將數(shù)據(jù)集劃分為兩部分,一部分是訓練數(shù)據(jù)集,也可稱為學習數(shù)據(jù)集,即訓練樣本,占總數(shù)據(jù)集的80%以上;另一部分是測試數(shù)據(jù)集,即測試樣本,占總數(shù)據(jù)集的20%以下。訓練數(shù)據(jù)集包含兩部分,即訓練集和驗證集。訓練集主要用于估計模型;驗證集用來確定網(wǎng)絡(luò)結(jié)構(gòu)或者確定控制模型復(fù)雜程度的參數(shù)。測試數(shù)據(jù)集主要用來評估最終預(yù)測模型的性能。【教師】提醒:由此可見,數(shù)據(jù)集也可劃分為3部分,即訓練集、驗證集和測試集,它們的劃分比例可設(shè)置為6∶2∶2。但需要注意的是,驗證集并不是必須存在的?!窘處煛颗e例:某天老師拿了4個蘋果和4個香蕉放在桌子上,教小朋友認識這些水果。其中,蘋果和香蕉就是帶有標簽的數(shù)據(jù)。老師指著蘋果對小朋友說,這是蘋果,并要求小朋友跟著念“蘋果”;然后又指著香蕉對小朋友說,這是香蕉,同樣要求小朋友跟著念“香蕉”,就這樣反復(fù)教小朋友認識這兩種水果。老師教小朋友認識水果的過程就是有監(jiān)督學習的訓練過程。教小朋友認識水果之后,老師又拿一些水果考察小朋友是否認識蘋果和香蕉。考察小朋友認知能力的過程就是利用測試集評估預(yù)測模型性能的過程。機器學習中,采用有監(jiān)督學習方法建模的任務(wù)有分類任務(wù)和回歸任務(wù)。7.2.2分類任務(wù)分類是通過在已有數(shù)據(jù)的基礎(chǔ)上進行學習,推導(dǎo)出一個分類函數(shù)或構(gòu)造出一個分類模型,該函數(shù)或模型可以將待分類的數(shù)據(jù)集映射到某個給定的類別中,從而實現(xiàn)數(shù)據(jù)分類。其中,分類函數(shù)或分類模型也稱為分類器。分類任務(wù)通常用于將事物打上一個標簽,結(jié)果為離散值。例如,判斷一幅圖上的動物是貓還是狗。分類的最終正確結(jié)果只有一個,錯誤的就是錯誤的,不會有相近的概念。在機器學習領(lǐng)域中,分類任務(wù)的實現(xiàn)需要先確定一個分類函數(shù)或模型類似于數(shù)據(jù)樣本中的分界線,然后對輸入的新數(shù)據(jù)進行預(yù)測,即根據(jù)分界線對新數(shù)據(jù)進行分類【教師】用PPT展示“螞蟻搬家”圖片,進行知識講解實心的正方形和圓表示帶有標簽的訓練數(shù)據(jù);分界線表示經(jīng)過訓練后獲得的分類函數(shù)或分類模型;空心的正方形和圓表示輸入的新數(shù)據(jù)?!緦W生】聆聽、理解【教師】提醒:分類任務(wù)中,不僅可以解決二分類問題,如垃圾郵件檢測中將郵件分為垃圾郵件和非垃圾郵件兩類;也可以解決多分類問題,如手寫數(shù)字識別中將手寫的數(shù)字分為10類,即0~9。分類任務(wù)的求解過程可簡化為以下4步。(1)數(shù)據(jù)預(yù)處理。將帶有標簽的數(shù)據(jù)分為訓練集和測試集,其中,訓練集用來訓練模型;測試集用來檢驗?zāi)P偷姆诸愋Ч?。?)訓練模型。利用訓練樣本的標簽和特征向量,通過機器學習算法尋找模型的參數(shù),最終得到訓練好的預(yù)測模型。(3)測試模型。利用測試樣本評估預(yù)測模型的性能,即計算模型對樣本預(yù)測的準確率,選擇符合要求的預(yù)測模型。應(yīng)用模型。預(yù)測模型確定好之后,可將其應(yīng)用于實際問題中,預(yù)測未知數(shù)據(jù)的所屬類別。在機器識別研究中,分類任務(wù)中常用的核心算法有K近鄰分類算法、決策樹分類算法、貝葉斯分類算法、支持向量機分類算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細介紹K近鄰分類算法和決策樹分類算法。1.K近鄰分類算法【教師】安排學生掃描二維碼“K近鄰分類算法”,了解知識俗話說“近朱者赤,近墨者黑”,判斷一個人的品質(zhì),可以從他身邊的朋友入手。K近鄰分類(K-nearestneighborsclassification,KNNC)算法是有成熟理論支撐的、較為簡單的經(jīng)典機器學習算法之一,且奉行“觀其友,識其人”的分類原則。【學生】掃碼觀看、了解案例K近鄰分類算法的核心思想是從給定的訓練樣本中尋找與測試樣本“距離”最近的k個樣本,這k個樣本中的多數(shù)屬于哪一類,則將測試樣本歸于這個類別中。這好比k個樣本為測試樣本的朋友,它的朋友中多數(shù)屬于哪一類,則它就屬于哪一類。K近鄰分類算法可用以下5步描述。(1)計算已知訓練集中各點與當前待分類點之間的距離。【教師】提醒:K近鄰分類算法中通過計算樣本間的距離衡量它們的相似性,距離度量一般使用歐氏距離公式或曼哈頓距離公式計算。(2)按照距離遞增的順序排序。(3)選取與當前點距離最小的k個點。(4)確定前k個點所在類的出現(xiàn)頻率。(5)根據(jù)分類決策規(guī)則確定分類結(jié)果?!窘處煛刻嵝眩侯悰Q策規(guī)則一般是多數(shù)表決,即少數(shù)服從多數(shù)原則。因此,前k個點所在類中出現(xiàn)頻率最高的類,即為輸入節(jié)點的預(yù)測所在類。【教師】用PPT展示“數(shù)據(jù)樣本分布示意圖”圖片,進行提問圖中正方形和圓分別表示數(shù)據(jù)樣本的兩個類別,請判斷圖中三角形屬于哪個類別?!緦W生】討論,舉手回答【教師】用PPT展示“分類任務(wù)(k=3)”圖片,進行舉例說明(1)如果k=3,離三角形最近的3個鄰居是2個圓和1個正方形,如圖所示。其中,圓所在的類出現(xiàn)的頻率較高,遵循少數(shù)服從多數(shù)原則,可判定待分類的三角形屬于圓所在的類?!緦W生】聆聽、理解【教師】用PPT展示“分類任務(wù)(k=9)”圖片,進行舉例說明(2)如果k=9,離三角形最近的9個鄰居是4個圓和5個正方形,如圖所示。其中,正方形所在的類出現(xiàn)的頻率較高,遵循少數(shù)服從多數(shù)原則,可判定待分類的三角形屬于正方形所在的類?!緦W生】聆聽、理解【教師】講授學有所獲中相關(guān)知識內(nèi)容從例7-1中可看出,K近鄰分類算法的結(jié)果很大程度上取決于k的值,而k值的選擇需要根據(jù)數(shù)據(jù)決定。不同的k值對預(yù)測結(jié)果的影響不同。k值越小,意味著只有與輸入樣本較近的訓練樣本才會對預(yù)測結(jié)果起作用,但容易出現(xiàn)過擬合現(xiàn)象;k值越大,意味著與輸入樣本較遠的訓練樣本也會對預(yù)測結(jié)果起作用,模型預(yù)測結(jié)果的偏差會越大,甚至出現(xiàn)欠擬合的現(xiàn)象?!窘處煛恐攸c強調(diào)K近鄰分類算法的3個基本要素是k值的選擇、距離度量和分類決策規(guī)則。2.決策樹分類算法【教師】安排學生掃描二維碼“決策樹分類算法”,了解算法決策樹分類(decisiontreeclassification,DTC)算法是一種通過對樣本數(shù)據(jù)進行學習,構(gòu)建一個決策樹模型,實現(xiàn)對新數(shù)據(jù)分類和預(yù)測的算法,是最直觀的分類算法。決策樹是一種樹形結(jié)構(gòu),表示通過一系列規(guī)則對數(shù)據(jù)進行分類的過程?!緦W生】掃碼觀看、了解案例、討論策略決策樹由3個主要部分組成,即決策節(jié)點、分支和葉子節(jié)點。其中,決策節(jié)點即為非葉子節(jié)點,代表某個樣本數(shù)據(jù)的特征(屬性);每個分支代表這個特征(屬性)在某個值域上的特征值(屬性值);每個葉子節(jié)點代表一個類別?!窘處煛坑肞PT展示“決策樹示意圖”圖片,進行知識講解這是一棵結(jié)構(gòu)簡單的決策樹,用于預(yù)測貸款用戶是否有能力償還貸款。其中,貸款用戶主要具備3個特征,即是否擁有房產(chǎn)、是否結(jié)婚和平均月收入,它們所在的節(jié)點分別表示一個特征條件,用于判斷貸款用戶是否符合該特征。葉子節(jié)點表示預(yù)測貸款用戶是否有能力償還貸款?!緦W生】聆聽、理解決策樹分類算法主要借助決策樹模型實現(xiàn)分類。它主要包含兩部分,即決策樹學習和決策樹分類。(1)決策樹學習的目標是根據(jù)給定的訓練集構(gòu)建一個決策樹模型,且該模型能夠?qū)嵗M行正確的分類。決策樹學習通常包括3個步驟,即特征選擇、決策樹的生成和決策樹的剪枝?!窘處煛刻嵝眩簺Q策樹學習本質(zhì)上是從訓練集中歸納出一組分類規(guī)則,而對訓練集進行正確分類的規(guī)則有多種,因此決策樹也可能有多個。在選擇決策樹時,應(yīng)選擇泛化能力(即對新鮮樣本的適應(yīng)能力)好的決策樹。①特征選擇是指選取對訓練集具有分類能力的特征,有利于提高決策樹的學習效率。常用的特征選擇指標有信息增益、信息增益比、基尼系數(shù)等。【教師】提醒:特征選擇是決策樹學習中非常重要的一步,它決定用哪個特征來劃分特征空間?!窘處煛恐v授學以修身中相關(guān)知識內(nèi)容世界上的事物不是孤立存在的,大家在學習和工作中,要堅持運用科學、辯證的觀點和思想方法全面客觀地了解事物和分析問題,既要觀察事物之間的相互聯(lián)系,又要關(guān)注事物之間的相互區(qū)別,多方面綜合考慮并重視其各種構(gòu)成因素之間的關(guān)系,避免顧此失彼。②決策樹的生成是指在決策樹各個點上按照一定方法選擇特征,遞歸構(gòu)建決策樹。常通過計算信息增益或其他指標,選擇最佳特征。從根結(jié)點開始,遞歸地產(chǎn)生決策樹,不斷地選取局部最優(yōu)的特征,將訓練集分割成不同子集,達到基本正確分類的目標。③決策樹的剪枝是指在已生成的決策樹上減掉一些子樹或葉節(jié)點,從而簡化決策樹模型,緩解過擬合。常用的剪枝方法有預(yù)剪枝和后剪枝?!窘處煛刻嵝眩侯A(yù)剪枝是在構(gòu)造決策樹的同時進行剪枝,通過設(shè)定一個閾值實現(xiàn)剪枝。由于選擇合理的閾值比較困難,因此該方法不常用。后剪枝是在決策樹生成之后,對樹進行剪枝,得到簡化版的決策樹。常用的后剪枝算法有錯誤率降低剪枝(REP)、悲觀剪枝(PEP)等?!窘處煛恐攸c強調(diào)理想的決策樹有3種,即葉子節(jié)點數(shù)最少、葉子節(jié)點深度最小、葉子節(jié)點數(shù)最少且葉子節(jié)點深度最小。(2)決策樹分類的目的是利用決策樹模型對實例進行分類。下面通過例7-2說明如何用決策樹進行分類?,F(xiàn)有一名貸款用戶小王,他沒有房產(chǎn)、沒有結(jié)婚、平均月收入8000元。請根據(jù)圖7-7中的決策樹預(yù)測小王是否有能力償還貸款。①小王沒有房產(chǎn),所以“是否擁有房產(chǎn)”的特征值取“否”。根據(jù)決策樹的根節(jié)點判斷,小王符合右邊的分支。②小王沒有結(jié)婚,所以“是否結(jié)婚”的特征值取“否”。根據(jù)決策樹的決策節(jié)點判斷,小王符合右邊的分支。③小王平均月收入8000元,所以“平均月收入”的特征值取“大于5000元”。根據(jù)決策樹的決策節(jié)點判斷,小王符合左邊的分支??梢姡罱K對貸款用戶小王是否有能力償還貸款的預(yù)測落在了“可以償還”的葉子節(jié)點上。因此,貸款用戶小王有能力償還貸款。(3)綜上所述,決策樹分類算法的實現(xiàn)流程可用圖7-8表示。①創(chuàng)建數(shù)據(jù)集。②對數(shù)據(jù)集進行預(yù)處理,得到訓練集、驗證集和測試集?!窘處煛坑肞PT展示“決策樹分類算法實現(xiàn)流程”圖片,進行知識講解【學生】聆聽、理解【教師】提醒:訓練集用來決定構(gòu)建決策樹過程中每個結(jié)點劃分所選擇的特征。驗證集用來對決策樹進行剪枝。在預(yù)剪枝中,驗證集用于決定該結(jié)點是否有必要依據(jù)該特征展開;在后剪枝中,驗證集用于判斷該結(jié)點是否需要剪枝。測試集用來評估決策樹模型的泛化能力。③計算訓練集中所有特征的信息增益?!窘處煛刻嵝眩盒畔⒃鲆媸侵敢阅程卣鲃澐趾?,數(shù)據(jù)集前后信息熵的差值。它是決策樹特征選擇的一個重要指標,信息增益越大,特征的選擇性越好。信息熵可以表示樣本集合的不確定性,信息熵越大,樣本的不確定性就越大。④選擇信息增益最大的特征作為最佳分類特征。⑤構(gòu)建決策樹。⑥根據(jù)最佳分類特征分割訓練集,并將該特征從數(shù)據(jù)列表中移除。⑦訓練集分割后得到訓練子集,可將其視為新的訓練集。⑧判斷分類是否結(jié)束,若結(jié)束,得到?jīng)Q策樹,繼續(xù)⑨;否則轉(zhuǎn)向③。⑨對訓練集進行訓練(學習)后得到?jīng)Q策樹。⑩利用驗證集對決策樹進行剪枝?!窘處煛刻嵝眩涸摏Q策樹分類算法流程中對決策樹采用的是后剪枝方法。后剪枝方法中,要求先利用訓練集生成一棵完整的決策樹,然后利用驗證集自底向上地對非葉子節(jié)點進行考察,若將該節(jié)點對應(yīng)的子樹替換為葉子節(jié)點能使模型泛化性能提升,則將該子樹替換為葉子節(jié)點。獲得簡化的決策樹模型,并將其應(yīng)用于測試階段。利用決策樹模型對測試集進行分類,獲得分類結(jié)果,算法結(jié)束。7.2.3回歸任務(wù)回歸是通過已有數(shù)據(jù)進行學習,擬合出一個回歸函數(shù)或構(gòu)造出一個回歸模型,該函數(shù)或模型可以將待測試的數(shù)據(jù)集映射到某個給定的值,從而實現(xiàn)數(shù)據(jù)預(yù)測?;貧w任務(wù)通常用來預(yù)測一個值,如預(yù)測房價、預(yù)測股價等。若一個產(chǎn)品的實際價格為500元,通過回歸分析預(yù)測值為499元,則認為這是一個比較好的回歸分析。回歸是對真實值的一種逼近預(yù)測。在機器學習領(lǐng)域中,回歸任務(wù)的實現(xiàn)需要先對數(shù)據(jù)樣本點進行擬合,再根據(jù)擬合出來的函數(shù)對輸入的新數(shù)據(jù)進行輸出預(yù)測,如圖7-9所示?!窘處煛坑肞PT展示“回歸任務(wù)”圖片,進行知識講解圖中,圓表示帶有標簽的訓練數(shù)據(jù);回歸曲線表示經(jīng)過訓練后獲得的回歸函數(shù)或回歸模型。若該回歸任務(wù)表示對商品價格走勢的預(yù)測(x表示年份,y表示商品價格),則由回歸函數(shù)可以預(yù)測未來某年的商品價格?!緦W生】聆聽、理解回歸任務(wù)的求解過程與分類任務(wù)的求解過程類似,這里不再贅述?!窘處煛恐攸c強調(diào)分類任務(wù)與回歸任務(wù)的聯(lián)系與區(qū)別如下。(1)聯(lián)系:它們都是有監(jiān)督學習,且用于訓練的數(shù)據(jù)集都有標簽。(2)區(qū)別:它們預(yù)測結(jié)果的數(shù)據(jù)類型不同。分類任務(wù)預(yù)測的是一個類別標簽,屬于離散型數(shù)據(jù);回歸任務(wù)預(yù)測的是一個值,屬于連續(xù)型數(shù)據(jù)。例如,“預(yù)測明天天氣是陰、晴還是雨”是一個分類任務(wù);“預(yù)測明天的氣溫是多少度”是一個回歸任務(wù)?;貧w任務(wù)中常用的核心算法有K近鄰回歸算法、決策樹回歸算法、貝葉斯回歸算法、支持向量機回歸算法和人工神經(jīng)網(wǎng)絡(luò)等。下面詳細介紹K近鄰回歸算法和決策樹回歸算法。1.K近鄰回歸算法K近鄰思想不僅可應(yīng)用于分類任務(wù),還可應(yīng)用于回歸任務(wù)。K近鄰回歸(K-nearestneighborsregression,KNNR)算法的核心思想是找出一個樣本的k個最近鄰居,將這些鄰居的某個(些)特征的平均值賦給該樣本,就可以得到該樣本對應(yīng)特征的值。K近鄰回歸算法可用以下5步描述。(1)計算已知訓練集中各點與當前待預(yù)測點之間的距離?!窘處煛刻嵝眩篕近鄰回歸算法中兩個樣本點間距離的計算方法和K近鄰分類算法中相同,都是使用歐氏距離公式或曼哈頓距離公式。(2)按照距離遞增的順序排序。(3)選取與當前點距離最小的k個點。(4)計算選取的k個點在某特征上的平均特征值。(5)將該平均特征值賦值給待檢測點,便得到了該樣本的某特征值?!窘處煛坑肞PT展示“小李房子附近的房價”表格,進行舉例說明由于資金緊張,小李計劃將他的一套一居室的房子出售,已知該房子附近的房價如表7-3所示。請采用K近鄰回歸算法幫小李給這套房子定價格?!緦W生】聆聽、理解取k=3,離小李房子最近的3個鄰居是表7-3中前3條數(shù)據(jù),這3個房源的房價平均值為萬,因此可將小李的房子定價為53萬。2.決策樹回歸算法【教師】安排學生掃描二維碼“決策樹回歸算法”,了解算法決策樹回歸(decisiontreeregression,DTR)算法通過尋找樣本中最佳的特征及特征值作為最佳分割點,構(gòu)建決策樹,同時將訓練樣本劃分為若干個區(qū)間,基于每個區(qū)間計算樣本均值,該均值即為預(yù)測值?!緦W生】掃碼觀看、了解案例、討論策略回歸算法生成的決策樹是二叉樹結(jié)構(gòu)(見圖
7-10),其內(nèi)部非葉子節(jié)點特征的取值都為“是”或“否”,所以對數(shù)據(jù)樣本劃分的邊界是平行于坐標軸的,如圖7-11所示。其中,A、B、C、D、E對應(yīng)每個區(qū)間的輸出。【教師】用PPT展示“決策樹(二叉樹結(jié)構(gòu))”和“劃分邊界示意”圖片,進行知識講解對于某測試數(shù)據(jù),只需要根據(jù)特征將其歸到某個區(qū)間,便可得到對應(yīng)的輸出值。例如,某測試數(shù)據(jù)的特征是一個二維向量,第一維分量7介于6和8之間,第二維分量7小于8,則根據(jù)圖7-10的決策樹可判斷所在的劃分區(qū)間,其對應(yīng)的輸出值為C。【學生】聆聽、理解決策樹回歸算法的核心問題是選擇切分點與確定輸出值。(1)切分點是指將訓練集劃分為兩部分的某一特征的值。其中,該特征稱為切分變量。最優(yōu)的特征和特征值是通過比較不同劃分的誤差確定的。其中,一個樣本空間劃分的誤差是用真實值和劃分區(qū)域預(yù)測值的最小二乘來衡量。因此,可用最小二乘法選擇切分點。(2)輸出值是指劃分的區(qū)域所代表的值,通過計算區(qū)域內(nèi)所有特征值的均值確定。下面通過例7-4描述決策樹回歸算法的具體實現(xiàn)流程?!窘處煛坑肞PT展示“螞蟻搬家”表格,進行舉例說明現(xiàn)有用于訓練的數(shù)據(jù)集如表7-4所示。其中,x表示特征向量,且只有一維,y表示特征值。請根據(jù)此數(shù)據(jù)表建立回歸決策樹,并預(yù)測x=10時,y的值?!緦W生】聆聽、理解因為在該數(shù)據(jù)集中只有一個變量x,所以切分變量必然選擇x。分析切分變量的取值,可考慮9個切分點,即1.5、2.5、3.5、4.5、5.5、6.5、7.5、8.5、10?!窘處煛刻嵝眩涸趯嶋H應(yīng)用中,切分點可取切分變量的兩個相鄰取值間任意一點。【教師】用PPT展示“數(shù)據(jù)劃分(S=1.5)”表格,進行舉例說明【學生】聆聽、理解(1)計算第1個切分點。當切分點s=1.5時,將數(shù)據(jù)劃分為兩部分,計算兩部分數(shù)據(jù)的輸出值,即利用損失函數(shù)計算切分點s=1.5的損失函數(shù)值,即【教師】提醒:損失函數(shù)是指劃分區(qū)域中樣本特征真實值和劃分區(qū)域預(yù)測值的最小二乘,其計算公式為其中,j表示切分變量,此處取x;s表示切分點,此處取1.5;和表示經(jīng)過切分點s劃分之后獲得的兩部分區(qū)域;表示樣本特征;表示特征值;和分別表示兩部分區(qū)域的輸出值。同理計算其他分割點的損失函數(shù)值,其結(jié)果如表7-5所示?!窘處煛坑肞PT展示“切分點的損失函數(shù)值”表格,進行舉例說明從表7-5中容易看出,當s=6.5時,Loss=1.93最小,所以第1個切分點為s=6.5?!緦W生】聆聽、理解【教師】用PPT展示“數(shù)據(jù)劃分(s=6.5)”表格,進行舉例說明切分點s=6.5可將數(shù)據(jù)劃分為兩部分,如圖7-13所示。之后分別對這兩部分數(shù)據(jù)進行劃分,確定每一部分數(shù)據(jù)的切分點?!緦W生】聆聽、理解(2)計算第2個切分點。當切分點s=1.5時,將x<6.5的數(shù)據(jù)劃分為兩部分,如圖7-14所示。【教師】用PPT展示“數(shù)據(jù)劃分(S=1.5)”表格,進行舉例說明【學生】聆聽、理解計算兩部分數(shù)據(jù)的輸出值,即利用損失函數(shù)計算切分點s=1.5的損失函數(shù)值,即同理計算其他分割點的損失函數(shù)值,其結(jié)果如表7-6所示。【教師】用PPT展示“切分點的損失函數(shù)值”表格,進行舉例說明從表7-6中容易看出,當s=3.5時,Loss=0.28最小,所以第2個切分點為s=3.5?!緦W生】聆聽、理解(3)計算第3個切分點。當切分點s=7.5時,將x>6.5的數(shù)據(jù)劃分為兩部分,如圖7-15所示。【教師】用PPT展示“數(shù)據(jù)劃分(s=7.5)”表格,進行舉例說明【學生】聆聽、理解計算兩部分數(shù)據(jù)的輸出值,即利用損失函數(shù)計算切分點s=7.5的損失函數(shù)值,即同理計算其他分割點的損失函數(shù)值,其結(jié)果如表7-7所示?!?/p>
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年copd麻醉試題及答案
- 2025云南省電子競技協(xié)會招聘備考題庫完整參考答案詳解
- 2025年藥品質(zhì)量考試試題及答案
- 2026河南安陽市直機關(guān)遴選公務(wù)員3人備考題庫(安陽市檢察院遴選3名)附答案詳解
- 2025年高頻華英面試題及答案
- (2025年)臨床輸血知識培訓考試練習題(答案)
- 2026年淄博張店區(qū)教育系統(tǒng)公開招聘工作人員備考題庫(71人)及1套參考答案詳解
- 2026浙江寧波市鄞州區(qū)公立學校招聘編外員工1人備考題庫及參考答案詳解一套
- 2025年國際中文教師考試題庫及答案
- 2025年婦產(chǎn)科考試模擬題含答案
- JGJ256-2011 鋼筋錨固板應(yīng)用技術(shù)規(guī)程
- 上海建橋?qū)W院簡介招生宣傳
- 《智慧教育黑板技術(shù)規(guī)范》
- 《電力建設(shè)安全工作規(guī)程》-第1部分火力發(fā)電廠
- 歌曲《我會等》歌詞
- 八年級物理上冊期末測試試卷-附帶答案
- 小學英語五年級上冊Unit 5 Part B Let's talk 教學設(shè)計
- 老年癡呆科普課件整理
- 學生校服供應(yīng)服務(wù)實施方案
- GB/T 22900-2022科學技術(shù)研究項目評價通則
- 自動控制系統(tǒng)的類型和組成
評論
0/150
提交評論