AI概論及應(yīng)用 課件 4.3 分類算法_第1頁
AI概論及應(yīng)用 課件 4.3 分類算法_第2頁
AI概論及應(yīng)用 課件 4.3 分類算法_第3頁
AI概論及應(yīng)用 課件 4.3 分類算法_第4頁
AI概論及應(yīng)用 課件 4.3 分類算法_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

機(jī)器學(xué)習(xí)中的分類算法Catalogue目錄01020304050607邏輯回歸支持向量機(jī)K近鄰算法決策樹隨機(jī)森林神經(jīng)網(wǎng)絡(luò)算法選擇與總結(jié)4.3.1邏輯回歸(LogisticRegression)邏輯回歸是一種用于二分類問題的模型,通過邏輯函數(shù)(Sigmoid函數(shù))將線性回歸的輸出映射到0到1之間,從而得到類別概率。邏輯回歸的模型為:其中,w是權(quán)重向量,x是輸入特征向量,b是偏置項(xiàng)。邏輯回歸就像一個(gè)聰明的裁判,通過給每個(gè)可能的結(jié)果打分,最終選擇得分最高的那個(gè)作為最終結(jié)果。4.3.1邏輯回歸(LogisticRegression)Sigmoid函數(shù)是一種常用的激活函數(shù)。它的一般表達(dá)式如下:這里,σ(x)是Sigmoid函數(shù)的輸出,x是輸入值。4.3.1邏輯回歸(LogisticRegression)下面給出邏輯回歸函數(shù)相關(guān)性質(zhì)。①輸出范圍:Sigmoid函數(shù)的輸出值在0和1之間(0<σ(x)<1),使其適用于概率預(yù)測(cè)。

②單調(diào)性:Sigmoid函數(shù)是單調(diào)遞增的,這意味著隨著輸入值x的增加,輸出值也會(huì)增加。

③導(dǎo)數(shù):Sigmoid函數(shù)的導(dǎo)數(shù)可以通過其輸出值計(jì)算,公式為:4.3.1邏輯回歸(LogisticRegression)左圖給出了Sigmoid函數(shù)在不同坐標(biāo)尺度下的兩條曲線圖。當(dāng)x為0時(shí),Sigmoid函數(shù)值為0.5,隨著x的增大,對(duì)應(yīng)的Sigmoid值將逼近于1;而隨著x的小,Sigmoid值將逼近于0。4.3.1邏輯回歸(LogisticRegression)如果橫坐標(biāo)刻度足夠大,Sigmoid函數(shù)看起來很像一個(gè)階躍函數(shù)。

因此,為了實(shí)現(xiàn)Logstic回歸分類器,我們可以在每個(gè)特征上都乘以一個(gè)回歸系數(shù),然后把所有的結(jié)果值相加,將這個(gè)總和代人Sigmoid函數(shù)中,進(jìn)而得到一個(gè)范圍在(0,1)之間的數(shù)值。任何大于0.5的數(shù)據(jù)被分入1類,小于0.5即被歸入0類。所以,Logsitc回歸也可以被看成是一種概率估計(jì)。在疾病預(yù)測(cè)中,根據(jù)患者癥狀、檢查指標(biāo)等特征,邏輯回歸可預(yù)測(cè)患病概率。醫(yī)療診斷用于客戶購買預(yù)測(cè),分析客戶行為、消費(fèi)習(xí)慣等數(shù)據(jù),預(yù)測(cè)購買新產(chǎn)品的概率。市場營銷在信用評(píng)分中,根據(jù)客戶收入、負(fù)債、信用記錄等特征,評(píng)估客戶信用風(fēng)險(xiǎn)。010203金融領(lǐng)域邏輯回歸廣泛應(yīng)用于醫(yī)學(xué)、市場營銷、金融等領(lǐng)域,尤其適用于線性可分問題。在

醫(yī)療診斷中,預(yù)測(cè)病人是否患有某種疾病。

市場營銷中,預(yù)測(cè)客戶是否會(huì)購買某產(chǎn)品。應(yīng)用場景4.3.2支持向量機(jī)(SupportVectorMachine,SVM)SVM通過找到一個(gè)最佳的超平面,將不同類別的數(shù)據(jù)點(diǎn)分開。它在高維空間中進(jìn)行分類,并最大化類別之間的邊界。從幾何意義來看,就是左圖中的直線。4.3.2支持向量機(jī)(SupportVectorMachine,SVM)SVM就像一個(gè)有力的裁判,盡量把不同隊(duì)伍的選手分隔開,并且保證選手之間的間距最大。最大間隔超平面在特征空間中尋找一個(gè)超平面,使正負(fù)樣本間隔最大化,間隔越大,分類效果越好。通過優(yōu)化問題求解,找到最優(yōu)超平面參數(shù),實(shí)現(xiàn)對(duì)不同類別數(shù)據(jù)的精準(zhǔn)劃分。01核技巧對(duì)于非線性可分?jǐn)?shù)據(jù),通過核函數(shù)映射到高維空間,使其在高維空間線性可分。常用核函數(shù)有線性核、多項(xiàng)式核、高斯核等,不同核函數(shù)適用于不同數(shù)據(jù)分布。02軟間隔與懲罰參數(shù)引入軟間隔允許部分?jǐn)?shù)據(jù)分類錯(cuò)誤,通過懲罰參數(shù)C控制分類錯(cuò)誤與間隔大小的平衡。034.3.2支持向量機(jī)(SupportVectorMachine,SVM)應(yīng)用案例如下。

圖像分類:識(shí)別手寫數(shù)字或分類圖像對(duì)象。文本分類:垃圾郵件檢測(cè)、情感分析。應(yīng)用背景SVM在高維空間中表現(xiàn)良好,適用于圖像識(shí)別、文本分類等復(fù)雜領(lǐng)域。圖像分類在手寫數(shù)字識(shí)別中,將像素值作為特征,支持向量機(jī)可準(zhǔn)確區(qū)分不同數(shù)字。文本分類將文本向量化后作為特征,支持向量機(jī)可對(duì)新聞、文檔等進(jìn)行分類,準(zhǔn)確率高且速度快。生物信息學(xué)在基因序列分類中,支持向量機(jī)可處理高維數(shù)據(jù),準(zhǔn)確區(qū)分不同基因序列。4.3.3.K近鄰算法(K-NearestNeighbors,KNN)KNN是一種基于實(shí)例的學(xué)習(xí)方法,通過計(jì)算新數(shù)據(jù)點(diǎn)與已知數(shù)據(jù)點(diǎn)的距離,選擇最近的K個(gè)鄰居進(jìn)行投票決定分類。KNN就像一個(gè)新來的學(xué)生,根據(jù)周圍同學(xué)的喜好來決定自己喜歡什么。常用歐氏距離、曼哈頓距離等計(jì)算新數(shù)據(jù)點(diǎn)與已知數(shù)據(jù)點(diǎn)的距離,距離越近相似度越高。K值過小,模型易受噪聲影響;K值過大,可能將不同類別數(shù)據(jù)點(diǎn)納入考慮,降低分類精度。根據(jù)K個(gè)最近鄰的類別進(jìn)行投票,多數(shù)類別決定新數(shù)據(jù)點(diǎn)的類別,簡單直觀且有效。123距離度量投票機(jī)制K值選擇基本原理4.3.3.K近鄰算法(K-NearestNeighbors,KNN)例1設(shè)我們有一個(gè)簡單的數(shù)據(jù)集,包含兩種水果:蘋果和橙子。每個(gè)水果有兩個(gè)特征:質(zhì)量(單位:克);②

顏色(用數(shù)值表示,0表示偏綠色,1表示偏紅色)。我們的目標(biāo)是根據(jù)已知數(shù)據(jù),預(yù)測(cè)一個(gè)新水果是蘋果還是橙子。已知數(shù)據(jù)如圖。質(zhì)量(克)顏色類別1500橙子1700橙子1401蘋果1301蘋果1600橙子1551蘋果4.3.3.K近鄰算法(K-NearestNeighbors,KNN)新數(shù)據(jù)現(xiàn)在有一個(gè)新水果,質(zhì)量為145克,顏色為1(偏紅色)。我們需要預(yù)測(cè)它是蘋果還是橙子。4.3.3.K近鄰算法(K-NearestNeighbors,KNN)KNN算法步驟①選擇K值:假設(shè)我們選擇K=3,即找到距離新數(shù)據(jù)最近的3個(gè)鄰居。②計(jì)算距離:使用歐氏距離計(jì)算新數(shù)據(jù)與每個(gè)已知數(shù)據(jù)點(diǎn)的距離。?歐氏距離公式:?例如,新數(shù)據(jù)(145,1)與第一個(gè)數(shù)據(jù)點(diǎn)(150,0)的距離為:4.3.3.K近鄰算法(K-NearestNeighbors,KNN)③.找出最近的K個(gè)鄰居:?計(jì)算所有距離后,找出距離最近的3個(gè)數(shù)據(jù)點(diǎn):(140,1):類別為蘋果,距離≈5.0(155,1):類別為蘋果,距離≈10.0(150,0):類別為橙子,距離≈5.1④

投票決定類別:?最近的3個(gè)鄰居中,有2個(gè)是蘋果,1個(gè)是橙子。?根據(jù)多數(shù)投票,預(yù)測(cè)新水果為蘋果。在指紋識(shí)別中,通過計(jì)算指紋特征點(diǎn)與已知指紋的距離,實(shí)現(xiàn)快速準(zhǔn)確識(shí)別。模式識(shí)別02在手寫數(shù)字識(shí)別中,通過計(jì)算像素點(diǎn)距離,實(shí)現(xiàn)對(duì)數(shù)字的快速分類。圖像識(shí)別03根據(jù)用戶歷史行為和相似用戶偏好,為用戶推薦商品或服務(wù),提升用戶滿意度。推薦系統(tǒng)01應(yīng)用場景4.3.4.決策樹(DecisionTree)決策樹是一種樹狀結(jié)構(gòu)模型,通過對(duì)特征進(jìn)行分裂,將數(shù)據(jù)逐步劃分成不同的類別。每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)特征,每個(gè)葉節(jié)點(diǎn)表示一個(gè)類別。決策樹就像一個(gè)聰明的決策者,根據(jù)一系列問題和答案來最終決定結(jié)果。

決策樹通過遞歸地選擇最佳特征進(jìn)行數(shù)據(jù)劃分,使用信息增益或基尼指數(shù)等指標(biāo)評(píng)估分裂質(zhì)量。依據(jù)信息增益、增益比或基尼指數(shù)選擇最優(yōu)特征進(jìn)行分裂,使數(shù)據(jù)純度不斷提高。01特征選擇從根節(jié)點(diǎn)開始,遞歸選擇最優(yōu)特征分裂數(shù)據(jù),直到滿足停止條件,如節(jié)點(diǎn)純度足夠高。02樹的構(gòu)建預(yù)剪枝通過限制樹的深度或節(jié)點(diǎn)數(shù)量提前停止生長,減少過擬合風(fēng)險(xiǎn)。03剪枝策略基本原理4.3.4.決策樹(DecisionTree)例2設(shè)我們有一個(gè)簡單的數(shù)據(jù)集,包含兩種水果:蘋果和橙子。每個(gè)水果有兩個(gè)特征:①質(zhì)量(單位:克);②

顏色(用數(shù)值表示,0表示偏綠色,1表示偏紅色).我們目標(biāo)是根據(jù)已知數(shù)據(jù),構(gòu)建一個(gè)決策樹模型,用于預(yù)測(cè)一個(gè)新水果是蘋果還是橙子。已知數(shù)據(jù)如圖。質(zhì)量(克)顏色類別1500橙子1700橙子1401蘋果1301蘋果1600橙子1551蘋果4.3.4.決策樹(DecisionTree)為了求解例2,先給決策樹構(gòu)建步驟和信息增益計(jì)算方法。(1)決策樹的構(gòu)建過程包括以下步驟:1.選擇劃分特征:根據(jù)某種準(zhǔn)則(如信息增益或基尼不純度)選擇最佳特征來劃分?jǐn)?shù)據(jù)。2.遞歸劃分:對(duì)每個(gè)子集重復(fù)上述過程,直到滿足停止條件(如節(jié)點(diǎn)純度達(dá)到閾值或數(shù)據(jù)量過小)。4.3.4.決策樹(DecisionTree)(2)信息增益計(jì)算信息增益是常用的特征選擇準(zhǔn)則,基于信息熵。信息熵的公式為:其中:S是當(dāng)前數(shù)據(jù)集;c是類別數(shù)(這里是2:蘋果和橙子);

是類別i在數(shù)據(jù)集S中的比例。信息增益的公式為:信息增益

其中:A是某個(gè)特征(如“質(zhì)量”或“顏色”);Values(A)是特征A的所有可能取值;Sv是特征A取值為v的子集。對(duì)于例2,可以采用下述方法來選擇哪種特征進(jìn)行劃分。解答如下。①劃分特征選取。對(duì)于顏色0:

樣本:150(橙子)、170(橙子)、160(橙子)

類別分布:橙子=3,蘋果=0

信息熵:H(S顏色=0)=-1log21=0對(duì)于顏色=1:4.3.4.決策樹(DecisionTree)樣本:140(蘋果)、130(蘋果)、155(蘋果)類別分布:橙子=0,蘋果=3信息熵:H(S顏色=1)=-1log21=0總信息增益為:由于顏色特征信息增益最大,故選取顏色特征劃分?jǐn)?shù)據(jù)集。4.3.4.決策樹(DecisionTree)②構(gòu)建決策樹根據(jù)上述計(jì)算,我們可以構(gòu)建如下決策樹:根節(jié)點(diǎn):顏色如果顏色=0,則類別為橙子。

如果顏色=1,則類別為蘋果。③預(yù)測(cè)新數(shù)據(jù)現(xiàn)在有一個(gè)新水果,質(zhì)量為145克,顏色為1(偏紅色)。根據(jù)決策樹:顏色=1,因此預(yù)測(cè)為蘋果。4.3.4.決策樹(DecisionTree)案例總結(jié):①

決策樹通過遞歸劃分?jǐn)?shù)據(jù)集,選擇最佳特征進(jìn)行分類;②信息增益是常用的特征選擇準(zhǔn)則,基于信息熵計(jì)算;③該例子展示了如何構(gòu)建一個(gè)簡單的決策樹并進(jìn)行預(yù)測(cè)。應(yīng)用案例如下:信用評(píng)分根據(jù)客戶收入、負(fù)債、信用記錄等特征,決策樹可評(píng)估客戶信用風(fēng)險(xiǎn),準(zhǔn)確率達(dá)85%以上。在市場分析中,根據(jù)消費(fèi)者行為、市場趨勢(shì)等特征,決策樹可預(yù)測(cè)市場變化,為決策提供支持。市場分析醫(yī)療診斷在疾病診斷中,根據(jù)患者癥狀、檢查結(jié)果等特征,決策樹可輔助醫(yī)生快速診斷疾病類型。應(yīng)用場景隨機(jī)森林是一種集成學(xué)習(xí)方法,由多棵決策樹組成。每棵樹在訓(xùn)練時(shí)隨機(jī)選擇特征和樣本,通過投票機(jī)制決定最終分類結(jié)果。隨機(jī)森林就像一個(gè)專家團(tuán)隊(duì),每個(gè)專家給出自己的意見,最后通過多數(shù)投票決定結(jié)果。4.3.5.

隨機(jī)森林(RandomForest)通過構(gòu)建多棵決策樹,每棵樹在不同子樣本和特征子集上訓(xùn)練,投票決定最終分類結(jié)果。在樣本抽樣和特征選擇中引入隨機(jī)性,使每棵決策樹具有多樣性,減少過擬合風(fēng)險(xiǎn)。集成學(xué)習(xí)思想隨機(jī)性引入通過計(jì)算每棵決策樹中特征的分裂次數(shù)和分裂效果,評(píng)估特征重要性,為特征選擇提供依據(jù)。特征重要性評(píng)估基本原理在股票價(jià)格預(yù)測(cè)中,隨機(jī)森林可綜合考慮多種因素,如市場行情、公司財(cái)務(wù)指標(biāo)等,預(yù)測(cè)股票漲跌。在基因序列分類中,隨機(jī)森林可處理高維數(shù)據(jù),準(zhǔn)確區(qū)分不同基因序列。在疾病預(yù)測(cè)中,隨機(jī)森林可綜合考慮多種癥狀和檢查指標(biāo),準(zhǔn)確預(yù)測(cè)疾病發(fā)生概率。金融預(yù)測(cè)生物信息學(xué)醫(yī)療診斷應(yīng)用場景神經(jīng)網(wǎng)絡(luò)是由多個(gè)神經(jīng)元(節(jié)點(diǎn))組成的網(wǎng)絡(luò),通過層與層之間的連接和權(quán)重調(diào)整來學(xué)習(xí)數(shù)據(jù)復(fù)雜模式。常用于深度學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)稱為深度神經(jīng)網(wǎng)絡(luò)(DNN)。神經(jīng)網(wǎng)絡(luò)通過前向傳播計(jì)算輸出h=σ(Wx+b),W是權(quán)重矩陣,x是輸入向量,b是偏置向量,σ是激活函數(shù)。訓(xùn)練通過反向傳播算法調(diào)整權(quán)重。神經(jīng)網(wǎng)絡(luò)就像一個(gè)強(qiáng)大的學(xué)習(xí)機(jī)器,通過模擬人腦的工作方式,從大量數(shù)據(jù)中學(xué)習(xí)并識(shí)別復(fù)雜的模式。4.3.6.

神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)前向傳播與反向傳播網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)神經(jīng)元結(jié)構(gòu)神經(jīng)元接收輸入信號(hào),通過激活函數(shù)處理后輸出,多個(gè)神經(jīng)元組成神經(jīng)網(wǎng)絡(luò)。前向傳播計(jì)算網(wǎng)絡(luò)輸出,反向傳播根據(jù)損失函數(shù)調(diào)整權(quán)重,優(yōu)化網(wǎng)絡(luò)參數(shù)。根據(jù)問題復(fù)雜度選擇

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論