機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課件 第二章 機(jī)器學(xué)習(xí)基礎(chǔ)_第1頁(yè)
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課件 第二章 機(jī)器學(xué)習(xí)基礎(chǔ)_第2頁(yè)
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課件 第二章 機(jī)器學(xué)習(xí)基礎(chǔ)_第3頁(yè)
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課件 第二章 機(jī)器學(xué)習(xí)基礎(chǔ)_第4頁(yè)
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課件 第二章 機(jī)器學(xué)習(xí)基礎(chǔ)_第5頁(yè)
已閱讀5頁(yè),還剩45頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

機(jī)器學(xué)習(xí)原理、算法與應(yīng)用

第二章:機(jī)器學(xué)習(xí)基礎(chǔ)目錄2.1機(jī)器學(xué)習(xí)中的基本概念2.2回歸問題2.3分類問題2.4梯度下降法與最小二乘法2.5正則化2.6sklearn中常用的數(shù)據(jù)集2.7習(xí)題2機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)本章的重點(diǎn)、難點(diǎn)和需要掌握的內(nèi)容掌握數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集、測(cè)試集的概念和劃分方法。掌握常見的回歸學(xué)習(xí)性能評(píng)價(jià)指標(biāo)。掌握常見的分類學(xué)習(xí)性能評(píng)價(jià)指標(biāo)。掌握梯度下降法、最小二乘法、正則化方法等的使用。了解sklearn中常用的數(shù)據(jù)集。3機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)目錄2.1機(jī)器學(xué)習(xí)中的基本概念2.1.1數(shù)據(jù)集2.1.2過擬合與欠擬合2.1.3交叉驗(yàn)證方法4機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)數(shù)據(jù)集在機(jī)器學(xué)習(xí)中,數(shù)據(jù)集是指一組用于訓(xùn)練、測(cè)試和評(píng)估機(jī)器學(xué)習(xí)模型的數(shù)據(jù)樣本的集合。數(shù)據(jù)集通常由輸入特征(也稱為自變量)和對(duì)應(yīng)的目標(biāo)變量(也稱為因變量或標(biāo)簽)組成。機(jī)器學(xué)習(xí)的過程,就是根據(jù)已有的數(shù)據(jù)集建立一個(gè)模型,然后對(duì)未標(biāo)注數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)集可以分為以下幾類:訓(xùn)練集:用于模型擬合的數(shù)據(jù)樣本。驗(yàn)證集:獨(dú)立于訓(xùn)練集的樣本,用于評(píng)估訓(xùn)練所得模型的能力。在模型迭代訓(xùn)練中,也可以用以驗(yàn)證模型的泛化能力(準(zhǔn)確性、召回率),并在迭代過程中調(diào)整模型的超參數(shù)。測(cè)試集:評(píng)估最終模型的泛化能力,但不能作為調(diào)參、選擇特征等算法相關(guān)的選擇依據(jù)。增強(qiáng)集:通過對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行一些變換或擴(kuò)充來增加數(shù)據(jù)樣本的數(shù)量和多樣性。增強(qiáng)集包括旋轉(zhuǎn)、平移、縮放、翻轉(zhuǎn)等操作,可以提高模型的泛化能力和魯棒性。交叉驗(yàn)證集:一種通過將訓(xùn)練集劃分為多個(gè)子集來進(jìn)行模型評(píng)估的數(shù)據(jù)集。每個(gè)子集都會(huì)輪流作為驗(yàn)證集,而剩余的子集用于訓(xùn)練模型。通過多次交叉驗(yàn)證,可以更準(zhǔn)確地評(píng)估模型的性能。5機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)過擬合與欠擬合過擬合(Overfitting)和欠擬合(Underfitting)是機(jī)器學(xué)習(xí)中常見的兩個(gè)問題,它們描述了模型在訓(xùn)練和預(yù)測(cè)過程中的性能表現(xiàn),下圖展示了欠擬合與過擬合的區(qū)別。6機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)圖2-1欠擬合與過擬合過擬合過擬合是指模型在訓(xùn)練集上表現(xiàn)出很好的性能,但在未見過的新數(shù)據(jù)集上預(yù)測(cè)能力較差。過擬合通常發(fā)生在模型過于復(fù)雜或訓(xùn)練數(shù)據(jù)太少的情況下。當(dāng)模型過度擬合訓(xùn)練數(shù)據(jù)時(shí),它可能會(huì)過度記住訓(xùn)練集中的噪聲和細(xì)節(jié),而無法泛化到新數(shù)據(jù)集上。過擬合的特征包括訓(xùn)練集上的低誤差和測(cè)試集上的高誤差,模型的決策邊界過于復(fù)雜或不合理。過擬合出現(xiàn)的一些可能的原因:建模樣本選取有誤,如樣本數(shù)量太少、選樣方法錯(cuò)誤、樣本標(biāo)簽錯(cuò)誤等。樣本噪聲干擾過大,使得機(jī)器將部分噪聲認(rèn)為是特征從而擾亂了預(yù)設(shè)的分類規(guī)則。假設(shè)的模型無法合理存在,或者說是假設(shè)成立的條件實(shí)際并不成立。參數(shù)太多,模型復(fù)雜度過高。7機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)欠擬合欠擬合指的是模型無法在訓(xùn)練集上得到很好的性能,也無法在新數(shù)據(jù)上進(jìn)行準(zhǔn)確的預(yù)測(cè)。欠擬合通常發(fā)生在模型過于簡(jiǎn)單或訓(xùn)練數(shù)據(jù)不足的情況下。當(dāng)模型過于簡(jiǎn)單時(shí),它可能無法捕捉到訓(xùn)練數(shù)據(jù)中的復(fù)雜關(guān)系和模式。欠擬合的特征包括訓(xùn)練集和測(cè)試集上的高誤差,模型的決策邊界過于簡(jiǎn)單或無法適應(yīng)數(shù)據(jù)的變化。欠擬合出現(xiàn)的一些可能的原因:模型復(fù)雜度過低:當(dāng)模型的復(fù)雜度過低時(shí),它可能無法擬合數(shù)據(jù)中的復(fù)雜模式和關(guān)系。特征不足或選擇不當(dāng):如果特征的數(shù)量不足或選擇不當(dāng),那么模型可能無法捕捉到數(shù)據(jù)中的重要特征和關(guān)系。數(shù)據(jù)標(biāo)簽錯(cuò)誤或缺失:如果訓(xùn)練數(shù)據(jù)的標(biāo)簽錯(cuò)誤或缺失,模型可能無法準(zhǔn)確學(xué)習(xí)數(shù)據(jù)的真實(shí)模式。8機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)交叉驗(yàn)證方法交叉驗(yàn)證是一種常用的評(píng)估和選擇機(jī)器學(xué)習(xí)模型性能的方法。它通過將訓(xùn)練數(shù)據(jù)劃分為多個(gè)子集,輪流將其中一個(gè)子集作為驗(yàn)證集,而其余子集作為訓(xùn)練集,來進(jìn)行模型評(píng)估。在交叉驗(yàn)證中,有三種主要的方法:留出法(Hold-OutMethod)K折交叉驗(yàn)證法(K-foldCrossValidation,K-CV)留一交叉驗(yàn)證法(Leave-One-OutCrossValidation,LOO-CV)三種交叉驗(yàn)證方法的核心在于如何劃分訓(xùn)練集和驗(yàn)證集。本節(jié)的例子可參考代碼Validation.ipynb9機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)留出法留出法將數(shù)據(jù)集拆分成兩部分:一部分作為訓(xùn)練集,另一部分作為測(cè)試集。模型在測(cè)試集上表現(xiàn)出的結(jié)果,就是整個(gè)樣本的準(zhǔn)確率。但由于測(cè)試集不參與訓(xùn)練,所以會(huì)損失一定的樣本信息,在樣本數(shù)量少時(shí),會(huì)影響模型的準(zhǔn)確性,故該方法適用于大樣本。為減少隨機(jī)劃分樣本帶來的影響,可以重復(fù)劃分訓(xùn)練集和測(cè)試集,用多次得到的結(jié)果取平均作為最后的結(jié)果。10機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)K折交叉驗(yàn)證法K折交叉驗(yàn)證法解決了留出法中會(huì)損失樣本信息的問題。它先將數(shù)據(jù)集劃分為K個(gè)大小相同的互斥子集,每次用其中的K?1個(gè)子集作為訓(xùn)練集,剩余的1個(gè)子集作為測(cè)試集,可獲得K組訓(xùn)練集/測(cè)試集,進(jìn)行K次訓(xùn)練和測(cè)試,返回K組測(cè)試平均值。K的取值原則上大于或等于2,一般從3開始取值,下圖為3折交叉驗(yàn)證法的示意圖。11機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)圖2-23折交叉驗(yàn)證法的示意圖留一交叉驗(yàn)證法留一交叉驗(yàn)證法主要思想是每次留下一條數(shù)據(jù)作為測(cè)試集,其余的都是訓(xùn)練集。如果這個(gè)樣本有m條數(shù)據(jù),把樣本分成m份,每次都取m-1個(gè)樣本為訓(xùn)練集,余下的那一個(gè)為測(cè)試集。留一法共進(jìn)行m次訓(xùn)練和測(cè)試。留一法的優(yōu)點(diǎn)顯而易見,其數(shù)據(jù)損失只有一個(gè)樣本,并且不會(huì)受到樣本隨即劃分的影響。其計(jì)算復(fù)雜度過高,空間存儲(chǔ)占用過大,適用于數(shù)據(jù)量較少的樣本。12機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)目錄2.2回歸問題2.2.1機(jī)器學(xué)習(xí)中的回歸方法2.2.2回歸模型的性能評(píng)估13機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)中的回歸方法

14機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)回歸模型的性能評(píng)估

15機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)目錄2.3分類問題2.3.1機(jī)器學(xué)習(xí)中的分類方法2.3.2分類模型的性能評(píng)估16機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)中的分類方法分類是監(jiān)督學(xué)習(xí)中的一種重要方法,它的任務(wù)是通過學(xué)習(xí)樣本的特征來預(yù)測(cè)樣本的類別。在分類問題中,我們使用已標(biāo)注數(shù)據(jù)集來學(xué)習(xí)數(shù)據(jù)的模式和規(guī)律,以便將未標(biāo)注的數(shù)據(jù)分為不同的類別。這通常涉及選擇合適的特征表示、訓(xùn)練分類模型以及使用算法來進(jìn)行預(yù)測(cè)和分類。二分類問題是最常見的分類問題形式,但也可以擴(kuò)展到多分類和多標(biāo)簽分類問題。關(guān)于分類算法的選擇,可以從訓(xùn)練數(shù)據(jù)集的大小、特征的維數(shù)、特征之間是否獨(dú)立以及系統(tǒng)在性能、內(nèi)存占用等方面的需求綜合考慮。17機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)中的分類方法算法優(yōu)點(diǎn)缺點(diǎn)樸素貝葉斯1)簡(jiǎn)單高效,所需估計(jì)的參數(shù)少,對(duì)于缺失數(shù)據(jù)不敏感。2)適用于小樣本數(shù)據(jù)集。3)對(duì)于高維特征空間有效。1)需要假設(shè)屬性之間相互獨(dú)立,這往往并不成立。2)需要知道先驗(yàn)概率。3)分類決策存在錯(cuò)誤率。4)無法處理連續(xù)特征。決策樹1)可解釋性強(qiáng)。2)可處理非線性問題。3)數(shù)據(jù)預(yù)處理要求低4)算法的構(gòu)建和預(yù)測(cè)速度較快。5)處理大規(guī)模數(shù)據(jù)集時(shí)具有較高的效率。1)容易產(chǎn)生過擬合。2)容易產(chǎn)生局部最優(yōu)解。3)對(duì)輸入數(shù)據(jù)的細(xì)微變化敏感。4)不支持在線學(xué)習(xí)。支持向量機(jī)(SVM)1)可以解決小樣本下機(jī)器學(xué)習(xí)的問題。2)泛化能力強(qiáng)。3)可以解決高維、非線性問題。超高維文本分類仍受歡迎。1)對(duì)缺失數(shù)據(jù)敏感。2)內(nèi)存消耗大,難以解釋。3)參數(shù)調(diào)節(jié)困難。18表2-1主流分類算法的優(yōu)缺點(diǎn)機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)中的分類方法算法優(yōu)點(diǎn)缺點(diǎn)K-近鄰(KNN)1)簡(jiǎn)單易實(shí)現(xiàn)。2)可用于非線性分類。3)訓(xùn)練時(shí)間復(fù)雜度為O(n)。4)適用于多類別問題。1)計(jì)算復(fù)雜度較高。2)對(duì)于不平衡數(shù)據(jù)集敏感。3)需要大量的內(nèi)存。4)對(duì)數(shù)據(jù)特征縮放敏感。邏輯回歸1)簡(jiǎn)單高效。2)易于理解,可以直接看到各個(gè)特征的權(quán)重。3)適用于線性可分或近似線性可分的問題。1)處理非線性問題時(shí)表現(xiàn)較差。2)對(duì)特征工程要求較高。3)容易受到異常值的影響。19機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)表2-1主流分類算法的優(yōu)缺點(diǎn)分類模型的性能評(píng)估評(píng)估分類模型的性能非常重要,因?yàn)樗軒椭覀兞私饽P偷谋憩F(xiàn)如何,以及模型在實(shí)際應(yīng)用中的可能表現(xiàn)。通過使用不同的評(píng)估指標(biāo),可以從不同的角度理解模型的性能。分類型模型評(píng)估的常用指標(biāo)包括混淆矩陣、ROC曲線和AUC面積三種。本節(jié)的代碼請(qǐng)參考classification_evalutte.ipynb。20機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)常用指標(biāo)—混淆矩陣混淆矩陣是評(píng)估分類模型性能的一種基本工具,提供了分類器在測(cè)試集上分類正確和錯(cuò)誤的個(gè)數(shù),并將這些結(jié)果呈現(xiàn)在一個(gè)表格中。下表展示了分類器的效果。以第一行為例,健康的被測(cè)者共有50人,分類器正確識(shí)別了40個(gè),5個(gè)人被錯(cuò)誤識(shí)別為了良性腫瘤,5個(gè)人被錯(cuò)誤識(shí)別為惡性腫瘤。第一列表示分類器共識(shí)別了45個(gè)健康的人,其中40個(gè)是正確的,4個(gè)良性腫瘤和1個(gè)惡性腫瘤的病人被誤判為健康。21機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)真實(shí)值預(yù)測(cè)值類1:健康類2:良性腫瘤類3:惡性腫瘤類1:健康(50)4055類2:良性腫瘤(30)4242類3:惡性腫瘤(20)1415表2-2多分類的混淆矩陣示例常用指標(biāo)—混淆矩陣對(duì)于二分類問題,混淆矩陣可簡(jiǎn)化為2*2的矩陣。根據(jù)樣本中數(shù)據(jù)的真實(shí)值與預(yù)測(cè)值之間的組合可以分為四種情況:真正例(Truepositive,簡(jiǎn)寫為TP)、假正例(Falsepositive,簡(jiǎn)寫為FP)真反例(Truenegative,簡(jiǎn)寫為TN)、假反例(Falsenegative,簡(jiǎn)寫為FN)TP、FP、TN、FN四個(gè)縮寫中,第一個(gè)字母表示樣本的預(yù)測(cè)類別與真實(shí)類別是否一致,第二個(gè)字母表示樣本被預(yù)測(cè)的類別。二分類的混淆矩陣如下表所示:理想的分類器可以將所有的數(shù)據(jù)劃分到正確的類別,即將所有的正例預(yù)測(cè)為正例,將所有的負(fù)例預(yù)測(cè)為負(fù)例。對(duì)應(yīng)到混淆矩陣中,表現(xiàn)為TP與TN的數(shù)量大,而FP與FN的數(shù)量小。22機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)真實(shí)值預(yù)測(cè)值正例負(fù)例正例真正例(TP)假負(fù)例(FN)負(fù)例假正例(FP)真負(fù)例(TN)表2-3二分類的混淆矩陣示例常用指標(biāo)—混淆矩陣混淆矩陣中統(tǒng)計(jì)的是個(gè)數(shù),數(shù)據(jù)量大或者類別多時(shí)很難通過個(gè)數(shù)判斷不同模型的性能。因此在混淆矩陣的基礎(chǔ)上增加了四個(gè)指標(biāo),分別是準(zhǔn)確率(Accuracy)、精確率(Precision)、靈敏度(Sensitivity)和特異度(Specificity)。精確率也被稱為查準(zhǔn)率,靈敏度也被稱為查全率或召回率(Recall)。四種指標(biāo)的計(jì)算方法如下表所示。23機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)指標(biāo)公式意義準(zhǔn)確率分類模型中所有預(yù)測(cè)正確的結(jié)果占總預(yù)測(cè)值的比例精確率/查準(zhǔn)率在預(yù)測(cè)為正例的所有結(jié)果中,預(yù)測(cè)正確的比例靈敏度/查全率/召回率在真實(shí)值是正例的所有結(jié)果中,預(yù)測(cè)正確的比例特異度在真實(shí)值是負(fù)例的所有結(jié)果中,預(yù)測(cè)正確的比例表2-4四種指標(biāo)的計(jì)算方法常用指標(biāo)—ROC曲線與AUC

24機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)常用指標(biāo)—ROC曲線與AUC除了繪制ROC曲線,人們還可以根據(jù)ROC曲線下的面積來進(jìn)行分類器性能的評(píng)估,該面積被稱為AUC。AUC的取值范圍為0~1,AUC越大,表示分類器性能越好。當(dāng)AUC等于0.5時(shí),表示分類器的性能與隨機(jī)猜測(cè)沒有區(qū)別。一般認(rèn)為,ROC曲線越平滑,模型過擬合的可能性越低。如果一個(gè)ROC曲線被另一個(gè)完全包裹,則認(rèn)為被包裹的模型效果較差,左圖所示,模型A優(yōu)于模型B,模型B優(yōu)于模型C。對(duì)于右圖兩個(gè)模型,則無法直觀地比較哪個(gè)更優(yōu),這時(shí)可以通過AUC的值來判斷,AUC的值越大,分類器性能越優(yōu)。25圖2-3利用ROC曲線和AUC判斷模型優(yōu)劣機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)目錄2.4梯度下降法與最小二乘法2.4.1梯度下降法及其應(yīng)用2.4.2最小二乘法及其應(yīng)用26機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)梯度下降法及其應(yīng)用梯度下降法是一種用于優(yōu)化目標(biāo)函數(shù)的迭代優(yōu)化算法。它常用于機(jī)器學(xué)習(xí)中的參數(shù)學(xué)習(xí),通過最小化(或最大化)目標(biāo)函數(shù)來調(diào)整模型的參數(shù)。梯度下降法可用于線性回歸、邏輯回歸、神經(jīng)網(wǎng)絡(luò)等各種機(jī)器學(xué)習(xí)算法中。梯度下降法的基本思想是根據(jù)目標(biāo)函數(shù)的梯度方向(導(dǎo)數(shù))更新參數(shù),使得目標(biāo)函數(shù)值逐步減小。算法的過程如下:初始化參數(shù):選擇初始參數(shù)值。計(jì)算梯度:計(jì)算目標(biāo)函數(shù)對(duì)于當(dāng)前參數(shù)值的梯度。梯度是目標(biāo)函數(shù)在每個(gè)參數(shù)維度上的偏導(dǎo)數(shù)。參數(shù)更新:根據(jù)梯度的方向和學(xué)習(xí)率(步長(zhǎng)),更新參數(shù)值。學(xué)習(xí)率決定了每次迭代更新的幅度。重復(fù)迭代:重復(fù)執(zhí)行步驟(2)和步驟(3),直到滿足停止條件(如達(dá)到最大迭代次數(shù)或梯度接近于零)。27機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)梯度下降法及其應(yīng)用梯度下降法有如下兩種常見的變體。批量梯度下降(BatchGradientDescent,BGD):在每次迭代中,使用整個(gè)訓(xùn)練集計(jì)算梯度并更新參數(shù)。批量梯度下降對(duì)于小數(shù)據(jù)集有效,但對(duì)于大規(guī)模數(shù)據(jù)集可能會(huì)導(dǎo)致計(jì)算開銷過大。隨機(jī)梯度下降(StochasticGradientDescent,SGD):在每次迭代中,隨機(jī)選擇一個(gè)樣本計(jì)算梯度并更新參數(shù)。隨機(jī)梯度下降的計(jì)算開銷較小,并且在大規(guī)模數(shù)據(jù)集上更為高效,但由于其隨機(jī)性,收斂過程可能較不穩(wěn)定。損失函數(shù)(LossFunction)或代價(jià)函數(shù)(CostFunction)是將隨機(jī)事件或其有關(guān)隨機(jī)變量的取值映射為非負(fù)實(shí)數(shù)以表示該隨機(jī)事件的風(fēng)險(xiǎn)或損失的函數(shù)。在機(jī)器學(xué)習(xí)中,人們通常使用梯度下降法來最小化損失函數(shù)。損失函數(shù)是衡量模型預(yù)測(cè)輸出與真實(shí)標(biāo)簽之間差異的函數(shù)。28機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)梯度下降法及其應(yīng)用

29機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)梯度下降法及其應(yīng)用

30機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)最小二乘法及其應(yīng)用在機(jī)器學(xué)習(xí)中,線性回歸是一種用于建模和預(yù)測(cè)連續(xù)數(shù)值輸出的監(jiān)督學(xué)習(xí)算法。其目標(biāo)是通過擬合一個(gè)線性模型來最小化預(yù)測(cè)值與真實(shí)值之間的差異。最小二乘法是線性回歸的一種求解方法,它的目標(biāo)是找到一組模型參數(shù),使得預(yù)測(cè)值與真實(shí)值的殘差平方和最小化。具體來說,最小二乘法通過求解一個(gè)優(yōu)化問題,最小化真實(shí)值與模型預(yù)測(cè)值之間的平方差。這可以通過求解一個(gè)閉合解的解析表達(dá)式來實(shí)現(xiàn),也可以通過迭代優(yōu)化算法(如梯度下降法)來近似求解。最小二乘法的核心包括“最小”和“二乘”。其中,二乘指的就是以平方的方式來衡量預(yù)測(cè)值與真實(shí)值之間的差異,也就是誤差平方。最小是指預(yù)測(cè)模型中各參數(shù)要使得預(yù)測(cè)值與真實(shí)值之間的誤差平方和最小。31機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)最小二乘法及其應(yīng)用最小二乘法的定義可以分為廣義和狹義兩類。廣義的最小二乘法泛指所有使用均方誤差和方法衡量差異程度,進(jìn)而求最優(yōu)值的方法。這一類方法并不關(guān)注如何求最優(yōu)解,只要使用了均方誤差和作為目標(biāo)函數(shù),就可稱之為最小二乘法。從這種角度來說,最小二乘法是一種優(yōu)化思想,而梯度下降法只是最小二乘法的一個(gè)分支,是它的一種具體實(shí)現(xiàn)。狹義的最小二乘法不但使用均方誤差和作為目標(biāo)函數(shù),而且在求最優(yōu)解時(shí)使用的是對(duì)應(yīng)推導(dǎo)出的矩陣運(yùn)算解法。32機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)最小二乘法及其應(yīng)用最小二乘法與梯度下降法的對(duì)比如表所示:最小二乘法是機(jī)器學(xué)習(xí)中常用的優(yōu)化算法,解釋性強(qiáng)且求解方便、快捷,但對(duì)噪聲數(shù)據(jù)過于敏感,且只適用于線性模型。對(duì)于非線性模型,可結(jié)合梯度下降法等。33機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)最小二乘法梯度下降法不需要設(shè)置學(xué)習(xí)率需要設(shè)置學(xué)習(xí)率一次運(yùn)算得出最優(yōu)解需要多次迭代求出最優(yōu)解維度較大時(shí)也適用只適用于線性模型適用性高,各種模型都可以使用表2-8最小二乘法與梯度下降法的對(duì)比實(shí)例分析

以下山問題為示例進(jìn)行分析:假設(shè)某人在一座山上,要做的是以最快的速度趕往最低的山谷,但是不知道附近的地形,不知道路線,更不知道海拔最低的山谷在哪里。要做到盡快,行走方案只能是走一步算一步,即每走一步時(shí)都選擇下降最多的那個(gè)方向走,換句話說就是,往最陡的方向走。當(dāng)走到一個(gè)位置,無論下一步往哪里走,海拔都不會(huì)降低時(shí),此時(shí)就認(rèn)為自己已經(jīng)到達(dá)了最低的山谷。梯度下降法與下山問題的求解思路是一樣的。假設(shè)存在函數(shù)f(x),如圖2-4所示,初始點(diǎn)的值是初始值,希望找到函數(shù)f(x)的最小值點(diǎn)。在下山問題中,人可以通過視覺或者其他外部感官上的觸覺來感知東南西北不同方向的坡度,然后選擇最陡的方向。34機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)表2-4下山問題示例目錄2.5正則化2.5.1線性回歸2.5.2支持向量機(jī)2.5.3邏輯回歸2.5.4決策樹35機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)正則化(Regularization)正則化是一種用于降低機(jī)器學(xué)習(xí)模型過擬合風(fēng)險(xiǎn)的技術(shù),在模型的損失函數(shù)中引入額外的懲罰項(xiàng)實(shí)現(xiàn)。以下是兩種常見的正則化方法:L1正則化(L1Regularization):也被稱為L(zhǎng)asso正則化,通過在損失函數(shù)中添加權(quán)重向量的L1范數(shù)(絕對(duì)值之和)來懲罰模型的復(fù)雜度。L2正則化(L2Regularization):也被稱為嶺回歸(RidgeRegression),它通過在損失函數(shù)中添加權(quán)重向量的L2范數(shù)(平方和)來懲罰模型的復(fù)雜度。正則化在機(jī)器學(xué)習(xí)中有廣泛的應(yīng)用,特別是在線性回歸、支持向量機(jī)、邏輯回歸和決策樹等算法中。引入正則化,可以避免模型過擬合訓(xùn)練數(shù)據(jù),提高模型的泛化能力,從而在未見過的數(shù)據(jù)上表現(xiàn)更好。36機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)線性回歸

37機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)線性回歸

38機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)支持向量機(jī)支持向量機(jī)(SVM)是一種用于分類和回歸的強(qiáng)大算法。在支持向量機(jī)中,正則化可以通過引入L1正則化項(xiàng)或L2正則化項(xiàng)來控制模型的復(fù)雜度。正則化有助于在支持向量機(jī)中找到一個(gè)平衡點(diǎn),以使模型在訓(xùn)練數(shù)據(jù)上有良好的性能,并具有較強(qiáng)的泛化能力。支持向量分類方法同時(shí)可用于解決回歸問題,與分類方法訓(xùn)練模型的方式一樣,通過調(diào)用fit方法訓(xùn)練模型,輸入的參數(shù)向量為X、y。在分類方法中,y是整數(shù)型,在回歸方法中,y是浮點(diǎn)數(shù)型。支持向量回歸有三種不同的實(shí)現(xiàn)形式:SVR、NuSVR和LinearSVR。在只考慮線性核的情況下,LinearSVR的實(shí)現(xiàn)比SVR快(參考代碼SVM_SVR.ipynb)。支持向量分類方法生成的模型只依賴于訓(xùn)練集的子集,因?yàn)檫吘壷獾挠?xùn)練點(diǎn)對(duì)構(gòu)建模型的代價(jià)函數(shù)沒有影響。39機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)邏輯回歸邏輯回歸是一種用于二分類或多分類的常用算法。正則化在邏輯回歸中的應(yīng)用與線性回歸類似,可以通過L1正則化項(xiàng)或L2正則化項(xiàng)來控制模型的復(fù)雜度并防止過擬合。正則化可以幫助邏輯回歸模型更好地?cái)M合訓(xùn)練數(shù)據(jù),并在未見過的數(shù)據(jù)上有更好的表現(xiàn)。通過擬合一個(gè)邏輯函數(shù)(如sigmoid函數(shù))來預(yù)測(cè)二分類問題的概率。通常使用最大似然估計(jì)來擬合模型參數(shù),但在面對(duì)高維數(shù)據(jù)或數(shù)據(jù)集中存在冗余特征時(shí),邏輯回歸容易過擬合。這時(shí),正則化可以幫助改善模型的泛化能力。正則化在邏輯回歸中的常見形式有L1正則化和L2正則化。通過在損失函數(shù)中引入正則化項(xiàng)來控制模型的復(fù)雜度。正則化項(xiàng)在損失函數(shù)中的添加可以通過調(diào)節(jié)正則化系數(shù)來控制正則化的強(qiáng)度。40機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)決策樹決策樹也可稱為回歸樹,是一種特殊的樹結(jié)構(gòu),由一個(gè)決策圖和可能的結(jié)果(例如成本和風(fēng)險(xiǎn))組成,僅有單一輸出用來輔助決策,它每個(gè)葉節(jié)點(diǎn)上的數(shù)值不再是離散型,而是連續(xù)型。使用DecisionTreeRegressor類可以解決回歸問題。41機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)決策樹決策樹的正則化主要通過以下兩種方式進(jìn)行,這些正則化技術(shù)可以控制決策樹的復(fù)雜度,防止過擬合,并提高模型的泛化能力。1.剪枝(Pruning)決策樹剪枝(Pruning)是一種減小樹的復(fù)雜度的技術(shù),以防止過擬合。剪枝分為預(yù)剪枝(Pre-pruning)和后剪枝(Post-pruning)兩種形式。預(yù)剪枝:構(gòu)建決策樹時(shí),在對(duì)每個(gè)葉節(jié)點(diǎn)進(jìn)行劃分前,通過定義一個(gè)停止條件來決定是否繼續(xù)劃分。后剪枝:首先構(gòu)建完整的決策樹,然后從底部開始,逐步剪掉一些子樹來減小樹的復(fù)雜度。2.最大深度和最小樣本數(shù)限制在構(gòu)建決策樹時(shí),通過設(shè)置最大深度或最小樣本數(shù)的限制來控制樹的復(fù)雜度。最大深度限制決策樹的層數(shù),防止樹過深、過擬合;最小樣本數(shù)限制葉節(jié)點(diǎn)上的最小樣本數(shù)量,避免生成過于細(xì)分的葉節(jié)點(diǎn)。42機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)實(shí)例分析使用不同的回歸模型對(duì)美國(guó)波士頓房?jī)r(jià)進(jìn)行預(yù)測(cè),該數(shù)據(jù)集是馬薩諸塞州波士頓郊區(qū)的房屋信息數(shù)據(jù),于1978年開始統(tǒng)計(jì),共506個(gè)樣本,涵蓋了波士頓郊區(qū)房屋14種特征的信息。本節(jié)的完整代碼請(qǐng)參考boston_regression.ipynb。43機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)模型MAEMSER2模型MAESVR(rbf)2.69814120.9698270.748157SVR(rbf)2.698141SVR(poly)3.07137522.8817510.725195SVR(poly)3.071375DecisionTreeRegressor3.1440793.1440790.677281DecisionTreeRegressor3.144079KNeighborsRegressor3.26828927.8072920.666041KNeighborsRegressor3.268289SVR(linear)3.54110431.5155460.621505SVR(linear)3.541104LinearRegression3.60990427.1959660.673383LinearRegression3.609904表2-9不同回歸模型的性能對(duì)比目錄2.6sklearn中常用的數(shù)據(jù)集2.6.1toydatasets2.6.2generateddatasets2.6.3realworlddatasets44機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)sklearn中常用的數(shù)據(jù)集sklearn中的數(shù)據(jù)集庫(kù)提供了很多不同的數(shù)據(jù)集,主要包含以下幾大類。

toydatasets:內(nèi)置的小型標(biāo)準(zhǔn)數(shù)據(jù)集,一般是load_xx()形式。

generateddatasets:隨機(jī)生成的數(shù)據(jù)集,一般是make_xx()形式。

realworlddatasets:真實(shí)世界中的數(shù)據(jù)集,從網(wǎng)站下載較大的數(shù)據(jù)集,一般是fetch_xx()形式。45機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)小型標(biāo)準(zhǔn)數(shù)據(jù)集(toydatasets)sklearn小型標(biāo)準(zhǔn)數(shù)據(jù)集如表所示,sklearn自帶了一些小型標(biāo)準(zhǔn)數(shù)據(jù)集,不需要從外部網(wǎng)站下載任何文件,用datasets.load_xx()加載,這些數(shù)據(jù)集的數(shù)據(jù)規(guī)模往往太小,無法代表真實(shí)世界的機(jī)器學(xué)習(xí)任務(wù)。46機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)數(shù)據(jù)集函數(shù)記錄數(shù)特征數(shù)問題類型分類數(shù)波士頓房?jī)r(jià)load_boston()50613回歸——鳶尾花load_iris()1504分類3糖尿病load_diabetes()44210回歸——手寫數(shù)字load_digits()179764分類10紅酒load_wine()17813分類3威斯康星州乳腺腫瘤load_breast_cancer()56930分類2表2-10Sklearn小型標(biāo)準(zhǔn)數(shù)據(jù)集隨機(jī)生成數(shù)據(jù)集(generateddatasets)數(shù)據(jù)集生成函數(shù)如表所示,generateddatasets中共提供了20個(gè)數(shù)據(jù)集生成函數(shù),可用于生成不同分布的數(shù)據(jù)集,用于測(cè)試分類和回歸程序。生成數(shù)據(jù)集可以根據(jù)特定的規(guī)則或分布生成合成數(shù)據(jù),用于模擬不同的場(chǎng)景和問題。47機(jī)器學(xué)習(xí)原理、算法與應(yīng)用-機(jī)器學(xué)習(xí)基礎(chǔ)生成函數(shù)數(shù)據(jù)集類型問題類別make_blobs()生成指定分類數(shù)的數(shù)據(jù)塊分類make_circles()生成兩個(gè)環(huán)狀數(shù)據(jù)集分類make_moons()生成兩個(gè)月牙狀數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論