版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
任務(wù)3.1安裝python機(jī)器學(xué)習(xí)算法庫(kù)PowerpointdesignPowerpoint010203任務(wù)描述預(yù)備知識(shí)實(shí)施過(guò)程目錄01任務(wù)描述Powerpoint01scikit.learn是一個(gè)開(kāi)源的Python機(jī)器學(xué)習(xí)庫(kù)(/),它被廣泛用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和數(shù)據(jù)分析。該庫(kù)包含許多用于分類、回歸、聚類和降維等機(jī)器學(xué)習(xí)算法。此外,scikit.learn還包含預(yù)處理、模型選擇和評(píng)估等工具,以幫助我們將算法應(yīng)用于實(shí)際問(wèn)題。scikit-learn簡(jiǎn)介scikit.learn將所有任務(wù)分為六大類。scikit-learn任務(wù)分類02機(jī)器學(xué)習(xí)Powerpoint用人工智能方法解決問(wèn)題本質(zhì)就是建立輸入數(shù)據(jù)x和輸出數(shù)據(jù)y之間的近似映射,無(wú)限逼近真實(shí)映射。如果x和y存在映射(模型)。如圖所示,有兩種情況:一對(duì)一映射和多對(duì)一映射。映射關(guān)系機(jī)器學(xué)習(xí)背景機(jī)器學(xué)習(xí)背景機(jī)器學(xué)習(xí)是研究如何使用機(jī)器來(lái)模擬人類學(xué)習(xí)活動(dòng)的一門(mén)學(xué)科。稍為嚴(yán)格的提法是:機(jī)器學(xué)習(xí)是通過(guò)計(jì)算的手段,利用經(jīng)驗(yàn)來(lái)改善系統(tǒng)自身性能。定義機(jī)器學(xué)習(xí)和程序設(shè)計(jì)之間的區(qū)別,如圖所示。區(qū)別機(jī)器學(xué)習(xí)概念機(jī)器學(xué)習(xí)過(guò)程如圖3.5所示。1)機(jī)器學(xué)習(xí)過(guò)程分為兩個(gè)階段:訓(xùn)練階段、測(cè)試階段。2)訓(xùn)練階段輸出:模型。3)測(cè)試階段:使用模型做出預(yù)測(cè)。4)實(shí)際還需要對(duì)訓(xùn)練階段輸出的模型進(jìn)行評(píng)估,如果評(píng)估通過(guò)進(jìn)入測(cè)試階段,否則要重新訓(xùn)練(改變數(shù)據(jù)、算法、參數(shù))。過(guò)程概述機(jī)器學(xué)習(xí)過(guò)程機(jī)器學(xué)習(xí)分類一級(jí)分類二級(jí)分類輸出類型算法評(píng)估方法有監(jiān)督學(xué)習(xí)(有標(biāo)簽)分類問(wèn)題離散決策樹(shù)隨機(jī)森林SVM貝葉斯分類器正確率精準(zhǔn)率召回率F1分?jǐn)?shù)回歸問(wèn)題連續(xù)線性回歸均方誤差絕對(duì)誤差R2分?jǐn)?shù)無(wú)監(jiān)督學(xué)習(xí)(無(wú)標(biāo)簽)聚類問(wèn)題
Kmeans類內(nèi)距離小類間距離大03實(shí)施過(guò)程Powerpoint數(shù)據(jù)集類型1、加載數(shù)據(jù)集。自帶的小數(shù)據(jù)集:sklearn.datasets.load_.可在線下載的數(shù)據(jù)集:sklearn.datasets.fetch_.計(jì)算機(jī)生成的數(shù)據(jù)集:sklearn.datasets.make_.svmlight/libsvm格式的數(shù)據(jù)集:sklearn.datasets.load_svmlight_file(…)文檔閱讀實(shí)現(xiàn)線性回歸參數(shù)計(jì)算的方法有很多種,可以通過(guò)最小二乘法進(jìn)行一步到位的參數(shù)求解,同時(shí)也能夠通過(guò)梯度下降進(jìn)行迭代求解,如果要詳細(xì)了解訓(xùn)練過(guò)程的參數(shù)求解方法,就需要回到官網(wǎng)中查閱評(píng)估器的相關(guān)說(shuō)明(見(jiàn)圖3.6)。首先我們已經(jīng)知道LinearRegression是一個(gè)回歸類模型,所以肯定在sklearn官網(wǎng)說(shuō)明Regression板塊中。官網(wǎng)文檔查找2、如何在官網(wǎng)中找到模型操作文檔。在官網(wǎng)中找到相關(guān)評(píng)估器(模型)說(shuō)明,這對(duì)于理解模型的原理及使用方法等是非常重要的。以LinearRegression任務(wù)為例:算法特性探討還會(huì)對(duì)算法的某些特性進(jìn)行探討(往往都是在使用過(guò)程中需要注意的問(wèn)題),例如對(duì)于普通最小二乘法,最大的問(wèn)題還是在于特征矩陣出現(xiàn)嚴(yán)重多重共線性時(shí),預(yù)測(cè)結(jié)果會(huì)出現(xiàn)較大的誤差。然后,說(shuō)明文檔會(huì)列舉一個(gè)該算法的完整使用過(guò)程,也就是穿插在說(shuō)明文檔中的example。最后,說(shuō)明文檔會(huì)討論幾個(gè)在模型使用過(guò)程中經(jīng)常會(huì)比較關(guān)注的點(diǎn),對(duì)于線性回歸,此處列舉了兩個(gè)常見(jiàn)問(wèn)題,即非負(fù)最小二乘如何實(shí)現(xiàn),以及最小二乘法的計(jì)算復(fù)雜度(見(jiàn)圖3.9)。數(shù)據(jù)集加載依賴包列表importpandasaspd.importmatplotlib.pyplotasplt.%matplotlibinline.importnumpyasnp.Titanic數(shù)據(jù)分析依賴包。importseabornassns#可視化。Titanic數(shù)據(jù)分析依賴包2025謝謝大家Powerpointdesign主講人:2025/5/13程老師時(shí)間:Powerpoint任務(wù)3.2數(shù)據(jù)準(zhǔn)備PowerpointdesignPowerpoint目錄02數(shù)據(jù)集的選擇與獲取03數(shù)據(jù)預(yù)處理的方法與技巧04數(shù)據(jù)集劃分的策略與實(shí)踐01數(shù)據(jù)預(yù)處理的重要性05數(shù)據(jù)預(yù)處理的挑戰(zhàn)與最佳實(shí)踐06數(shù)據(jù)預(yù)處理在機(jī)器學(xué)習(xí)中的應(yīng)用案例01數(shù)據(jù)預(yù)處理的重要性Powerpoint數(shù)據(jù)預(yù)處理是機(jī)器學(xué)習(xí)流程中的第一步,它涉及對(duì)原始數(shù)據(jù)進(jìn)行一系列操作,使其更適合用于建模和分析。這一步驟對(duì)于后續(xù)建模的質(zhì)量和可靠性至關(guān)重要。數(shù)據(jù)預(yù)處理的概念數(shù)據(jù)預(yù)處理的目標(biāo)是提高數(shù)據(jù)的質(zhì)量,使其更加豐富、準(zhǔn)確、完整、一致和可用。通過(guò)清洗、集成、轉(zhuǎn)換和規(guī)約等步驟,可以確保數(shù)據(jù)集對(duì)機(jī)器學(xué)習(xí)模型的有效性和準(zhǔn)確性。數(shù)據(jù)預(yù)處理的目標(biāo)數(shù)據(jù)預(yù)處理的定義與目的在實(shí)際應(yīng)用中,數(shù)據(jù)往往存在缺失值、異常值和重復(fù)值等問(wèn)題,這些問(wèn)題會(huì)對(duì)建模結(jié)果產(chǎn)生負(fù)面影響,導(dǎo)致模型性能下降。通過(guò)數(shù)據(jù)清洗,可以去除或填補(bǔ)缺失值,修正異常值,刪除重復(fù)值,從而確保數(shù)據(jù)集的準(zhǔn)確性和可靠性。缺失值、異常值和重復(fù)值的影響清洗數(shù)據(jù)的策略數(shù)據(jù)清洗的重要性數(shù)據(jù)往往來(lái)自不同的來(lái)源,具有不同的格式、結(jié)構(gòu)和語(yǔ)義,這會(huì)導(dǎo)致數(shù)據(jù)冗余和重復(fù)。數(shù)據(jù)來(lái)源的多樣性數(shù)據(jù)集成通過(guò)整合不同來(lái)源的數(shù)據(jù),形成一個(gè)統(tǒng)一、一致的數(shù)據(jù)集,提高數(shù)據(jù)的可用性和可靠性。數(shù)據(jù)集成的實(shí)施方法數(shù)據(jù)集成的意義數(shù)據(jù)轉(zhuǎn)換包括數(shù)值化、標(biāo)準(zhǔn)化、歸一化和離散化等操作,使數(shù)據(jù)更加易于處理和比較。數(shù)據(jù)轉(zhuǎn)換的常見(jiàn)方法數(shù)據(jù)以不同的形式和單位存在,需要進(jìn)行轉(zhuǎn)換以適應(yīng)分析和建模的需求。數(shù)據(jù)形式的多樣性數(shù)據(jù)轉(zhuǎn)換的必要性實(shí)際應(yīng)用中,數(shù)據(jù)往往具有高維度和冗余,這會(huì)增加分析和建模的難度。數(shù)據(jù)的高維度和冗余數(shù)據(jù)規(guī)約通過(guò)選擇、投影、聚類等方法減少數(shù)據(jù)的維度和冗余,提高分析和建模的效率。數(shù)據(jù)規(guī)約的常用方法數(shù)據(jù)規(guī)約的價(jià)值02數(shù)據(jù)集的選擇與獲取Powerpoint選擇一個(gè)合適的數(shù)據(jù)集是機(jī)器學(xué)習(xí)問(wèn)題解決的關(guān)鍵,它直接影響到模型的性能和可靠性。數(shù)據(jù)集的選擇對(duì)模型的影響介紹了多個(gè)數(shù)據(jù)集獲取渠道,包括Kaggle、亞馬遜數(shù)據(jù)集、UCI機(jī)器學(xué)習(xí)庫(kù)等,這些渠道提供了豐富多樣的數(shù)據(jù)集。數(shù)據(jù)集的獲取渠道數(shù)據(jù)集的重要性UCI機(jī)器學(xué)習(xí)庫(kù)UCI機(jī)器學(xué)習(xí)庫(kù)包含了100多個(gè)數(shù)據(jù)集,按照機(jī)器學(xué)習(xí)問(wèn)題的類型進(jìn)行分類,方便用戶查找和使用。02Kaggle數(shù)據(jù)集Kaggle數(shù)據(jù)集提供了大量的真實(shí)數(shù)據(jù)集,并且擁有相應(yīng)的社區(qū)支持,可以討論數(shù)據(jù)、查找代碼或創(chuàng)建項(xiàng)目。01常用數(shù)據(jù)集簡(jiǎn)介計(jì)算機(jī)視覺(jué)數(shù)據(jù)集為圖像處理、計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)研究人員提供了豐富的數(shù)據(jù)資源,可以根據(jù)特定的CV主題查找數(shù)據(jù)集。01計(jì)算機(jī)視覺(jué)數(shù)據(jù)集政府?dāng)?shù)據(jù)集是公開(kāi)透明的數(shù)據(jù)來(lái)源,多個(gè)國(guó)家和地區(qū)提供了易于訪問(wèn)的政府?dāng)?shù)據(jù)集,用于公眾研究和分析。02政府?dāng)?shù)據(jù)集特定領(lǐng)域的數(shù)據(jù)集03數(shù)據(jù)預(yù)處理的方法與技巧Powerpoint使用Scikit.learn加載數(shù)據(jù)集Scikit.learn提供了便捷的函數(shù)來(lái)加載數(shù)據(jù)集,如load_iris()函數(shù)可以直接加載鳶尾花數(shù)據(jù)集。數(shù)據(jù)集轉(zhuǎn)換為DataFrame使用pandas的DataFrame可以將數(shù)據(jù)集轉(zhuǎn)換為更易于查看和分析的表格形式。數(shù)據(jù)加載數(shù)據(jù)標(biāo)準(zhǔn)化是指將數(shù)據(jù)縮放使其均值為0,標(biāo)準(zhǔn)差為1,可以使用StandardScaler來(lái)實(shí)現(xiàn)。數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)歸一化是指將數(shù)據(jù)縮放到[0,1]的范圍內(nèi),可以使用MinMaxScaler來(lái)實(shí)現(xiàn)。數(shù)據(jù)歸一化數(shù)據(jù)歸一化與標(biāo)準(zhǔn)化使用SimpleImputer處理缺失值統(tǒng)計(jì)數(shù)據(jù)缺失值總數(shù)使用isnull().sum()方法可以快速統(tǒng)計(jì)數(shù)據(jù)集中缺失值的總數(shù)。SimpleImputer類提供了處理缺失值的便捷方法,可以通過(guò)不同的策略來(lái)填補(bǔ)缺失值。缺失值處理特征工程主要包括特征提取、特征轉(zhuǎn)換和特征選擇等任務(wù),是構(gòu)建有效機(jī)器學(xué)習(xí)模型的關(guān)鍵步驟。特征工程的主要任務(wù)對(duì)于圖像數(shù)據(jù),特征工程包括將圖像轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的過(guò)程,如將圖像的像素值轉(zhuǎn)換為表格形式的特征值。特征工程在圖像數(shù)據(jù)中的應(yīng)用特征工程04數(shù)據(jù)集劃分的策略Powerpoint訓(xùn)練集用于建模,驗(yàn)證集用于評(píng)估模型性能,測(cè)試集用于模型應(yīng)用階段的性能檢驗(yàn)。訓(xùn)練集、驗(yàn)證集和測(cè)試集的定義數(shù)據(jù)集劃分的策略包括70/15/15的比例劃分,但具體比例應(yīng)根據(jù)任務(wù)需求來(lái)確定。數(shù)據(jù)集劃分的策略數(shù)據(jù)集劃分的目的使用train_test_split函數(shù)Scikit.learn提供了train_test_split函數(shù)來(lái)幫助用戶方便地劃分?jǐn)?shù)據(jù)集。數(shù)據(jù)集劃分的實(shí)踐通過(guò)實(shí)際代碼示例展示了如何使用train_test_split函數(shù)來(lái)劃分?jǐn)?shù)據(jù)集。Scikit.learn數(shù)據(jù)集劃分工具05數(shù)據(jù)預(yù)處理的挑戰(zhàn)與最佳實(shí)踐Powerpoint處理大規(guī)模數(shù)據(jù)集的挑戰(zhàn)處理大規(guī)模數(shù)據(jù)集時(shí),數(shù)據(jù)預(yù)處理面臨著內(nèi)存限制、計(jì)算資源和時(shí)間效率等挑戰(zhàn)。處理不同類型數(shù)據(jù)的挑戰(zhàn)不同類型的數(shù)據(jù)(如文本、圖像、時(shí)間序列等)需要采用不同的預(yù)處理方法和策略。數(shù)據(jù)預(yù)處理的挑戰(zhàn)理解數(shù)據(jù)集的背景和特性在進(jìn)行數(shù)據(jù)預(yù)處理之前,理解數(shù)據(jù)集的背景、來(lái)源和特性是非常重要的,這有助于選擇合適的預(yù)處理方法。迭代和實(shí)驗(yàn)數(shù)據(jù)預(yù)處理是一個(gè)迭代和實(shí)驗(yàn)的過(guò)程,可能需要多次嘗試和調(diào)整才能找到最佳的預(yù)處理方案。數(shù)據(jù)預(yù)處理的最佳實(shí)踐06數(shù)據(jù)預(yù)處理在機(jī)器學(xué)習(xí)中的應(yīng)用案例Powerpoint圖像數(shù)據(jù)預(yù)處理的案例通過(guò)實(shí)際案例展示圖像數(shù)據(jù)預(yù)處理在圖像識(shí)別任務(wù)中的應(yīng)用。圖像數(shù)據(jù)預(yù)處理的步驟圖像數(shù)據(jù)預(yù)處理包括圖像增強(qiáng)、縮放、裁剪等步驟,以提高模型對(duì)圖像的識(shí)別能力。圖像識(shí)別中的數(shù)據(jù)預(yù)處理文本數(shù)據(jù)預(yù)處理包括分詞、去停用詞、詞性標(biāo)注等步驟,為后續(xù)文本分析和建模打下基礎(chǔ)。文本數(shù)據(jù)預(yù)處理的步驟通過(guò)實(shí)際案例展示文本數(shù)據(jù)預(yù)處理在自然語(yǔ)言處理任務(wù)中的應(yīng)用。文本數(shù)據(jù)預(yù)處理的案例自然語(yǔ)言處理中的數(shù)據(jù)預(yù)處理2025謝謝大家Powerpointdesign主講人:2025/5/13程老師時(shí)間:Powerpoint任務(wù)3.3算法選擇PowerpointdesignPowerpoint目錄/CONTENTS任務(wù)描述01損失函數(shù)設(shè)計(jì)03CONTENTSCONTENTS常用算法02實(shí)施過(guò)程0401任務(wù)描述Powerpoint機(jī)器學(xué)習(xí)的訓(xùn)練過(guò)程是使用訓(xùn)練數(shù)據(jù)集來(lái)訓(xùn)練模型,這些數(shù)據(jù)集由多條記錄組成,每條記錄都包含輸入數(shù)據(jù)(特征x_k)和對(duì)應(yīng)的輸出數(shù)據(jù)(標(biāo)簽y_k)。訓(xùn)練的目標(biāo)是通過(guò)對(duì)這些記錄的學(xué)習(xí),使得模型能夠捕捉到數(shù)據(jù)中的模式和規(guī)律,從而對(duì)新的數(shù)據(jù)進(jìn)行準(zhǔn)確預(yù)測(cè)。機(jī)器學(xué)習(xí)訓(xùn)練過(guò)程訓(xùn)練算法的一般步驟包括初始化模型參數(shù)、預(yù)測(cè)輸出、計(jì)算損失函數(shù)、參數(shù)更新以及重復(fù)這些步驟直至達(dá)到某個(gè)停止條件。這個(gè)過(guò)程本質(zhì)上是利用梯度修正參數(shù),尋找最優(yōu)參數(shù)的過(guò)程,這些參數(shù)包括模型參數(shù)和超參數(shù)。模型訓(xùn)練步驟任務(wù)描述02常用算法Powerpoint線性回歸回歸模型可以理解為:存在一個(gè)點(diǎn)集,用一條曲線去擬合它分布的過(guò)程。如果擬合曲線是一條直線,則稱為線性回歸。如果是一條二次曲線,則被稱為二次回歸。線性回歸是回歸模型中最簡(jiǎn)單的一種。在線性回歸中:假設(shè)函數(shù)為
Y’=wX+b+e,其中,Y’表示模型的預(yù)測(cè)結(jié)果(見(jiàn)圖3.16),用來(lái)和真實(shí)的Y區(qū)分。模型訓(xùn)練的目標(biāo)就是學(xué)習(xí)參數(shù):w、b。fromsklearn.linear_modelimportLinearRegression
model=LinearRegression()邏輯回歸邏輯回歸是一種廣泛應(yīng)用于機(jī)器學(xué)習(xí)的分類算法。它將數(shù)據(jù)映射到一個(gè)數(shù)值范圍內(nèi),然后將其分為一個(gè)有限的離散類別。邏輯回歸與線性回歸的主要區(qū)別在于它將輸出映射到一個(gè)值域,這個(gè)值域通常是0~1(見(jiàn)圖3.17)。fromsklearn.linear_modelimportLogisticRegression
model=LogisticRegression()貝葉斯分類器貝葉斯分類器是各種分類器中分類錯(cuò)誤概率最小或者在預(yù)先給定代價(jià)的情況下平均風(fēng)險(xiǎn)最小的分類器。它的設(shè)計(jì)方法是一種最基本的統(tǒng)計(jì)分類方法。其分類原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類。fromsklearn.naive_bayesimportGaussianNBclf=GaussianNB()決策樹(shù)決策樹(shù)是一種使用樹(shù)結(jié)構(gòu)進(jìn)行決策分析的算法。它通過(guò)對(duì)屬性取值劃分?jǐn)?shù)據(jù)集,直到劃分后數(shù)據(jù)集有確定的標(biāo)簽,并將它們組合起來(lái)形成一棵樹(shù)。決策樹(shù)每個(gè)分支形成一條規(guī)則,對(duì)新的數(shù)據(jù)使用規(guī)則進(jìn)行預(yù)測(cè)(見(jiàn)圖3.19)。fromsklearnimporttreemodel=tree.DecisionTreeClassifier()隨機(jī)森林隨機(jī)森林是一種集成學(xué)習(xí)算法,它可以通過(guò)同時(shí)訓(xùn)練多個(gè)決策樹(shù)來(lái)增強(qiáng)預(yù)測(cè)準(zhǔn)確性。隨機(jī)森林的主要思想是將輸入數(shù)據(jù)同時(shí)讓N個(gè)決策樹(shù)分別得到一個(gè)預(yù)測(cè)結(jié)果,以投票的方式確定最終預(yù)測(cè)結(jié)果(見(jiàn)圖3.20)。fromsklearnimporttreemodel=tree.DecisionTreeClassifier()K近鄰K近鄰算法是一種基于實(shí)例的學(xué)習(xí)算法,它可用于對(duì)未知樣本進(jìn)行分類并將其與其最近鄰居相關(guān)聯(lián)(見(jiàn)圖3.21)。fromsklearnimportneighborsmodel=neighbors.KNeighborsClassifier(n_neighbors=5)其中,
n_neighbors為鄰居的數(shù)目K均值聚類Kmeans算法是機(jī)器學(xué)習(xí)中一種常用的聚類方法,其基本思想和核心內(nèi)容就是在算法開(kāi)始時(shí)隨機(jī)給定若干(K)個(gè)中心,按照最近距離原則將樣本點(diǎn)分配到各個(gè)簇,之后按平均法計(jì)算簇的中心點(diǎn)位置,從而重新確定新的中心點(diǎn)位置。這樣不斷地迭代下去直至聚類集內(nèi)的樣本滿足閾值為止。圖3.22展示了Kmeans算法過(guò)程。fromsklearn.clusterimportKMeanscluster=KMeans(n_clusters=4)03損失函數(shù)設(shè)計(jì)Powerpoint回歸損失函數(shù)1)均方誤差,二次型損失,L2損失均方誤差(MeanSquareError,MSE)是最常用的回歸損失函數(shù)。MSE是目標(biāo)變量與預(yù)測(cè)值之間距離的平方和。
下面是一個(gè)MSE函數(shù)的圖(見(jiàn)圖3.24),其中真實(shí)目標(biāo)值為100,預(yù)測(cè)值為.10,000~10,000。MSE損失(y軸)在預(yù)測(cè)(x軸)=100時(shí)達(dá)到最小值。范圍是0到∞回歸損失函數(shù)2)平均絕對(duì)誤差,L1損失平均絕對(duì)誤差(MAE)是回歸模型中使用的另一個(gè)損失函數(shù),如圖3.25所示。MAE是目標(biāo)變量和預(yù)測(cè)變量之間的絕對(duì)差值之和。所以它測(cè)量的是一組預(yù)測(cè)的平均誤差大小,而不考慮它們的方向。(如果也考慮方向,那就叫作平均偏差誤差(MeanBiasError,MBE),它是殘差/誤差的和)。范圍也是0到∞。分類損失函數(shù)交叉熵?fù)p失函數(shù)參數(shù)優(yōu)化
超參數(shù)指的是無(wú)法通過(guò)數(shù)學(xué)過(guò)程進(jìn)行最優(yōu)值求解,但能夠很大程度上影響模型形式和建模結(jié)果的因素,例如線性回歸中,方程中自變量系數(shù)和截距項(xiàng)的取值是通過(guò)最小二乘法或者梯度下降算法求出的最優(yōu)解,而是否帶入截距項(xiàng)、是否對(duì)數(shù)據(jù)進(jìn)行歸一化等,這些因素同樣會(huì)影響模型形態(tài)和建模結(jié)果,但卻是“人工判斷”然后做出決定的選項(xiàng),而這些就是所謂的超參數(shù)。
在Scikit.learn中,對(duì)每個(gè)評(píng)估器進(jìn)行超參數(shù)設(shè)置的時(shí)機(jī)就在評(píng)估器類實(shí)例化的過(guò)程中??梢圆榭碙inearRegression評(píng)估器的相關(guān)說(shuō)明,其中Parameters部分就是當(dāng)前模型超參數(shù)的相關(guān)說(shuō)明(見(jiàn)圖3.29)。參數(shù)優(yōu)化model
=LinearRegression()
#調(diào)用線性回歸模型這里是默認(rèn)的參數(shù),可以創(chuàng)建一個(gè)不包含截距項(xiàng)的線性方程模型:model1=LinearRegression(fit_intercept=False)model1.get_params()
#可以通過(guò)get_params來(lái)獲取其建模所用的參數(shù)在實(shí)例化模型的過(guò)程中必須謹(jǐn)慎地選擇模型超參數(shù),以達(dá)到最終模型訓(xùn)練的預(yù)期。不同的模型,有不同的超參數(shù),這也是在后面學(xué)習(xí)建模過(guò)程中非常重要的一點(diǎn)。04實(shí)施過(guò)程Powerpoint在這一部分,我們將討論如何選擇合適的機(jī)器學(xué)習(xí)算法。算法選擇策略通常依賴于問(wèn)題的性質(zhì)、數(shù)據(jù)的特征以及預(yù)期的模型性能。問(wèn)題性質(zhì):根據(jù)問(wèn)題的類型(回歸、分類、聚類等)選擇合適的算法。數(shù)據(jù)特征:考慮數(shù)據(jù)的維度、分布和噪聲等因素。模型性能:根據(jù)模型在驗(yàn)證集上的表現(xiàn)來(lái)選擇性能最優(yōu)的算法。算法選擇策略模型訓(xùn)練模型訓(xùn)練是機(jī)器學(xué)習(xí)過(guò)程中的核心步驟,涉及到數(shù)據(jù)預(yù)處理、模型選擇、參數(shù)調(diào)整等多個(gè)方面。數(shù)據(jù)預(yù)處理:包括數(shù)據(jù)清洗、特征工程、數(shù)據(jù)標(biāo)準(zhǔn)化等。模型選擇:根據(jù)問(wèn)題的性質(zhì)和數(shù)據(jù)特征選擇合適的算法。參數(shù)調(diào)整:通過(guò)交叉驗(yàn)證、網(wǎng)格搜索等方式調(diào)整模型參數(shù)。1模型評(píng)估模型評(píng)估是衡量模型性能的重要環(huán)節(jié),常用的評(píng)估指標(biāo)包括準(zhǔn)確率、召回率、F1分?jǐn)?shù)等。準(zhǔn)確率:模型正確預(yù)測(cè)的樣本數(shù)占總樣本數(shù)的比例。召回率:模型正確預(yù)測(cè)正類樣本數(shù)占實(shí)際正類樣本數(shù)的比例。F1分?jǐn)?shù):準(zhǔn)確率和召回率的調(diào)和平均數(shù)。2模型訓(xùn)練與評(píng)估超參數(shù)調(diào)整是提高模型性能的關(guān)鍵步驟,通常采用網(wǎng)格搜索、隨機(jī)搜索等方法來(lái)尋找最優(yōu)的超參數(shù)組合。網(wǎng)格搜索:遍歷所有可能的超參數(shù)組合,找到最優(yōu)的一組參數(shù)。隨機(jī)搜索:在超參數(shù)空間中隨機(jī)選擇參數(shù)組合,進(jìn)行嘗試。超參數(shù)調(diào)整01模型部署是將訓(xùn)練好的模型應(yīng)用到實(shí)際生產(chǎn)環(huán)境中的過(guò)程,涉及到模型導(dǎo)出、服務(wù)部署和性能監(jiān)控等方面。02模型導(dǎo)出:將訓(xùn)練好的模型導(dǎo)出為可以部署的格式。03服務(wù)部署:將模型部署到服務(wù)器上,提供API供其他應(yīng)用程序調(diào)用。04性能監(jiān)控:監(jiān)控模型在實(shí)際應(yīng)用中的性能,及時(shí)進(jìn)行調(diào)優(yōu)。模型部署01模型優(yōu)化是持續(xù)改進(jìn)模型性能的過(guò)程,包括模型結(jié)構(gòu)調(diào)整、數(shù)據(jù)增強(qiáng)、正則化等方法。02模型結(jié)構(gòu)調(diào)整:調(diào)整模型的結(jié)構(gòu),如增加或減少層數(shù)、改變激活函數(shù)等。03數(shù)據(jù)增強(qiáng):通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行變換,增加數(shù)據(jù)的多樣性。04正則化:通過(guò)加入正則化項(xiàng),防止模型過(guò)擬合。模型優(yōu)化模型維護(hù)是確保模型長(zhǎng)期穩(wěn)定運(yùn)行的重要環(huán)節(jié),包括數(shù)據(jù)更新、模型更新和性能監(jiān)控等方面。01模型更新:根據(jù)數(shù)據(jù)更新和模型性能,定期重新訓(xùn)練模型。03數(shù)據(jù)更新:隨著新數(shù)據(jù)的積累,定期更新訓(xùn)練數(shù)據(jù)集。02性能監(jiān)控:持續(xù)監(jiān)控模型的性能,及時(shí)發(fā)現(xiàn)并解決問(wèn)題。04模型維護(hù)2025謝謝大家Powerpointdesign主講人:2025/5/13程老師時(shí)間:Powerpoint任務(wù)3.4準(zhǔn)確率和召回率PowerpointdesignPowerpoint目錄CONTENTS01任務(wù)描述02預(yù)備知識(shí)03實(shí)施過(guò)程01任務(wù)描述Powerpoint01在機(jī)器學(xué)習(xí)中,模型評(píng)估是一個(gè)重要的過(guò)程,用于確定模型是否能夠有效地預(yù)測(cè)輸入的數(shù)據(jù)。機(jī)器學(xué)習(xí)模型評(píng)估的重要性本任務(wù)的目標(biāo)是計(jì)算分類任務(wù)的準(zhǔn)確率和召回率。準(zhǔn)確率和召回率是評(píng)估分類模型性能的兩個(gè)重要指標(biāo)。準(zhǔn)確率衡量的是模型正確分類的樣本數(shù)占總樣本數(shù)的比例,而召回率衡量的是模型正確識(shí)別出的正樣本數(shù)占實(shí)際正樣本數(shù)的比例。01為了完成這個(gè)任務(wù),我們需要以下步驟:1)準(zhǔn)備數(shù)據(jù)集:數(shù)據(jù)集應(yīng)包含樣本的特征和對(duì)應(yīng)的標(biāo)簽。標(biāo)簽可以是二分類或多分類的。2)訓(xùn)練分類模型:使用合適的算法和參數(shù)訓(xùn)練分類模型。3)預(yù)測(cè)與評(píng)估:使用訓(xùn)練好的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),并計(jì)算準(zhǔn)確率和召回率。02任務(wù)目標(biāo)和步驟02預(yù)備知識(shí)Powerpoint準(zhǔn)確率=(真正例+真反例)/總樣本數(shù)。召回率=真正例/實(shí)際正樣本數(shù)。精確率=真正例/預(yù)測(cè)正樣本數(shù)。其中,真正例(TruePositive,TP)表示模型正確預(yù)測(cè)為正樣本的實(shí)例數(shù);真反例(TrueNegative,TN)表示模型正確預(yù)測(cè)為負(fù)樣本的實(shí)例數(shù);總樣本數(shù)表示測(cè)試集中樣本的總數(shù);實(shí)際正樣本數(shù)表示測(cè)試集中真正為正樣本的實(shí)例數(shù)。01020304準(zhǔn)確率、召回率、精確率、F1分?jǐn)?shù)ROC曲線圖3.30給出了分類任務(wù)評(píng)估方法。AUCAUC(AreaUnderCurve)被定義為ROC曲線下與坐標(biāo)軸圍成的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線一般都處于y=x這條直線的上方,所以AUC的取值范圍在0.5和1之間。AUC越接近1.0,檢測(cè)方法真實(shí)性越高;等于0.5時(shí),則真實(shí)性最低,無(wú)應(yīng)用價(jià)值。AUC、ROC評(píng)估指標(biāo)010203決定系數(shù)(R2)R2用于衡量模型對(duì)數(shù)據(jù)的擬合程度,其值越接近1表示模型的擬合程度越好。平均絕對(duì)誤差(MAE)MAE是預(yù)測(cè)值與真實(shí)值之間差的絕對(duì)值的平均數(shù),較小的MAE表示模型預(yù)測(cè)的準(zhǔn)確性較高。均方誤差(MSE)MSE是預(yù)測(cè)值與真實(shí)值之間差的平方的平均數(shù),較小的MSE同樣表明模型具有較高的預(yù)測(cè)精度?;貧w任務(wù)模型評(píng)估03實(shí)施過(guò)程Powerpointfrom
sklearn.metricsimportaccuracy_score,precision_score,recall_score,f1_score,roc_curve,auc#定義真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽y_true=[0,1,1,0,1,0]y_pred=[0,1,0,0,1,1]#計(jì)算準(zhǔn)確率acc=accuracy_score(y_true,y_pred)print("Accuracy:{:.4f}".format(acc))#計(jì)算精確率precision=precision_score(y_true,y_pred)print("Precision:{:.4f}".format(precision))#計(jì)算召回率recall=recall_score(y_true,y_pred)print("Recall:{:.4f}".format(recall))#計(jì)算F1分?jǐn)?shù)f1=f1_score(y_true,y_pred)print("F1.score:{:.4f}".format(f1))#計(jì)算ROC曲線和AUCfpr,tpr,thresholds=roc_curve(y_true,y_pred)roc_auc=auc(fpr,tpr)print("ROCcurve:fpr={},tpr={},AUC={:.4f}".format(fpr,tpr,roc_auc))上述代碼計(jì)算了一個(gè)二分類問(wèn)題的準(zhǔn)確率、精確率、召回率、F1分?jǐn)?shù)、ROC曲線和AUC。其他分類指標(biāo)和回歸指標(biāo)的使用方法類似,只需調(diào)用相應(yīng)的函數(shù)即可。2025謝謝大家Powerpointdesign主講人:2025/5/13程老師時(shí)間:Powerpoint任務(wù)3.5預(yù)測(cè)PowerpointdesignPowerpoint目錄CONTENTS任務(wù)描述預(yù)備知識(shí)實(shí)施過(guò)程代碼示例01任務(wù)描述Powerpoint本次任務(wù)的目標(biāo)是利用已經(jīng)訓(xùn)練好的機(jī)器學(xué)習(xí)模型,對(duì)未知的樣本數(shù)據(jù)進(jìn)行預(yù)測(cè),并輸出預(yù)測(cè)結(jié)果(模型應(yīng)用)。01任務(wù)目標(biāo)01預(yù)測(cè)是機(jī)器學(xué)習(xí)模型應(yīng)用的重要環(huán)節(jié),它能夠幫助我們了解模型對(duì)于新數(shù)據(jù)的泛化能力,同時(shí)也是模型實(shí)際應(yīng)用中的主要步驟。預(yù)測(cè)的重要性任務(wù)實(shí)施將包括以下幾個(gè)步驟:加載模型。數(shù)據(jù)預(yù)處理。進(jìn)行預(yù)測(cè)。輸出預(yù)測(cè)結(jié)果。評(píng)估與反饋(可選)任務(wù)實(shí)施步驟02預(yù)備知識(shí)Powerpoin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中藥丸劑工沖突解決強(qiáng)化考核試卷含答案
- 汽車(chē)拆解工安全宣教知識(shí)考核試卷含答案
- 2026福建福州市倉(cāng)山區(qū)文化旅游投資集團(tuán)有限公司副總經(jīng)理崗位(職業(yè)經(jīng)理人)招聘1人考試備考題庫(kù)及答案解析
- 中國(guó)疾病預(yù)防控制中心資產(chǎn)管理處招聘1人考試參考試題及答案解析
- 2026中國(guó)稀土集團(tuán)有限公司及所屬企業(yè)招聘41人考試備考試題及答案解析
- 2026安徽皖信人力資源管理有限公司招聘駕駛員2人考試參考題庫(kù)及答案解析
- 2026中國(guó)二冶冶金分公司招聘考試參考題庫(kù)及答案解析
- 2026湖南長(zhǎng)沙工業(yè)學(xué)院招聘編外合同制教師12人考試參考試題及答案解析
- 五年級(jí)語(yǔ)文期中考試題庫(kù)與解析
- 裝飾裝修工程項(xiàng)目施工方案
- 2025年全科醫(yī)生轉(zhuǎn)崗培訓(xùn)考試題庫(kù)及答案
- 外貿(mào)進(jìn)出口2025年代理報(bào)關(guān)合同協(xié)議
- 2026年包頭職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試參考題庫(kù)帶答案解析
- 2024年安徽理工大學(xué)馬克思主義基本原理概論期末考試模擬試卷
- 2025年醫(yī)院檢驗(yàn)科主任年終述職報(bào)告
- 2025年中考跨學(xué)科案例分析模擬卷一(含解析)
- 2025-2026學(xué)年人教版(簡(jiǎn)譜)(新教材)初中音樂(lè)七年級(jí)(上冊(cè))期末測(cè)試卷附答案(共三套)
- 2025年大學(xué)(森林保護(hù))森林病理學(xué)期末試題及答案
- (南開(kāi)中學(xué))重慶市高2026屆高三第五次質(zhì)量檢測(cè)物理試卷(含答案詳解)
- 骨質(zhì)疏松骨折課件
- 2025年水利工程質(zhì)量檢測(cè)員考試(金屬結(jié)構(gòu))經(jīng)典試題及答案
評(píng)論
0/150
提交評(píng)論