版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章概述1.1什么是機器學習1.2機器學習的算法1.3監(jiān)督學習1.4無監(jiān)督學習1.5數(shù)據(jù)集1.6機器學習項目的流程1.7小結(jié)1.1什么是機器學習
機器學習(machinelearning)它屬于人工智能的一個分支,因由統(tǒng)計學發(fā)展而來,算法中包含了大量的統(tǒng)計學知識和理論,所以又被稱為統(tǒng)計學習(statisticallearning)。
北方人理想體重=(身高cm-150)×0.6+50(kg)南方人理想體重=(身高cm-150)×0.6+48(kg)
機器學習還可以利用機器來模擬人類的思維進行工作,來適應(yīng)不同環(huán)境下的各種工作,以實現(xiàn)人類難以完成的工作。通過機器學習來處理問題,不但減少了錯誤率,還省去了人力,機器全面取代人類的夢想必然會向前邁出實質(zhì)性的一步。這就是研究機器學習的目的和意義。1.2機器學習的算法
監(jiān)督學習(SupervisedLearning)無監(jiān)督學習(UnsupervisedLearning)。
監(jiān)督學習
監(jiān)督學習是通過已經(jīng)訓練的數(shù)據(jù)來訓練模型。如果一組訓練數(shù)據(jù),已知輸入和對應(yīng)的輸出,通過算法訓練,從而可以得到一個最優(yōu)的模型。然后在輸入一個新的數(shù)據(jù),監(jiān)督學習算法就會根據(jù)模型做出相應(yīng)的預測,這樣就能得到一個最優(yōu)的預測。這類算法往往用于預測性研究。
無監(jiān)督學習
無監(jiān)督學習被稱為“沒有老師的學習”,沒有訓練的過程,同時數(shù)據(jù)也只有輸入,沒有對應(yīng)的輸出,直接通過數(shù)據(jù)根據(jù)算法進行建模分析,意味著這些都是要通過機器學習自行學習探索。這聽起來似乎有點不可思議,但是在我們自身認識世界的過程中也會用到無監(jiān)督學習。這類算法往往用于探究性研究,去用于尋找各種方法。
半監(jiān)督學習
半監(jiān)督學習是監(jiān)督學習和無監(jiān)督學習相結(jié)合而產(chǎn)生的一種學習方法。它主要考慮如何利用少量的標注數(shù)據(jù)和大量的未標注數(shù)據(jù)進行訓練和分類的問題,其算法主要是在監(jiān)督學習上進行擴展,半監(jiān)督學習對于提高學習機器性能具有非常重大的實際意義。
1.3監(jiān)督學習 分類(Classification)算法 回歸(Regression)算法
分類與回歸的差異就是分類預測的標簽往往是間斷的,也就是說我們將輸入變量映射到離散類別。
回歸問題預測的標簽往往是連續(xù)的,也就是說我們將輸入數(shù)據(jù)映射到一些連續(xù)函數(shù)上。
1.4無監(jiān)督學習
聚類算法
降維
聚類算法是無監(jiān)督學習中典型的一種算法,聚類算法可以根據(jù)數(shù)據(jù)的特征來進行建模。
降維的原理就是將數(shù)據(jù)從高維空間映射到低維空間。1.5數(shù)據(jù)集 數(shù)據(jù)集的集合。在監(jiān)督學習中,會將數(shù)據(jù)集劃分為訓練集和測試集,有時也會分為訓練集、驗證集和測試集。
訓練集是用來擬合模型,通過設(shè)置分類器的參數(shù),訓練分類模型。后續(xù)結(jié)合驗證集作用時,會選出同一參數(shù)的不同取值,擬合出多個分類器。
驗證集用是當通過訓練集訓練出多個模型后,為了能找出效果最佳的模型,使用各個模型對驗證集數(shù)據(jù)進行預測,并記錄模型準確率。選出效果最佳的模型所對應(yīng)的參數(shù)。
測試集用來最終評估模式識別系統(tǒng)的性能和分類能力。即可以把測試集當做從來不存在的數(shù)據(jù)集,當已經(jīng)確定模型參數(shù)后,可以使用測試集進行模型預測并評估模型的性能。三者本質(zhì)無任何區(qū)別,但劃分的作用是為了能夠泛化(generalize)出更好的模型。泛化、過擬合、欠擬合
泛化是指一個算法通過數(shù)據(jù)集對新數(shù)據(jù)的預測能力的好壞,在監(jiān)督學習中,我們知道算法訓練數(shù)據(jù)后會構(gòu)建模型,如果我們此時通過構(gòu)建的模型來預測一些測試集數(shù)據(jù)的標簽,如果對于每一個測試集數(shù)據(jù)都能精確預測,就說這個模型能夠從訓練集泛化到測試集。
過擬合就是根據(jù)數(shù)據(jù)構(gòu)建的模型的復雜度過高,對于應(yīng)用于實際的問題,太多不必要的特征,從而導致機器并沒有沒有理解數(shù)據(jù)間存在的規(guī)律。
欠擬合就是構(gòu)建模型的復雜度過低,不能很好的解決實際問題。
1.6機器學習項目的流程分析問題,獲取數(shù)據(jù)數(shù)據(jù)預處理特征工程訓練模型與調(diào)優(yōu)模型評估模型融合上線運行一個完整的機器學習項目含有以上步驟,但不一定含有所有以上步驟
分析問題,獲取數(shù)據(jù) 當?shù)玫揭粋€問題的時候,首先要將問題轉(zhuǎn)化為機器學習能夠處理的問題,機器學習訓練的過程非常耗時,所以我們仔細尋找合適的數(shù)據(jù)和選擇機器學習的目標是分類、回歸還是聚類。此時得到的數(shù)據(jù)經(jīng)決定了我們機器學習結(jié)果的上限,所以數(shù)據(jù)要選擇具有代表性的否則會產(chǎn)生過擬合。
數(shù)據(jù)預處理 在實際中我們得到的數(shù)據(jù),并不像庫中或者比賽中的數(shù)據(jù),得到數(shù)據(jù)之后還需人工分析數(shù)據(jù)的格式是否符合要求,是否存在空值、缺失值,是否需要該特征等,然后進行歸一化、離散化、缺失值處理、去除共線性等,這些工作簡單可復制,收益穩(wěn)定可預期,是機器學習的基礎(chǔ)必備步驟。
特征工程 數(shù)據(jù)和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。特征工程在機器學習中也起著非常重要的作用,它也是在做數(shù)據(jù)處理,只不過是通過特征提取、特征選擇、降維把數(shù)據(jù)處理成更為直接的被使用的數(shù)據(jù)。
訓練模型與調(diào)優(yōu) 真正考驗水平的根據(jù)對算法的理解調(diào)節(jié)參數(shù),使模型達到最優(yōu)。模型診斷中至關(guān)重要的是判斷過擬合、欠擬合,常見的方法是繪制學習曲線,交叉驗證。通過增加訓練的數(shù)據(jù)量、降低模型復雜度來降低過擬合的風險,提高特征的數(shù)量和質(zhì)量、增加模型復雜來防止欠擬合。診斷后的模型需要進行進一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷,這是一個反復迭代不斷逼近的過程,需要不斷的嘗試,進而達到最優(yōu)的狀態(tài)。
模型評估 模型驗證和誤差分析也是機器學習中非常重要的一步,通過測試數(shù)據(jù),驗證模型的有效性,觀察誤差樣本,分析誤差產(chǎn)生的原因,由算法訓練建立的模型,作用到測試集上檢驗?zāi)P偷木_度。若檢驗不合格,重新返回到算法進行學習,直至得到的模型比較精確,往往能使得我們找到提升算法性能的突破點。誤差分析主要是分析出誤差來源與數(shù)據(jù)、特征、算法。
模型融合
一般來說實際中,成熟的機器算法也就那么些,提升算法的準確度主要方法是模型的前端(特征工程、清洗、預處理、采樣)和后端的模型融合。在機器學習比賽中模型融合非常常見,基本都能使得效果有一定的提升。
上線運行 這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大。工程上是結(jié)果導向,模型在線上運行的效果直接決定
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- CCAA - 2023年01月建筑施工領(lǐng)域?qū)I(yè)答案及解析 - 詳解版(65題)
- 營銷業(yè)務(wù)市場調(diào)查報告作業(yè)模板
- 2026年上海市松江區(qū)中考一模物理試題(含答案)
- 養(yǎng)老院志愿者服務(wù)管理制度
- 養(yǎng)老院環(huán)境保護管理制度
- 企業(yè)項目管理制度
- 統(tǒng)編版(2024)七年級上冊歷史期末復習:材料分析題解題方法+50題練習題(含答案解析)
- 建立健全現(xiàn)代企業(yè)制度提升管理水平
- 2025年福建省人資集團漳州地區(qū)招聘考試真題
- 手持小型動力工具制作工操作管理能力考核試卷含答案
- 中藥學教材課件
- 夢雖遙追則能達愿雖艱持則可圓模板
- 能源與動力工程測試技術(shù) 課件 第一章 緒論確定
- 配件售后管理制度規(guī)范
- 浙江省紹興市上虞區(qū)2024-2025學年七年級上學期期末語文試題(解析版)
- 《隸書千字文》-清席夔
- 2024校長在寒假期末教職工大會上精彩發(fā)言主要引用3個關(guān)鍵詞善待自己改變自己提升自己
- 《鐵路技術(shù)管理規(guī)程》(普速鐵路部分)
- 2024-2025年度“地球小博士”全國地理科普知識大賽參考試題庫(含答案)
- 北師大版六年級上冊分數(shù)混合運算100題帶答案
- 2024年度工程成本控制優(yōu)化合同
評論
0/150
提交評論