python人工智能課程課件

上傳人：為*** IP屬地：貴州上傳時(shí)間：2022-08-20 格式：PPT 頁(yè)數(shù)：101 大?。?8.71MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩96頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)實(shí)踐第1頁(yè)，共101頁(yè)。聲明 Acknowledgments假設(shè)參與此門課程的同學(xué)具有python基礎(chǔ)及高等數(shù)學(xué)基礎(chǔ)。不要求有深刻的算法基礎(chǔ)，但對(duì)于基本的數(shù)據(jù)結(jié)構(gòu)和算法要有一定了解。參考資料：取自于sklearn、tensorflow官方網(wǎng)站、斯坦福大學(xué)CS224d、CS231n課件、Github的部分代碼倉(cāng)庫(kù)、部分來(lái)源于網(wǎng)絡(luò)和搜索引擎，也有部分資料和代碼是自行完成的。參考書籍：機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)方法、模式識(shí)別與機(jī)器學(xué)習(xí)、Hands-On Machine Learning With Scikit-Learn & TensorFlow等課后如果有問題，歡迎聯(lián)系交流第2頁(yè)，共10

2、1頁(yè)。Day1大綱人工智能概述人工智能中的數(shù)學(xué)基礎(chǔ) 回歸與分類線性回歸，Logistic 回歸，Softmax回歸決策樹多種決策樹模型，Bagging，Boosting思想樸素貝葉斯自然語(yǔ)言處理，文本分類第3頁(yè)，共101頁(yè)。人工智能概述第4頁(yè)，共101頁(yè)。從人工智能談起智能設(shè)備、聊天機(jī)器人、無(wú)人駕駛、機(jī)器人/x/page/y03792kgjj1.html第5頁(yè)，共101頁(yè)。什么是人工智能？人工智能（Artificial Intelligence），英文縮寫為AI。它是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分

3、支，它試圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類智能相似的方式作出反應(yīng)的智能機(jī)器。機(jī)器人語(yǔ)音識(shí)別圖像識(shí)別自然語(yǔ)言處理專家系統(tǒng)知識(shí)工程機(jī)器學(xué)習(xí)人工智能是對(duì)人的意識(shí)、思維的信息過程的模擬。人工智能不是人的智能，但能像人那樣的思考，甚至超過人的智能。第6頁(yè)，共101頁(yè)。弱人工智能、強(qiáng)人工智能、超人工智能弱人工智能Artificial Narrow Intelligence(ANI):弱人工智能是擅長(zhǎng)于單個(gè)方面的人工智能。強(qiáng)人工智能Artificial General Intelligence(AGI):人類級(jí)別的人工智能。強(qiáng)人工智能是指在各方面都能喝人類比肩的人工智能，人類能干的腦力活它都能干。超

4、人工智能Artificial Super Intelligence(ASI):知名人工智能思想家Nick Bostrom把超級(jí)智能定義為”在幾乎所有領(lǐng)域都比最聰明的人類大腦都聰明很多，包括科學(xué)創(chuàng)新、通識(shí)和社交技能“。第7頁(yè)，共101頁(yè)。圖靈測(cè)試第8頁(yè)，共101頁(yè)。人工智能的歷史1956年夏天：達(dá)特茅斯會(huì)議，提出“人工智能“20世紀(jì)60年代：感知機(jī)20世紀(jì)70年代：專家系統(tǒng)、知識(shí)工程20世紀(jì)80年代：日本第五代機(jī)20世紀(jì)90年代：統(tǒng)計(jì)機(jī)器學(xué)習(xí)2006年：深度學(xué)習(xí)2012年：卷積神經(jīng)網(wǎng)絡(luò).第9頁(yè)，共101頁(yè)。人工智能的歷史AI發(fā)展現(xiàn)狀？第10頁(yè)，共101頁(yè)。機(jī)器是否具有真正的智能人眼中的圖像第11

5、頁(yè)，共101頁(yè)。機(jī)器是否具有真正的智能計(jì)算機(jī)眼中的圖像目前只能實(shí)現(xiàn)感知智能，尚無(wú)法實(shí)現(xiàn)推理智能第12頁(yè)，共101頁(yè)。舉個(gè)例子第13頁(yè)，共101頁(yè)。還有很長(zhǎng)的路要走計(jì)算機(jī)無(wú)法真正理解符號(hào)、數(shù)字背后的語(yǔ)義所有的行為都是在“猜”圖像、語(yǔ)音：原始信息，感知智能語(yǔ)言、藝術(shù)：人工信息，推理智能第14頁(yè)，共101頁(yè)。學(xué)習(xí)方法打好機(jī)器學(xué)習(xí)基礎(chǔ)學(xué)會(huì)原理、注重聯(lián)系動(dòng)手實(shí)踐分析數(shù)據(jù)，提升google機(jī)器學(xué)習(xí)教程：/x/page/y03792kgjj1.htmlAngrew NG 機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等課程第15頁(yè)，共101頁(yè)。準(zhǔn)備工作安裝anaconda3并配置pycharm 安裝sklearn/numpy/pan

6、das/matplotlib/xgboost 安裝pycharm，并設(shè)置python解釋器路徑編寫hello，world并成功執(zhí)行第16頁(yè)，共101頁(yè)。人工智能中的數(shù)學(xué)基礎(chǔ)第17頁(yè)，共101頁(yè)。數(shù)學(xué)分析映射與函數(shù) 極限導(dǎo)數(shù) 導(dǎo)數(shù)是曲線的斜率，是曲線變化快慢的反應(yīng)；可導(dǎo)一定連續(xù)，反之不然思考：極值如何求解？第18頁(yè)，共101頁(yè)。數(shù)學(xué)分析常用函數(shù)求導(dǎo)公式動(dòng)手實(shí)踐(2)：求sigmoid函數(shù)導(dǎo)數(shù)第19頁(yè)，共101頁(yè)。數(shù)學(xué)分析泰勒展開式常用函數(shù)的泰勒展開在某鄰域內(nèi)，存在一階近似、二階近似、逼近非線性函數(shù)求解第20頁(yè)，共101頁(yè)。數(shù)學(xué)分析梯度下降法練習(xí)：使用梯度下降法求解y=x2思考：什么情況下有全

7、局最優(yōu)解？10J(0,1)01J(0,1)第21頁(yè)，共101頁(yè)。數(shù)學(xué)分析練習(xí) sgd.py運(yùn)行平方函數(shù)平方函數(shù)的導(dǎo)數(shù)第22頁(yè)，共101頁(yè)。數(shù)學(xué)分析練習(xí) sgd.py運(yùn)行GD_decay：x_start - 初始位置df - 平方函數(shù)epochs - 迭代次數(shù)lr - 學(xué)習(xí)率decay - 學(xué)習(xí)率衰減系數(shù)循環(huán)：迭代計(jì)算下一次x的位置第23頁(yè)，共101頁(yè)。數(shù)學(xué)分析首先生成基礎(chǔ)采樣點(diǎn)給后面使用做了雙重驗(yàn)證并繪制圖像第24頁(yè)，共101頁(yè)。數(shù)學(xué)分析梯度下降法xt+1 = xt - af(xt)”最快”過于盲目、有缺陷進(jìn)一步利用曲線二階導(dǎo)的信息進(jìn)行迭代求解，稱為牛頓法xt+1 = xt - f(xt)/f

8、(xt)第25頁(yè)，共101頁(yè)。數(shù)學(xué)分析多元函數(shù)的導(dǎo)數(shù)如何表達(dá)？多元函數(shù)的梯度呢？多元函數(shù)的二階導(dǎo)是什么？f(x) = f(x1,x2,.) 一階(偏)導(dǎo)數(shù)：fx1(x1,x2.),fx2(x1,x2.),.，它們的線性加和稱為方向?qū)?shù)hessian矩陣G第26頁(yè)，共101頁(yè)。數(shù)學(xué)分析總結(jié) 變量、函數(shù) 求導(dǎo)規(guī)則、泰勒展開式Y(jié)an LeCun：可微分式編程第27頁(yè)，共101頁(yè)。線性代數(shù)線性變換指旋轉(zhuǎn)、推移，他們的組合是線性變換為什么研究線性變換第28頁(yè)，共101頁(yè)。線性代數(shù)矩陣和乘法矩陣的本質(zhì)：線性變換！什么情況下矩陣乘法是旋轉(zhuǎn)矩陣呢？第29頁(yè)，共101頁(yè)。線性代數(shù)矩陣僅對(duì)角線有非零值的矩陣為縮

9、放矩陣，對(duì)角線元素代表了每個(gè)維度的縮放強(qiáng)度列向量正交且為單位向量的矩陣，也即正交陣為旋轉(zhuǎn)矩陣思考：這兩個(gè)矩陣的現(xiàn)實(shí)意義？第30頁(yè)，共101頁(yè)。線性代數(shù)分離技術(shù) - 特征值分解非常重要且廣泛的應(yīng)用包括：控制系統(tǒng)推薦系統(tǒng)文本相似度處理圖像壓縮.第31頁(yè)，共101頁(yè)。線性代數(shù)分離技術(shù) - svd/NFM分解useritem第32頁(yè)，共101頁(yè)。線性代數(shù)再看特征值分解相似矩陣思考：(1) 變換與逆矩陣(2) 什么情況下有逆矩陣(3) P與P的逆乘積第33頁(yè)，共101頁(yè)。線性代數(shù)行列式考察單位陣、旋轉(zhuǎn)陣行列式的本質(zhì)：線性變換的縮放因子變換是否降維(秩)第34頁(yè)，共101頁(yè)。線性代數(shù)總結(jié)矩陣線性變換特征

10、值縮放強(qiáng)度行列式縮放強(qiáng)度第35頁(yè)，共101頁(yè)。概率論概率與直觀不斷拋擲一枚硬幣，得到正面與反面的頻率比例是多少呢？經(jīng)過無(wú)數(shù)次拋擲，頻率的極限趨近于X?拋擲趨于無(wú)窮次時(shí)，正反面頻率一致，根據(jù)大數(shù)定理第36頁(yè)，共101頁(yè)。概率論概率的計(jì)算已知A、B獨(dú)立時(shí)第37頁(yè)，共101頁(yè)。概率論條件概率全概率公式貝葉斯公式練習(xí)：小明有8支步槍，其中有5支校準(zhǔn)過。校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.8，沒有校準(zhǔn)過的槍支擊準(zhǔn)靶心的概率為0.3，現(xiàn)小明隨機(jī)的選一支槍，結(jié)果中靶，問該槍已被校準(zhǔn)的概率。第38頁(yè)，共101頁(yè)。概率論根據(jù)貝葉斯公式第39頁(yè)，共101頁(yè)。概率論重溫貝葉斯公式強(qiáng)調(diào)：這是一個(gè)非常重要的公式，記

11、住它，基本就掌握了機(jī)器學(xué)習(xí)一半的內(nèi)容第40頁(yè)，共101頁(yè)。概率論期望與方差E(x)表征了數(shù)據(jù)的加權(quán)平均值，D(x)表征了數(shù)據(jù)的波動(dòng)程度第41頁(yè)，共101頁(yè)。概率論變量的分布有一類試驗(yàn)，比如拋擲硬幣得到正面還是反面，項(xiàng)目成功或失敗，產(chǎn)品是否有缺陷，只有兩個(gè)可能結(jié)果。記這兩個(gè)可能的結(jié)果為0和1，該分布就稱為伯努利分布。第42頁(yè)，共101頁(yè)。概率論變量的分布伯努利分布重復(fù)N次，就構(gòu)成了二項(xiàng)分布。排列、組合數(shù)公式復(fù)習(xí)：袋子中有五個(gè)標(biāo)號(hào)的小球，每次從中抽取一個(gè)，抽取三次，得到的排列方式有多少種呢？袋子中有五個(gè)標(biāo)號(hào)的小球，每次抽取一個(gè)，抽取三次，不考慮球之間的順序，得到的編號(hào)組合有多少種呢？第43頁(yè)，

12、共101頁(yè)。概率論變量的分布高斯分布，服從中心極限定律，是非常重要的分布。第44頁(yè)，共101頁(yè)。概率論練習(xí) multi_guassian.py 第45頁(yè)，共101頁(yè)。概率論熵世界杯比賽有32支球隊(duì)參加，最少用多少bit信息表示出最后獲勝的隊(duì)伍？第46頁(yè)，共101頁(yè)?？偨Y(jié)人工智能中的數(shù)學(xué)并不難，關(guān)鍵是掌握常用的思維方式練習(xí)推導(dǎo)，理解數(shù)學(xué)表達(dá)式所蘊(yùn)含的現(xiàn)實(shí)意義第47頁(yè)，共101頁(yè)。機(jī)器學(xué)習(xí)實(shí)踐第48頁(yè)，共101頁(yè)。機(jī)器學(xué)習(xí)實(shí)踐機(jī)器學(xué)習(xí)基礎(chǔ)理論和概念機(jī)器學(xué)習(xí)基本方法項(xiàng)目實(shí)戰(zhàn)分析第49頁(yè)，共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)機(jī)器學(xué)習(xí)主要是研究如何使計(jì)算機(jī)從給定數(shù)據(jù)中學(xué)習(xí)規(guī)律，并利用學(xué)習(xí)到的規(guī)律(模型)來(lái)對(duì)未

13、知或無(wú)法觀測(cè)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。第50頁(yè)，共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講，分為：監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí) 從學(xué)習(xí)結(jié)果上講，分為：回歸分類強(qiáng)調(diào)：目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work第51頁(yè)，共101頁(yè)。機(jī)器學(xué)習(xí)基礎(chǔ)從學(xué)習(xí)方式上講，分為：監(jiān)督學(xué)習(xí)無(wú)監(jiān)督學(xué)習(xí)半監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí) 從學(xué)習(xí)結(jié)果上講，分為：回歸分類強(qiáng)調(diào)：目前主流學(xué)習(xí)技術(shù)是監(jiān)督學(xué)習(xí)，半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)在通用場(chǎng)景下還不是特別的work第52頁(yè)，共101頁(yè)。線性回歸線性回歸是最基礎(chǔ)的回歸算法 train0123456789x0123456789y24.6-24.012.2-55.9-

14、57.816.5-7.9-17.3-23.187.4思考：x與y符合什么關(guān)系呢？觀察到x與y的關(guān)系（模型選擇），y=ax+b，建立線性回歸模型通過優(yōu)化方法設(shè)法擬合數(shù)據(jù)，得到最優(yōu)的a評(píng)估該模型是否準(zhǔn)確，查看訓(xùn)練集上的準(zhǔn)確率評(píng)估該模型的泛化性能，在測(cè)試集上的準(zhǔn)確率第53頁(yè)，共101頁(yè)。線性回歸基本概念訓(xùn)練集測(cè)試集(交叉驗(yàn)證法、自助法等)目標(biāo)函數(shù)損失函數(shù)優(yōu)化方法擬合、過擬合準(zhǔn)確率、泛化性能第54頁(yè)，共101頁(yè)。線性回歸目標(biāo)函數(shù)、優(yōu)化方法推導(dǎo)不可能有一個(gè)理想的線性函數(shù)經(jīng)過所有訓(xùn)練集的數(shù)據(jù)點(diǎn)，這個(gè)問題怎么處理呢？高斯：“把偏移都看做誤差”這又是一個(gè)假設(shè)，但是機(jī)器學(xué)習(xí)的套路就是這樣的第55頁(yè)，共10

15、1頁(yè)。線性回歸使用求極值方法求解目標(biāo)函數(shù)第56頁(yè)，共101頁(yè)。線性回歸使用求極值方法求解目標(biāo)函數(shù)思考：XTX一定可逆嗎？第57頁(yè)，共101頁(yè)。線性回歸直接采用極值方法求解，有什么缺點(diǎn)？如果不是拿到所有樣本點(diǎn)再求解，僅僅只看眼前的梯度逐漸求解呢？第58頁(yè)，共101頁(yè)。線性回歸使用梯度下降法求解目標(biāo)函數(shù)10J(0,1)第59頁(yè)，共101頁(yè)。線性回歸只根據(jù)眼前的路徑梯度下降求解的方法，稱為隨機(jī)梯度下降法(SGD)實(shí)際上使用樣本的過程中，出于效率和穩(wěn)定性的考慮，我們使用MiniBatch-SGD方法，使用批處理平均來(lái)進(jìn)行梯度更新，而不是對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行一次梯度更新思考：目標(biāo)函數(shù)一定有最小值

16、嗎？第60頁(yè)，共101頁(yè)。線性回歸進(jìn)一步分析可以對(duì)樣本是非線性的，對(duì)系數(shù)是線性的polynomial方法第61頁(yè)，共101頁(yè)。線性回歸準(zhǔn)確度評(píng)估對(duì)于連續(xù)數(shù)據(jù)(回歸問題)，一般使用方差評(píng)估對(duì)于離散數(shù)據(jù)(分類問題)accuracy、precision/recall例：訓(xùn)練樣本有100個(gè)，正負(fù)標(biāo)記各50個(gè)，經(jīng)過模型分類后，正負(fù)樣本結(jié)果仍為各50個(gè)。在正樣本中，分對(duì)40個(gè)，分錯(cuò)10個(gè)，負(fù)樣本中，分對(duì)30個(gè)，分錯(cuò)20個(gè)，則：accuracy = (100 - 10 - 20) / 100 = 0.7precision = 40 / 50 = 0.8recall = 40 / 60 = 0.66 第62

17、頁(yè)，共101頁(yè)。線性回歸準(zhǔn)確度評(píng)估強(qiáng)調(diào)：F1越大越好，最大值是1，對(duì)于二分類問題，F(xiàn)1=0.5就等價(jià)于”胡猜”第63頁(yè)，共101頁(yè)。線性回歸再談準(zhǔn)確度問題訓(xùn)練集上的P、R達(dá)到100%，是最好的情況嗎？第64頁(yè)，共101頁(yè)。線性回歸避免過擬合，引入正則化技術(shù) 分別稱為L(zhǎng)ASSO回歸、Ridge回歸LASSO具有稀疏作用，Ridge收斂更快我們說，目標(biāo)函數(shù)仍然是不帶正則化的原函數(shù)，經(jīng)過改造的上式稱為損失函數(shù)強(qiáng)調(diào)：優(yōu)化的目標(biāo)就是讓loss最小第65頁(yè)，共101頁(yè)。線性回歸練習(xí)：使用線性回歸預(yù)測(cè)房?jī)r(jià)走勢(shì) degree線性回歸模型擬合及預(yù)測(cè)第66頁(yè)，共101頁(yè)。線性回歸線性回歸是一種回歸算法模型

18、簡(jiǎn)單、計(jì)算量較小對(duì)誤差敏感對(duì)數(shù)據(jù)預(yù)處理要求較高思考：能否使用線性回歸解決分類問題呢？第67頁(yè)，共101頁(yè)。logistic回歸logistic回歸是最基礎(chǔ)的分類算法回顧伯努利分布，一次實(shí)驗(yàn)的結(jié)果只有0、1兩種選擇根據(jù)貝葉斯公式，如果只考慮P(A|B)，則稱為極大似然估計(jì) 以硬幣實(shí)驗(yàn)為例，現(xiàn)投擲10次，出現(xiàn)正面6次，反面4次假設(shè)硬幣正反概率出現(xiàn)的先驗(yàn)分布P(B)均勻，且上述證據(jù)P(A)已成定局，則求P(B|A)就是求P(A|B)即似然函數(shù)的最大值第68頁(yè)，共101頁(yè)。logistic回歸logistic回歸推導(dǎo) 根據(jù)極大似然估計(jì)，假設(shè)事件發(fā)生的概率是p，則最大似然函數(shù)為：有了P是不夠的！我

19、們要擬合原始數(shù)據(jù)引入sigmoid假設(shè)：擴(kuò)展知識(shí)點(diǎn)：廣義線性模型假設(shè)第69頁(yè)，共101頁(yè)。logistic回歸logistic回歸推導(dǎo) 擴(kuò)展知識(shí)點(diǎn)：廣義線性模型假設(shè)：第70頁(yè)，共101頁(yè)。logistic回歸繼續(xù)推導(dǎo) 強(qiáng)調(diào)：雖然logistic回歸是最基本的分類模型，但它的使用極為廣泛，尤其在金融、推薦、商業(yè)化等場(chǎng)景中。第71頁(yè)，共101頁(yè)。logistic回歸練習(xí)：使用logistic回歸對(duì)鳶尾花數(shù)據(jù)做分類第72頁(yè)，共101頁(yè)。logistic回歸logistic回歸是一種分類算法模型簡(jiǎn)單、計(jì)算量較小對(duì)異常數(shù)據(jù)點(diǎn)并不敏感對(duì)數(shù)據(jù)預(yù)處理要求較高第73頁(yè)，共101頁(yè)。logistic回歸思考

20、，如下數(shù)據(jù)能夠使用logistic分類嗎？這個(gè)技巧稱為核(kernel)方法，是一種非線性分類器，想深入研究的同學(xué)們可以自行查閱svm、kernel相關(guān)資料。第74頁(yè)，共101頁(yè)。Q&A?Disscussion第75頁(yè)，共101頁(yè)。決策樹決策樹能用來(lái)做回歸，也可以用來(lái)做分類是一類算法的總稱決策樹是描述對(duì)數(shù)據(jù)進(jìn)行分類的樹形模型，可以是二叉樹或非二叉樹，內(nèi)部節(jié)點(diǎn)(綠色)表示一個(gè)特征或?qū)傩裕~子節(jié)點(diǎn)(橘色)表示一個(gè)結(jié)果類。在做回歸任務(wù)時(shí)，以葉子節(jié)點(diǎn)的值指代輸出值。思考：分類標(biāo)準(zhǔn)如何選定？第76頁(yè)，共101頁(yè)。決策樹信息熵：表征了信息不確定性的程度分類屬性應(yīng)當(dāng)以最高熵減為標(biāo)準(zhǔn)進(jìn)行人種分類訓(xùn)練數(shù)據(jù)編號(hào)

21、眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhiteShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo考慮一本書，只有一個(gè)中文漢子，編碼它需要幾個(gè)字節(jié)呢？第77頁(yè)，共101頁(yè)。決策樹以眼睛顏色分類：s(d1)以頭發(fā)顏色分類：s(d2)以身高分類：s(d3)以體重分類：s(d4)編號(hào)眼睛顏色頭發(fā)顏色身高體重亞洲人1BlackBlackShortFatYes2BlackWhiteTallThinYes3BlackWhi

22、teShortThinYes4BrownGoldTallFatNo5BrownGoldShortFatNo6BrownWhiteTallThinNo第78頁(yè)，共101頁(yè)。決策樹上文中計(jì)算了信息增益(等同于信息熵減)，也即間接的利用了所謂的條件熵，這里給出形式化的推導(dǎo)H(Y|X) = H(X,Y) - H(X)第79頁(yè)，共101頁(yè)。決策樹具體步驟 (1)、首先選擇“眼睛”這個(gè)屬性 (2)、分裂出三個(gè)中間節(jié)點(diǎn)，之后選擇其他屬性，繼續(xù)劃分 (3)、直到新節(jié)點(diǎn)中的類別均一致，或特征都用盡為止思考：第(3)步是最好的情況嗎？剪枝、限制樹高等以上，就是決策樹中的ID3算法第80頁(yè)，共101頁(yè)。決策樹思考如

23、下問題：如果數(shù)據(jù)某一列是人員id(數(shù)字)，那么按信息增益的分裂方式，該列一定會(huì)被作為首選屬性，然而這對(duì)泛化性能毫無(wú)益處這是ID3算法的缺陷，因此C4.5算法采用了信息增益率第81頁(yè)，共101頁(yè)。隨機(jī)森林一棵樹比較單薄弱分類器的bagging策略隨機(jī)森林在bagging策略上作出修改： (1)、bootstrap采樣 (2)、隨機(jī)選擇特征，選擇最佳屬性建立決策樹 (3)、形成隨機(jī)森林，通過投票得到結(jié)果注：bootstrap來(lái)自于”pull up by your own bootstraps”，意思是依靠自己的資源，稱為自助法。前面已經(jīng)講過，這是一種對(duì)樣本的重復(fù)利用方法。OOB數(shù)據(jù)：約為

24、36%，用作測(cè)試數(shù)據(jù)。投票!第82頁(yè)，共101頁(yè)。隨機(jī)森林思考如下問題： (1)logistic回歸能否用于形成隨機(jī)森林 (2)隨機(jī)森林有什么好處，同時(shí)有什么問題？假定當(dāng)前已經(jīng)得到了m-1棵決策樹，是否可以通過現(xiàn)有樣本和決策樹的信息，對(duì)第m棵決策樹的建立產(chǎn)生有益的影響呢？第83頁(yè)，共101頁(yè)。提升提升是一種機(jī)器學(xué)習(xí)思想，可以用于回歸和分類問題，它每一步產(chǎn)生一個(gè)弱預(yù)測(cè)模型，并加權(quán)累加至總模型中，如果每一步?jīng)Q策樹的生成都是根據(jù)損失函數(shù)的梯度方向，則稱之為梯度提升(Gradient boosting)梯度提升算法首先假設(shè)一個(gè)損失函數(shù)，對(duì)于回歸可以采用L2 Loss,在這個(gè)基礎(chǔ)上，通過迭代選擇一個(gè)負(fù)

25、梯度方向上的基分類器來(lái)逼近局部最小值考慮利用已有信息，每棵樹都在之前的結(jié)果上擬合殘差使用一階導(dǎo)得到gbdt(gradient boosting decision tree)、二階導(dǎo)得到xgboost 第84頁(yè)，共101頁(yè)。提升GBDT模型訓(xùn)練數(shù)據(jù)：f(x,y,z)=1,2,3,4,5F0如何選擇？損失函數(shù)計(jì)算？Fm呢？強(qiáng)調(diào)：GBDT基于的決策樹，是一種回歸樹。同時(shí)既不是以ID3、C4.5為方式劃分的，也不是以CART方式劃分的。它的分割方式是窮舉每一個(gè)特征分割點(diǎn)，使LSL最小。第85頁(yè)，共101頁(yè)。提升回顧二階泰勒展開xgboost利用了二階導(dǎo)，并加入了正則化處理第86頁(yè)，共101頁(yè)。提升繼續(xù)

26、推導(dǎo)第87頁(yè)，共101頁(yè)。提升舉個(gè)例子強(qiáng)調(diào)：在一棵樹的構(gòu)建之內(nèi)，不斷選擇分割屬性，并枚舉分割點(diǎn)，使損失函數(shù)下降最快。第88頁(yè)，共101頁(yè)。決策樹練習(xí)：使用xgboost對(duì)鳶尾花數(shù)據(jù)做分類第89頁(yè)，共101頁(yè)。決策樹總結(jié)決策樹是一類具有可解釋性、泛化性能較好的模型精度高、無(wú)需特征歸一化，能夠處理缺失值，共線性特征適合于低維稠密數(shù)據(jù)，不適合高維稀疏數(shù)據(jù)決策樹類算法兼具特征選擇能力在金融、推薦、商業(yè)化領(lǐng)域用途十分廣泛第90頁(yè)，共101頁(yè)。樸素貝葉斯自然語(yǔ)言處理泛談南京/市長(zhǎng)/江大橋南京市/長(zhǎng)江/大橋切詞是自然語(yǔ)言處理中最基礎(chǔ)、最重要的工作。切詞是否準(zhǔn)確，直接影響到文本處理的精確度。由于中文的特

27、殊性，切詞精度問題在很長(zhǎng)一段時(shí)期內(nèi)無(wú)法得到較好的改善。詞典法規(guī)則法語(yǔ)言模型基于隱馬爾可夫模型等基于LSTM模型，序列標(biāo)注交集型歧義：結(jié)婚的和尚未結(jié)婚的他說的確實(shí)在理組合型歧義：學(xué)生會(huì)宣傳部把手抬起來(lái)第91頁(yè)，共101頁(yè)。樸素貝葉斯語(yǔ)言模型看成句子出現(xiàn)的概率問題：這樣分詞問題算是有了一個(gè)可用的解決方案，同時(shí)機(jī)器翻譯等任務(wù)也被整合成了語(yǔ)言模型之間的映射問題。思考：這樣做有什么問題？取n-gram這是語(yǔ)言模型的基礎(chǔ)工作，常見的是3-gram第92頁(yè)，共101頁(yè)。樸素貝葉斯再次回顧貝葉斯公式：假設(shè)有正常/垃圾兩類文本的訓(xùn)練數(shù)據(jù)，上述公式的意思也可以這樣表達(dá)：思考：A可能是一篇文章、一句話，上述模型如何求解呢？第93頁(yè)，共101頁(yè)。樸素貝葉斯樸素貝葉斯是最基礎(chǔ)的文本分類模型它對(duì)文本做了馬爾科夫假設(shè) 強(qiáng)調(diào)：文本上的馬爾科夫假設(shè)是非常強(qiáng)的約束樸素貝葉斯效果較好，與文本的稀疏性有關(guān)第94頁(yè)，共101頁(yè)。樸素貝葉斯舉個(gè)例子訓(xùn)練語(yǔ)料內(nèi)容垃圾1您好，請(qǐng)關(guān)注xxx機(jī)器學(xué)習(xí)產(chǎn)品，我們的聯(lián)系方式是xxx12老師好，我想請(qǐng)教您一個(gè)機(jī)器學(xué)習(xí)的問題03最新優(yōu)惠促銷，打折甩賣，免費(fèi)產(chǎn)品咨詢14基于區(qū)塊鏈的版權(quán)數(shù)據(jù)保護(hù)，是未來(lái)一個(gè)可能的技術(shù)方向05我們使用機(jī)器學(xué)習(xí)對(duì)圖片進(jìn)行分類，模型關(guān)注的是圖片哪個(gè)區(qū)域？0第95頁(yè)，共101頁(yè)。樸素貝葉斯舉個(gè)例子思考：這樣做有什么問題？拉普拉斯平滑

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

python人工智能課程課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

python人工智能課程課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔