版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
人工智能學習Supervisedlearning正規(guī)的參數(shù)表示
分類回歸人工智能學習Classification(分類)WearegivenasetofNobservations{(xi,yi)}i=1..NNeedtomapx∈Xtoalabely∈YExamples:
人工智能學習DecisionTrees
決策樹教材Section18.3
人工智能學習學習決策樹Problem:基于以下屬性決定是否在一家餐館等座位:
1.Alternate(別的選擇):isthereanalternativerestaurantnearby?
2.Bar:isthereacomfortablebarareatowaitin?
3.Fri/Sat:istodayFridayorSaturday?
4.Hungry:arewehungry?
5.Patrons(顧客):numberofpeopleintherestaurant(None,Some,Full)
6.Price:pricerange($,$$,$$$)
7.Raining:isitrainingoutside?
8.Reservation(預(yù)約):havewemadeareservation?
9.Type:kindofrestaurant(French,Italian,Thai,Burger)
10.WaitEstimate:estimatedwaitingtime(0-10,10-30,30-60,>60)人工智能學習Attribute-basedrepresentations以下是12個基于這10個屬性描述的例子,屬性值是布爾、離散和連續(xù)的E.g.,situationswhereIwill/won'twaitforatable:Classification(分類)ofexamplesispositive(T)ornegative(F)人工智能學習Decisiontrees一個可能的假設(shè)表示
E.g.,hereisthe“true”treefordecidingwhethertowait:
人工智能學習DecisionTreeLearning人工智能學習Expressiveness(表達能力)決策樹能夠表達關(guān)于輸入屬性的任何函數(shù)
E.g.,forBooleanfunctions,truthtablerow→pathtoleaf(函數(shù)真值表的每行對應(yīng)于樹中的一條路徑):
Trivially,thereisaconsistentdecisiontreeforanytrainingsetwithonepathtoleafforeachexample(unlessfnondeterministicinx)butitprobablywon‘tgeneralizetonewexamples
需要找到一顆更緊湊的決策樹人工智能學習Decisiontreelearning目標:找到一顆小的決策樹來滿足訓練樣本Idea:(遞歸地)選擇最佳屬性作為(子)樹的根
人工智能學習ChoosinganattributeIdea:一個好的屬性選擇將樣本分割成理想的子集,例如“allpositive”or“allnegative“Patrons?isabetterchoice人工智能學習Usinginformationtheory(信息論)algorithm落實DTL算法中Choose-Attribute函數(shù)的實施InformationContent信息量(Entropy熵):
對于一個包含p個正例和n個反例的訓練集:
人工智能學習Informationgain(信息增益)任何屬性A都可以根據(jù)屬性A的值將訓練集E劃分為幾個子集E1,…,Ev,其中A可以有v個不同的值從屬性A測試中得到的信息增益(IG)是原始的信息需求和新的信息需求之間的差異:ChoosetheattributewiththelargestIG人工智能學習信息增益對于訓練集,p=n=6,I(6/12,6/12)=1bit考慮屬性PatronsandType(andotherstoo):PatronshasthehighestIGofallattributesandsoischosenbytheDTLalgorithmastheroot人工智能學習Examplecontd.Decisiontreelearnedfromthe12examples:明顯比前面那顆“true”tree要簡單得多人工智能學習性能評估Howdoweknowthath≈f?
1.Usetheoremsofcomputational/statisticallearningtheory
2.Tryhonanewtestset(測試集)ofexamples
(usesamedistributionoverexamplespaceastrainingset)Learningcurve(學習曲線)=%correctontestsetasafunctionoftraining
人工智能學習評論基于決策樹的分類Advantages:
易于構(gòu)造
在分類位置記錄時速度快
對于“小號”樹易于解釋
在簡單數(shù)據(jù)集上分類精度相當于其他分類算法
Example:C4.5
Simpledepth-firstconstruction.
UsesInformationGain人工智能學習Knearestneighborclassifier
最近鄰模型教材Section20.4Linearpredictions線性預(yù)測
人工智能學習LearningFramework人工智能學習FocusofthispartBinaryclassification(e.g.,predictingspamornotspam):Regression(e.g.,predictinghousingprice):
人工智能學習ClassificationClassification
=learningfromdatawithfinitediscretelabels.DominantprobleminMachineLearning
人工智能學習線性分類器Binaryclassificationcanbeviewedasthetaskof
separatingclassesinfeaturespace(特征空間):
人工智能學習Roadmap人工智能學習線性分類器 h(x)=sign(wTx+b)需要尋找合適的w(direction)和
b(location)of分界線Wanttominimizetheexpectedzero/oneloss(損失)forclassifierh:X→Y,whichis
h(x)=sign(wTx+b)
理想情況下,完全分割人工智能學習線性分類器→損失最小化理想情況下我們想找到一個分類器
h(x)=sign(wTx+b)來最小化0/1lossUnfortunately,thisisahardproblem..替換的損失函數(shù):
人工智能學習LearningasOptimization人工智能學習LeastSquaresClassification
最小二乘分類Leastsquareslossfunction:目標:
學習一個分類器h(x)=sign(wTx+b)來使最小二乘損失最小
人工智能學習最小二乘分類解決方案人工智能學習W解決方案人工智能學習通用的線性分類人工智能學習Regression(回歸)Regression
=learningfromcontinuouslylabeleddata.(連續(xù)的標簽數(shù)據(jù))
人工智能學習線性回歸人工智能學習一般的線性/多項式回歸人工智能學習模型復(fù)雜度及過擬合人工智能學習模型復(fù)雜度及過擬合欠擬合高偏離人工智能學習模型復(fù)雜度及過擬合人工智能學習模型復(fù)雜度及過擬合過擬合高方差人工智能學習模型復(fù)雜度及過擬合人工智能學習模型復(fù)雜度及過擬合人工智能學習PredictionErrors預(yù)測誤差Trainingerrors(apparenterrors)—訓練誤差
ErrorscommittedonthetrainingsetTesterrors—測試誤差
ErrorscommittedonthetestsetGeneralizationerrors—泛化誤差
Expectederrorofamodeloverrandomselectionofrecordsfromsamedistribution(未知記錄上的期望誤差)人工智能學習模型復(fù)雜度及過擬合欠擬合:whenmodelistoosimple,bothtrainingandtesterrorsarelarge過擬合:whenmodelistoocomplex,trainingerrorissmallbuttesterrorislarge
人工智能學習IncorporatingModelComplexity基本原理:Ockham’sRazor奧卡姆剃刀原則
Giventwomodelsofsimilargeneralizationerrors,one
shouldpreferthesimplermodeloverthemorecomplexmodel
Acomplexmodelhasagreaterchanceofbeingfitted
accidentallybyerrorsindata復(fù)雜的模型在擬合上更容易受錯誤數(shù)據(jù)誤導(dǎo)
因此在評估一個模型時需要考慮其模型復(fù)雜度人工智能學習Regularization(規(guī)范化)直觀的:smallvaluesforparameters
“Simpler”hypothesis
Lesspronetooverfitting
人工智能學習Regularization人工智能學習L-2andL-1regularizationL-2:easytooptimize,closedformsolutionL-1:sparsity
人工智能學習Morethantwoclasses?人工智能學習Morethantwoclasses人工智能學習評論最小二乘分類不是分類問題最好的辦法But
易于訓練,closedformsolution(閉式解)
可以與很多經(jīng)典的學習原理相結(jié)合
人工智能學習Cross-validation(交叉驗證)基本思想:如果一個模型有一些過擬合(對訓練數(shù)據(jù)敏感),那么這個模型是不穩(wěn)定的。也就是說移除部分數(shù)據(jù)會顯著地改變擬合結(jié)果。因此我們先取出部分數(shù)據(jù),在剩余數(shù)據(jù)中做擬合,然后在取出的數(shù)據(jù)中做測試人工智能學習Cross-validation人工智能學習Cross-validation人工智能學習Cross-validation人工智能學習Cross-validation人工智能學習LearningFramework人工智能學習Model/parameterlearningparadigmChooseamodelclass
NB,kNN,decisiontree,loss/regularizationcombinationModelselec
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇州2025年江蘇蘇州高新區(qū)招聘教師55人筆試歷年參考題庫附帶答案詳解
- 鹽城江蘇鹽城市文化廣電和旅游局直屬單位招錄政府購買服務(wù)用工15人筆試歷年參考題庫附帶答案詳解
- 溫州浙江溫州瑞安市發(fā)展和改革局招聘編外用工人員筆試歷年參考題庫附帶答案詳解
- 無錫江蘇無錫高新區(qū)(新吳區(qū))人力資源和社會保障局招聘編外工作人員4人筆試歷年參考題庫附帶答案詳解
- 怒江2025年云南怒江貢山縣醫(yī)學專業(yè)大學生招聘14人筆試歷年參考題庫附帶答案詳解
- 廣東2025年廣東省機關(guān)文印中心招聘工作人員8人筆試歷年參考題庫附帶答案詳解
- 宜賓2025年四川省宜賓市中級人民法院招聘3人筆試歷年參考題庫附帶答案詳解
- 四川四川省醫(yī)學科學院·四川省人民醫(yī)院心血管超聲及心功能科醫(yī)師招聘筆試歷年參考題庫附帶答案詳解
- 南充四川南充市住房公積金管理中心和南充市財政綜合服務(wù)中心引進3人筆試歷年參考題庫附帶答案詳解
- 內(nèi)蒙古2025年內(nèi)蒙古工業(yè)大學招聘21人筆試歷年參考題庫附帶答案詳解
- 實施指南(2025)《HG-T 6214-2023 鄰氨基苯酚》
- 安全生產(chǎn)相關(guān)工作主要業(yè)績及研究成果
- 2025廣西百色能源投資發(fā)展集團有限公司招聘7人(第一批)筆試歷年參考題庫附帶答案詳解
- 地下礦山職工安全培訓課件
- 供熱安全培訓課件
- 供水管網(wǎng)搶修課件
- 培訓意識形態(tài)課件
- 運輸公司安全領(lǐng)導(dǎo)小組會議記錄內(nèi)容
- 7.2動物的特征及類群①課件-滬教版生物七年級下冊
- 2025年麒麟運維考試題庫
- 綿陽北控水務(wù)污泥減量化及資源化中心項目環(huán)評報告
評論
0/150
提交評論