《數(shù)據(jù)科學與工程導論》課件-11 機器學習方法_第1頁
《數(shù)據(jù)科學與工程導論》課件-11 機器學習方法_第2頁
《數(shù)據(jù)科學與工程導論》課件-11 機器學習方法_第3頁
《數(shù)據(jù)科學與工程導論》課件-11 機器學習方法_第4頁
《數(shù)據(jù)科學與工程導論》課件-11 機器學習方法_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)科學與工程導論IntroductiontoDataScienceandEngineering開篇實例他會遲到嗎?明天是星期三,我們一起去打乒乓球吧,下午3點在體育場見面,不見不散。他總是遲到,明天會準時抵達嗎?開篇實例他會遲到嗎?現(xiàn)在去的話他會3點準時到嗎?星期三14:30之前10次相約都遲到了8次!晚點再走吧……依據(jù)數(shù)據(jù)同時對數(shù)據(jù)進行分析后做出判斷跟機器學習的思想很相似。女孩對以往的經(jīng)驗(數(shù)據(jù))處理后,得到了男孩遲到的頻率,進而在當前準備出門時,根據(jù)由男孩的遲到頻率,做出了當前“暫時不出門”的決策。開篇實例他會遲到嗎?剛才的思考過程只考慮“頻率”這種屬性。我們可以進行更細致的分析。男孩又一次約女孩周日早上9點去體育館打羽毛球。女孩根據(jù)以往經(jīng)歷(數(shù)據(jù))做了分析。女孩發(fā)現(xiàn)男孩很多次遲到發(fā)生在周1,3,5的下午和周2,4,6,7的上午。其他情況下,男孩基本不遲到。于是女孩可以根據(jù)以往數(shù)據(jù)建立一個決策樹模型,來預測男孩周日早上9點是否遲到,如右圖:女孩根據(jù)這個決策樹箭頭所示,決定晚點出門開篇實例房子應該標價多少?現(xiàn)在有一棟房子需要售賣,應該給它標上多大的價格?房子的面積是150平方米標注價格是70萬,80萬,還是90萬?面積(平方米)價格(千元)開篇實例網(wǎng)頁分類開篇實例機器學習方法從編程的角度來看,機器學習是一種能自動生成程序的特殊程序。開篇實例機器學習方法算法模型數(shù)據(jù)經(jīng)驗經(jīng)驗驅(qū)動的算法模型數(shù)據(jù)驅(qū)動的算法模型機器學習:數(shù)據(jù)驅(qū)動的問題求解機器學習的發(fā)展歷史機器學習的方法機器學習最新發(fā)展123第11章

機器學習方法11.1機器學習的發(fā)展歷史什么是機器學習學習是人類具有的一種重要智能行為,但究竟什么是學習,長期以來卻眾說紛紜。社會學家、邏輯學家和心理學家都各有其不同的看法。至今,還沒有統(tǒng)一的“機器學習”定義,而且也很難給出一個公認的和準確的定義。機器學習是研究如何使用機器來模擬人類學習活動的一門學科。稍為嚴格的提法是:機器學習是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學問。11.1機器學習的發(fā)展歷史什么是機器學習從廣義上來說,機器學習是一種能夠賦予機器學習的能力以此讓它完成直接編程無法完成的功能的方法。但從實踐的意義上來說,機器學習是一種通過利用數(shù)據(jù),訓練出模型,然后使用模型預測的一種方法。y=kx+bx=5y=711.1機器學習的發(fā)展歷史機器學習的重要性工業(yè)過程控制信息安全機器人遙感信息處理生物信息學計算金融學分子生物學行星地質(zhì)學美國JPL實驗室的科學家在《Science》(2001年9月)上撰文指出:機器學習對科學研究的整個過程正起到越來越大的支持作用,……,該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展11.1機器學習的發(fā)展歷史機器學習的重要性Webelievemachinelearningwillleadtoappropriate,partialautomationofeveryelementofscientificmethod,fromhypothesisgenerationtomodelconstructiontodecisiveexperimentation.Thus,machinelearninghasthepotentialtoamplifyeveryaspectofaworkingscientist’sprogresstounderstanding.Itwillalso,forbetterorworse,endowintelligentcomputersystemswithsomeofthegeneralanalyticpowerofscientificthinking.——Science,14September,200111.1機器學習的發(fā)展歷史機器學習與人類思考11.1機器學習的發(fā)展歷史機器學習與相關(guān)學科11.1機器學習的發(fā)展歷史機器學習與相關(guān)學科數(shù)據(jù)挖掘數(shù)據(jù)庫機器學習數(shù)據(jù)分析技術(shù)數(shù)據(jù)管理技術(shù)11.1機器學習的發(fā)展歷史機器學習發(fā)展歷史感知機線性適應元連接主義學習模型統(tǒng)計學習模型“核方法”11.1機器學習的發(fā)展歷史機器學習發(fā)展歷史開啟人工智能的新時代機器學習的發(fā)展歷史機器學習的方法機器學習最新發(fā)展123第11章

機器學習方法11.2機器學習的方法機器學習的基本任務11.2機器學習的方法基本術(shù)語求職者筆試成績語言工作經(jīng)驗是否錄取1AJava2年錄取2BPython2年錄取3CC++1年錄取4AC0年不錄取數(shù)據(jù)集:記錄的集合,例如上表中4個求職者的所有信息。樣本(示例):描述一個對象或者事件的記錄。例如表中的描述每個求職者的記錄就是一個樣本。特征:反應對象在某方面的表現(xiàn)或者性質(zhì)的事項,例如筆試成績,語言,工作經(jīng)驗。屬性(樣本)空間:屬性張成的空間。例如我們把筆試成績,語言,工作經(jīng)驗作為3個坐標軸,每個求職者都能在這3維空間中找到自己的位置。由于空間中每個點對應一個向量,因此我們可以把每一個樣本稱為一個特征向量。樣本特征11.2機器學習的方法基本術(shù)語

從數(shù)據(jù)中學得模型的過程稱為“學習”(learning)或“訓練”(training),這個過程通過執(zhí)行某個學習算法來完成。比如給定上述求職者的信息,面試后再給每個求職者一個標記“錄取”或者“不錄取”。我們可以通過給定標記(錄取或者不錄?。┑臄?shù)據(jù)中訓練一棵決策樹,從而不用面試新的求職者,直接用決策樹模型就可以判斷是否錄取。11.2機器學習的方法基本術(shù)語訓練過程中使用的數(shù)據(jù)稱為“訓練數(shù)據(jù)”(trainingdata),其中每一個樣本稱為一個訓練樣本(trainingsample),訓練樣本組成的集合稱為訓練集(trainingset)。學得的模型對應了關(guān)于數(shù)據(jù)的某種潛在的規(guī)律,因此稱模型為“假設”(hypothesis)。這種“潛在規(guī)律”稱為“真相”。學習的過程就是為了找出或者逼近真相。若我們欲預測的是離散值,例如“生存”或者“死亡”,此類學習任務稱為分類;若預測的值是連續(xù)值,例如預測房價,則此類學習任務稱為“回歸”。11.2機器學習的方法機器學習的方法分類按照訓練的數(shù)據(jù)有無標簽,可以將機器學習方法分為監(jiān)督學習算法和無監(jiān)督學習算法,但推薦算法較為特殊,既不屬于監(jiān)督學習,也不屬于非監(jiān)督學習,是單獨的一類。監(jiān)督學習算法:線性回歸,邏輯回歸,神經(jīng)網(wǎng)絡,SVM無監(jiān)督學習算法:聚類算法,降維算法特殊算法:推薦算法11.2機器學習的方法有監(jiān)督學習

在監(jiān)督式學習下,訓練數(shù)據(jù)集中的每一個訓練數(shù)據(jù)都有一個明確的標識或標記。如上面求職者的數(shù)據(jù)中(初試成績=A;語言=java;工作經(jīng)驗=2年),錄取),則“錄取”為該訓練數(shù)據(jù)的標識。在建立預測模型的時候,監(jiān)督式學習建立一個這樣的一個學習過程,將預測結(jié)果與訓練數(shù)據(jù)的的實際結(jié)果進行比較,不斷地調(diào)整預測模型,直到模型的預測結(jié)果達到一個預期的準確率。監(jiān)督式學習常見的應用場景為回歸問題和分類問題。常見的算法有線性回歸,邏輯回歸,決策樹等。求職者筆試成績語言工作經(jīng)驗是否錄取1AJava2年錄取標識11.2機器學習的方法有監(jiān)督學習線性回歸就是我們前面說過的房價求解問題。如何擬合出一條直線最佳匹配我所有的數(shù)據(jù)?例如:“最小二乘法”來求解?;貧w算法有兩個重要的子類:即線性回歸和邏輯回歸?;貧w方法11.2機器學習的方法有監(jiān)督學習神經(jīng)網(wǎng)絡(也稱之為人工神經(jīng)網(wǎng)絡,ANN),是80年代機器學習界非常流行的方法,其誕生起源于對大腦工作機理的研究。簡單來說,就是分解與整合。神經(jīng)網(wǎng)絡Hubel-Wiesel試驗與大腦視覺機理11.2機器學習的方法有監(jiān)督學習支持向量機誕生于統(tǒng)計學習界,從某種意義上來說是邏輯回歸算法的強化:通過給予邏輯回歸算法更嚴格的優(yōu)化條件,支持向量機算法可以獲得比邏輯回歸更好的分類界線。通過跟高斯“核”的結(jié)合,支持向量機可以表達出非常復雜的分類界線,從而達成很好的的分類效果。SVM(支持向量機)11.2機器學習的方法無監(jiān)督學習在無監(jiān)督學習下,訓練數(shù)據(jù)不被特別標識,學習模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見的應用場景包括關(guān)聯(lián)規(guī)則的學習和聚類。常見的算法有K-Means算法和Apriori算法。11.2機器學習的方法無監(jiān)督學習這類方法有一個統(tǒng)稱,即無監(jiān)督算法,其中最典型的代表就是聚類。聚類就是計算種群中的距離,根據(jù)距離的遠近將數(shù)據(jù)劃分為多個族群。聚類算法中最典型的代表就是K-Means算法。聚類方法11.2機器學習的方法半監(jiān)督學習在半監(jiān)督學習下,輸入數(shù)據(jù)部分被標識,部分沒有被標識。這種學習模型可以用來進行預測,但模型首先需要學習數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便合理地組織數(shù)據(jù)進行預測。其應用場景包括分類與回歸。常見的算法包括一些對常用的監(jiān)督式學習算法的延伸。這些算法首先試圖對未標識的數(shù)據(jù)進行建模,然后在此基礎上對標識的數(shù)據(jù)進行預測,如期望最大化算法(EM)。11.2機器學習的方法半監(jiān)督學習推薦算法是目前業(yè)界非常火的一種算法,在電商界,如亞馬遜,天貓,京東等得到了廣泛的運用。推薦算法的主要特征就是可以自動向用戶推薦他們最感興趣的東西,從而增加購買率,提升效益。推薦算法11.2機器學習的方法過擬合與欠擬合訓練誤差:根據(jù)訓練集學得模型之后,模型在訓練集上的誤差稱為“訓練誤差”或“經(jīng)驗誤差”。若是回歸任務,則訓練誤差為模型的預測值與真實值的差的平方;若是分類任務,則是誤分類的訓練樣本與總樣本的比值,稱這個比值為錯誤率。泛化誤差:模型在新樣本(沒有出現(xiàn)在訓練集中)上的誤差稱為“泛化誤差”。泛化誤差是我們追求的目標。但實際中我們并不知道新樣本是什么,我們能做的是學得一個訓練誤差很小、在訓練集上表現(xiàn)良好的學習器。11.2機器學習的方法過擬合與欠擬合由于實際中,我們能做的是降低訓練誤差。但當模型很復雜時,很多時候能導致過擬合。過擬合:當模型把訓練集學得“太好”了,即模型在訓練集上表現(xiàn)的非常好。這很可能把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質(zhì),這樣就會導致泛化能力下降,這種現(xiàn)象稱為過擬合。欠擬合:當模型過于簡單,對訓練集的一般性質(zhì)尚未學好,模型在訓練集上都表現(xiàn)的不好,此現(xiàn)象稱為欠擬合。欠擬合通常意味著模型不夠好,需要繼續(xù)改進模型。11.2機器學習的方法過擬合與欠擬合11.2機器學習的方法典型的機器學習過程訓練數(shù)據(jù)類別標記(label)訓練使用學習算法(learningalgorithm)決策樹,神經(jīng)網(wǎng)絡,支持向量機,Boosting,貝葉斯網(wǎng)絡,……模型新數(shù)據(jù)樣本(劉二,公務員,8萬,…,?)類別標記未知?=是11.2機器學習的方法模型評估訓練出模型之后,我們需要一個測試集對模型進行評估。問題:我們只有一個數(shù)據(jù)集,怎么才能做到既要訓練,又要測試?答案是:通過對數(shù)據(jù)集進行劃分,從中產(chǎn)生訓練集S和測試集T。常見的劃分數(shù)據(jù)集方法:留出法交叉驗證法自助法訓練集S和測試集T比例通常為2:1~4:1機器學習的發(fā)展歷史機器學習的方法機器學習最新發(fā)展123第11章

機器學習方法11.3機器學習的最新發(fā)展機器學習也要借助東風大數(shù)據(jù)語音圖像視頻計算能力并行計算平臺GPU大量部署開放的社區(qū)開源,開放數(shù)據(jù)11.3機器學習的最新發(fā)展語音識別(2011)11.3機器學習的最新發(fā)展計算機視覺(2012)ImageNet物體分類任務上物體分類任務:1000類,1,431,167幅11.3機器學習的最新發(fā)展計算機視覺(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論