版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
論文匯報大數據技術軟件工程PPT模板下載:/moban/行業(yè)PPT模板:/hangye/節(jié)日PPT模板:/jieri/PPT素材下載:/sucai/PPT背景圖片:/beijing/PPT圖表下載:/tubiao/優(yōu)秀PPT下載:/xiazai/PPT教程:/powerpoint/Word教程:/word/Excel教程:/excel/資料下載:/ziliao/PPT課件下載:/kejian/范文下載:/fanwen/試卷下載:/shiti/教案下載:/jiaoan/PPT論壇:
AFewUsefulThingstoKnowAboutMachineLearning本文簡介AFewUsefulThingstoKnowAboutMachineLearning
機器學習發(fā)展到現在日益成熟,運用的領域也越來越廣泛,本文主要通過研究人員的角度,然后結合機器學習從業(yè)者的一些“民間知識”,總結出機器學習使用過程中的各種問題已經響應的解決方法。列出了常見的12條開發(fā)經驗。
本文將主要介紹其中最常用的類型:分類。在機器學習中,有兩種變量,一種是離散型,一種是連續(xù)型,分類主要涉及的是離散型變量。
機器學習分類的一般流程:收集數據,根據要實現的功能來選取相應的模型算法,從數據集中篩選出有用的特征,形成訓練集,把訓練集導入所選的模型中,這個模型我們稱之為學習機,學習過程由學習機來完成,最后學習機會訓練出一個分類器,新數據輸入分類器進行準確的分類。01學習=表示
+
評價+
優(yōu)化02機器學習是一種泛化計算03僅僅靠數據是不夠的04過擬合的多種形式0506080709101112人類直覺不適用于高維度理論保證與看上去的不一樣特征工程是關鍵更多數據勝過聰明算法學習更多模型簡單并不意味著準確相關并不意味著因果可表示并不意味著可學習
面對不同的任務,不同的需求,運用到的算法也不一樣,如何選取最有效的算法是一個難題,這里主要總結出三個方面:表示(Representation)一個分類器以某種計算機語言來表示,為學習機選擇一種模型表示,通過這個模型來訓練學習機,最終形成一個有效的分類器,其中分類模型可以看作是一個集合,所有分類的模型都可以從這個集合中選取,那么這個集合就被稱之為學習機的假設空間。評價(Evaluation)
我們需要一個評價函數,來評判分類器的優(yōu)劣性。優(yōu)化(Optimization)
我們需要一種搜索方式,來找到評價函數最高的那個模型表示,訓練處評價函數得分最高的分類器。當評價函數有多個最優(yōu)結果時,優(yōu)化也能有助我們從中選取最合適的一個。學習=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01學習=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01
表2,舉了一個簡單的決策樹的例子。一個決策樹的機器學習函數,第一個if判斷是否所有樣例都屬于同一個分類,第二個if判斷特征值xj與分類結果y之間的關聯(lián)性,一般用信息熵來把這種關聯(lián)性數值化表示然后通過將選取出當前信息熵最大的特征xj,當xj=0分成TS0集合,當xj=1分成TS1集合,然后除去特征xj,把分好的集合運用遞歸算法的思想,再次調用learnDT這個函數。學習=表示+評價+優(yōu)化AFewUsefulThingstoKnowAboutMachineLearning01機器學習的基本任務是對訓練集合中的樣例進行泛化。在訓練學習機時,應該將樣例分成訓練集和測試集,在訓練出一個分類器之后,應該用測試集要檢驗分類器的性能。
保留一部分樣例會被減少訓練集樣例的數量,可能會導致欠擬合的情況出現,面對這種情況,可以使用交叉檢驗的方法來解決,將數據集分成k份,訓練集取k-1分和測試集取一份,使得每份樣例都能成為測試集,迭代k次,檢驗完成之后,取k次的均值就能得出分類器具體的性能,這種檢驗方法又稱之為k折交叉檢驗。機器學習是一種泛化計算AFewUsefulThingstoKnowAboutMachineLearning02
將泛化作為目標帶來的另外一個重要結果是,僅有數據還不夠,無論你有多少。
每個學習器都必須包含一些數據之外的領域專業(yè)知識或假設(assumption),才能夠將數據泛化。在真實世界中,我們要學習的函數并非均勻地來自所有可能的函數!實際上,一些非常泛泛的假設——比如平滑(smoothness),相似的樣例有相似的類別,有限依賴,或者有限復雜度——通常足夠起很大作用,這也是機器學習能夠如此成功的重要原因。
機器學習不是魔術,它無法憑空變出東西。它所做的是由少變多。編程就像所有的工程技術那樣,意味著大量的工作,必須從頭開始建造一切。而機器學習更像是種田,它讓大自然做大部分工作。農夫將種子與肥料混合種出莊稼。學習器將知識和數據結合“種出”程序。僅僅靠數據是不夠的AFewUsefulThingstoKnowAboutMachineLearning03一般來說學習機通過訓練集,訓練處分類器,將訓練集和測試集同時利用分類器進行分類,如果訓練集準確率要遠遠高于測試集準確率,則可以稱之為過擬合。
在機器學習中的誤差分為方差和偏差,方差是由于學習機過度學習了一些關聯(lián)性不大的特征,導致的誤差,而偏差是學習機沒有充分學習關聯(lián)性大的特征產生的誤差。通常,一個強錯誤假設比那些弱正確假設更好,這是因為后者需要更多的數據才能避免過擬合。
過擬合的解決方法:交叉檢驗法,另一個是代價函數增加一個正則化項。代價函數,是由真實值與預測值之間的誤差平方和組成的一個十字,在這個式子中添加一個正則化項,通過不斷地調整正則化項,可以適當地減少誤差。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04Regression算法:
梯度下降法求解Regression算法最佳擬合參數:
。
過擬合的多種形式AFewUsefulThingstoKnowAboutMachineLearning04正則化后的Regression算法:
維數災難是目前機器學習面臨的困難之一,機器學習算法無論是預測還是分類,他的準確性很大程度上依賴特征的選擇,所以很多人為了能訓練出更好的分類器同時面對越來越高的需求,不斷提取更多的特征值來進行訓練,這樣樣例的維度就會上升,整個系統(tǒng)學習難度會上升,泛化能力直線下降,反而不能取得太好的效果
。
人類的大腦思維模式局限于三維,面對更高緯度的時候很難去想象一個算法在高緯度中運作原理。在二維或三維空間構建分類器很簡單,我們可以僅通過肉眼觀察發(fā)現不同類別樣例的分界線,再往上映射到高緯度,人類的大腦將很難理解這樣的現象。
解決維數災難的常用降維方法:PCA人類直覺不適用于高維度AFewUsefulThingstoKnowAboutMachineLearning05
人類直覺不適用于高維度AFewUsefulThingstoKnowAboutMachineLearning05第一步先求出特征的平均值,然后對于所有的樣例,都減去對應的均值
。第二步,求特征協(xié)方差矩陣。第三步,求協(xié)方差的特征值和特征向量。第四步,將特征值按照從大到小的順序排序,選擇其中最大的k個,然后將其對應的k個特征向量分別作為列向量組成特征向量矩陣。
第五步,將樣本點投影到選取的特征向量上。假設樣例數為m,特征數為n,減去均值
后的樣本矩陣,協(xié)方差矩陣是n*n,選取的k個特征向量組成的矩陣。
機器學習論文充滿了理論保證。最常見的類型是能保證泛化所需樣例數目的邊界(bound)。對于分類任務來說,會存在一個分類邊界,由學習機來訓練得到,這個邊界劃分了數據集,邊界的意思是,給定一個足夠大的訓練集,告訴你在很大的概率上你的學習機會返回一個成功泛化的假設,還是無法找到一個保持正確的假設。這個邊界也無法告訴我們如何選擇好的假設空間。它只能告訴我們,如果這個假設空間包含真實分類器,那么學習器輸出一個壞分類器的概率隨著訓練數據規(guī)模的增長而降低,如果我們縮小假設空間,邊界就會得到改善,但是空間包含真實分類器的幾率也降低了。
機器學習中理論保證的主要作用并不是在實踐中作為決策的標準,而是在算法設計中作為理解和驅動的來源。在這方面,它們作用巨大;實際上,理論與實踐的緊密結合是機器學習在過去幾年中取得重大進展的重要原因。但是使用者需要謹慎:學習是一個復雜現象,因為一個學習器既有理論證明又有實際應用,而前者并未成為后者的依據。理論保證與看上去的不一樣AFewUsefulThingstoKnowAboutMachineLearning06有的機器學習項目成功了而有的則失敗了,其中最重要的一個原因在于特征值的選取,如果你有很多類似非常相關的獨立特征,那么學習機學習將會很容易,準確率很高。但是,如果是一些原始數據,學習機就很難從中選擇有用的信息進行學習,學習難度會提高很多。所以最原始的數據是不能學習的,必須構建出可以學習的特征。
對數據的收集,整合,清理和預處理是非常耗時的事情。特征工程則會比這些更難,特征工程還需要涉及到相關的領域知識,不同領域規(guī)則不一樣,而學習機則是通用的,一個比較成功的學習機往往能融入了領域知識。
機器學習的一個終極目標就是將特征工程過程越來越多地自動化,經常采用的一種方式是先自動產生大量的候選特征,然后根據它們與分類類別的信息增益等方法來選取最好的特征。特征工程是關鍵AFewUsefulThingstoKnowAboutMachineLearning07
設計一個好算法,還是收集更多數據?很多機器學習研究人員更傾向選擇前者,但是從實用性來看,收集更多的數據往往更簡單。作為一條經驗,大量數據的笨算法,要勝過數據較少的聰明算法。
計算機資源中,時間和存儲空間都是有限的。在機器學習中,還有數據集。數據越多,那么學習機經過不斷地學習,得到的分類器能力就越強。學習機可以分為兩大類:一類的表示是大小不變的,比如線性分類器;另一類的表示會隨著數據而增長,比如決策樹。對于大小不變的學習機來說,數據超過一定數量之后就不再獲益。對于大小可變的學習機,如果有充足的的數據,就可以一直變得更好,這個時候會被計算機中時間和存儲空間資源所限制。所以只要那些充分利用已有數據的算法,往往能取得不錯的效果。因為任何知識都要么可以編碼進學習機,要么可以從數據中學習得到,所以機器學習項目通常會有學習機設計這一部分,機器學習的使用者也要擁有部分領域知識。
最大的瓶頸既不是數據,也不是
CPU速度,而是人力。更多數據勝過聰明算法AFewUsefulThingstoKnowAboutMachineLearning08
早期的學習機,人們花費大量的精力來嘗試他的各種變化,從中選取最好的。后來系統(tǒng)的實驗表明在不同應用上,最佳學習機表現并不一樣,因此為了使系統(tǒng)能更廣泛得到使用,出現了很多學習機集成的系統(tǒng)。后來人們注意到,如果將多個一般效果的學習機結合,會比最好的那一個學習機得到的結果更令人滿意。
模型集成與貝葉斯模型平均不一樣。相比于貝葉斯模型,集成方法改變了假設空間(例如從單獨的決策樹變成了決策樹的線性組合),而且可以采用多種多樣的形式。已經成為了機器學習工具的重要成分。
常見的元算法:bagging(基于數據隨機抽樣的分類器構建方法),隨機森林(更先進的bagging),boosting,AdaBoost(boosting中最流行的版本)學習更多模型AFewUsefulThingstoKnowAboutMachineLearning09
在機器學習中有這樣的結論:對于有相同訓練誤差的兩個分類器,比較簡單的那個更可能有較低的測試誤差。但是很多反例證明了這個結論并不是完全正確的。
我們前面已經看到了一個反例:模集成型。集成模型的泛化誤差會一直隨著增加新的分類器而改進,甚至可以優(yōu)于訓練誤差。另一個反例是支持向量機,它實際上可以有無限個參數而不至于過擬合。
很多人都用準確(accuracy)和簡單(simplicity)之間權衡來證明那個結論,那就變成循環(huán)論證了——我們將所偏好的假設設計得更加簡單,而如果結果是準確的是因為我們的偏好是準確的,而不是因為這些假設在我們選擇的表示方法中是“簡單的”。根據著名的著名的奧坎姆剃刀原理稱:若無必要,勿增實體,在面對這樣的問題時,我們可以得出這樣的結論:應當先選擇簡單假設,這是因為簡單本身就是一個優(yōu)點,而不是因為所假設的與準確率有什么聯(lián)系。簡單并不意味著準確AFewUsefulThingstoKnowAboutMachineLearning10
僅僅因為一個實際問題可以被表示,并不意
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 施工員夜晚考試題及答案
- 食品貯藏原理試題及答案
- 山東安全員b證考試試題及答案
- 甘肅省武威第十七中學、武威第四中學2024-2025學年八年級上學期期末地理試卷(含答案)
- 輔警崗前培訓課件
- 語言教學活動的培訓課件
- 2026年深圳中考語文答題技巧特訓試卷(附答案可下載)
- 小兒肺炎的藥物治療與護理配合
- 浮力概念題目及答案
- 2026年深圳中考數學核心素養(yǎng)檢測試卷(附答案可下載)
- 天津市重點名校2026屆高一數學第一學期期末統(tǒng)考試題含解析
- 工程車輛銷售合同范本
- 項目施工策劃培訓課件
- 腹壁切口疝教學課件
- 睡眠監(jiān)測基礎知識
- 2025寧德時代新能源科技股份有限公司招聘備考題庫及答案詳解(新)
- GB/T 31897.1-2025燈具性能第1部分:一般要求
- DL-T-5728-2016水電水利工程控制性灌漿施工規(guī)范
- 鋼管支架貝雷梁拆除施工方案
- JJG 365-2008電化學氧測定儀
- 公共視頻監(jiān)控系統(tǒng)運營維護要求
評論
0/150
提交評論