版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、,2016.11,機(jī)器學(xué)習(xí),報(bào)告建議內(nèi)容,基本概念,數(shù)學(xué)定義,基本性質(zhì)及其物理意義,具體算法應(yīng)用(用實(shí)例詳細(xì)說明),對該算法和其他類似算法的分析更有可能發(fā)展。參考資料,2,機(jī)器學(xué)習(xí),由TomM。Mitchell,曾華軍,張譯,機(jī)械工業(yè)出版社,2003年參考書,其他工具書,機(jī)器學(xué)習(xí)及其應(yīng)用,王宇主編,清華大學(xué)出版社,2009年。神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí),西蒙海金著,機(jī)械工業(yè)出版社,2010年。機(jī)器學(xué)習(xí)導(dǎo)論,埃塞姆阿爾帕丁著,機(jī)械工業(yè)出版社,2009年。機(jī)器學(xué)習(xí)的概率觀點(diǎn)凱文墨菲,2012,第1章“什么是機(jī)器學(xué)習(xí)”的介紹經(jīng)典定義:計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)的積累和系統(tǒng)的自我改進(jìn)而自動提高其性能的過程?;蛘撸?/p>
2、計(jì)算機(jī)利用經(jīng)驗(yàn)改善系統(tǒng)本身性能的行為。隨著這一領(lǐng)域的發(fā)展,米切爾主要從事智能數(shù)據(jù)分析。學(xué)習(xí)和智力,學(xué)習(xí)現(xiàn)象語言,對單詞、圖像、場景的認(rèn)知識別,對自然物體的認(rèn)知識別規(guī)則(如雨天帶傘)復(fù)雜的推理和判斷能力(智力)好人和壞人?好貓和壞貓?什么是機(jī)器學(xué)習(xí)?使計(jì)算機(jī)具有與人類相同的學(xué)習(xí)能力,如智能給定的數(shù)據(jù)(樣本、例子)和一定的學(xué)習(xí)規(guī)則,從數(shù)據(jù)中獲取知識的能力,機(jī)器學(xué)習(xí)和人工智能,以及自然智慧的偉大和神秘。例如:嬰兒認(rèn)知能力的兩個(gè)重要特征(語音、面部、汽車):容錯(cuò)、普及能力(類推)機(jī)器智能:我希望用機(jī)器來實(shí)現(xiàn)一些基于數(shù)據(jù)的智能機(jī)器學(xué)習(xí)問題(引自清華大學(xué)張教授),并根據(jù)已知樣本來估計(jì)數(shù)據(jù)之間的相關(guān)性,從而
3、預(yù)測和判斷未知或不可測的數(shù)據(jù)。關(guān)鍵詞:普及能力,什么是機(jī)器學(xué)習(xí),中國科學(xué)院王玨研究員給出的定義:讓W(xué)成為給定世界中的一組有限或無限的觀察對象。因?yàn)槲覀冇邢薜挠^察能力,我們只能獲得這個(gè)世界的一個(gè)子集。機(jī)器學(xué)習(xí)就是根據(jù)這個(gè)樣本集來計(jì)算世界W的模型,并使它盡可能真實(shí)地呈現(xiàn)給世界。三個(gè)重要的理論問題:一致性:W和Q具有相同的性質(zhì)。例如,智能識別師:讓樣本在三維空間中定義,并在這個(gè)空間中尋找決策接口的泛化能力:判斷未知樣本的能力,什么是學(xué)習(xí)問題?learning=在某項(xiàng)任務(wù)上隨著經(jīng)驗(yàn)的增加而提高相對于任務(wù)t而言在性能測量方面有所提高p基于經(jīng)驗(yàn)e示例:中國象象棋任務(wù)t:下中國象棋性能目標(biāo)p:在游戲中擊敗對
4、手(百分比)訓(xùn)練經(jīng)驗(yàn)e:與自己下棋,或閱讀國際象棋比分,參考:機(jī)器學(xué)習(xí)(由曾華軍等翻譯。),佩德羅對學(xué)習(xí)的理解,機(jī)器學(xué)習(xí),摘引自CMU埃里克邢博士的課堂講稿,機(jī)器學(xué)習(xí)的研究意義,以及機(jī)器學(xué)習(xí)的重要性!科學(xué)2001:每個(gè)科學(xué)領(lǐng)域的科學(xué)過程都有其自身的特點(diǎn),但是觀察、假設(shè)創(chuàng)造、根據(jù)決定性實(shí)驗(yàn)的檢驗(yàn)或觀察和可理解性檢驗(yàn)的模型或理論是所有學(xué)科共有的。對于這個(gè)抽象科學(xué)過程的每個(gè)環(huán)節(jié),機(jī)器學(xué)習(xí)都有相應(yīng)的發(fā)展。我們相信,它將導(dǎo)致科學(xué)方法中從假設(shè)生成、模型構(gòu)建到?jīng)Q定性實(shí)驗(yàn)的所有環(huán)節(jié)的適當(dāng)和部分自動化。目前,機(jī)器學(xué)習(xí)研究在一些基礎(chǔ)課題上取得了令人印象深刻的進(jìn)展,我們預(yù)計(jì)機(jī)器學(xué)習(xí)研究將在未來幾年取得穩(wěn)步進(jìn)展!早些
5、時(shí)候,在2000年,科學(xué)還發(fā)表了另外三篇關(guān)于最大似然法的論文,“感知器的多種方法”和“非線性降維的全局幾何框架”“局部非線性降維”, mjolness,d decoste,machine learning for science : state of art and future prospects-science,2001 : 2051-2055。受到了驚人的關(guān)注!機(jī)器學(xué)習(xí)的重要性,摘錄自南京大學(xué)周志華教授,生物信息學(xué),計(jì)算金融,分子生物學(xué),行星地質(zhì)學(xué),工業(yè)過程控制,機(jī)器人學(xué),遙感信息處理,信息安全,機(jī)器學(xué)習(xí),多學(xué)科交叉,機(jī)器學(xué)習(xí)也是多學(xué)科交叉的產(chǎn)物,它吸收了人工智能,概率統(tǒng)計(jì)和神經(jīng)。實(shí)踐證
6、明,機(jī)器學(xué)習(xí)在許多應(yīng)用領(lǐng)域都發(fā)揮了重要的實(shí)用價(jià)值,特別是在數(shù)據(jù)挖掘,語音識別,圖像處理,機(jī)器人,車輛自動駕駛,生物信息學(xué),信息安全,遙感信息處理,計(jì)算金融和工業(yè)過程控制。重要性:例如網(wǎng)絡(luò)安全,入侵檢測:它是入侵嗎?什么樣的入侵?如何檢測?歷史數(shù)據(jù):過去的正常訪問模式及其表現(xiàn)形式,過去的入侵模式及其表現(xiàn)形式對當(dāng)前的訪問模式進(jìn)行分類,這是一個(gè)典型的預(yù)測機(jī)器學(xué)習(xí)問題。常用技術(shù):神經(jīng)網(wǎng)絡(luò)決策樹支持向量機(jī)K近鄰序列分析聚類,搜索引擎,來自南京大學(xué)周志華教授,重要性:實(shí)例生物信息學(xué),常用技術(shù):神經(jīng)網(wǎng)絡(luò)支持向量機(jī)隱馬爾可夫模型K近鄰決策樹序列分析聚類,重要性:實(shí)例數(shù)據(jù)驅(qū)動控制,相關(guān)學(xué)科對ML的影響, 人工智
7、能:學(xué)習(xí)概念的符號表示貝葉斯方法統(tǒng)計(jì)學(xué):統(tǒng)計(jì)學(xué)習(xí)理論(SLT)計(jì)算復(fù)雜性理論控制論信息論:最小描述長度哲學(xué):“奧卡姆剃刀原理”,“沒有免費(fèi)午餐”心理學(xué)和神經(jīng)生物學(xué):神經(jīng)網(wǎng)絡(luò),目前機(jī)器學(xué)習(xí)的主要研究領(lǐng)域,符號機(jī)器學(xué)習(xí)如決策樹,ID3,計(jì)算學(xué)習(xí)理論(統(tǒng)計(jì)學(xué)習(xí)理論)PAC,SVM監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)聚類機(jī)器學(xué)習(xí)集成學(xué)習(xí),Boosting流形學(xué)習(xí)強(qiáng)化學(xué)習(xí)排名學(xué)習(xí)聚類學(xué)習(xí), 機(jī)器學(xué)習(xí)主題來自維基百科,/wiki/machine學(xué)習(xí),機(jī)器學(xué)習(xí)發(fā)展簡史回顧,最大似然發(fā)展歷史(1),20世紀(jì)50年代:神經(jīng)科學(xué)的理論基礎(chǔ)詹姆斯發(fā)現(xiàn)神經(jīng)元是相互聯(lián)系的。 麥卡
8、倫假設(shè)的一般到特殊的偏序結(jié)構(gòu)可以在任何概念學(xué)習(xí)問題中定義,這便于搜索假設(shè)空間;Find-S算法采用一般到特殊的順序,對偏序結(jié)構(gòu)的一個(gè)分支進(jìn)行一般到特殊的搜索,找到與樣本最一致的特殊假設(shè);候選消除算法使用從一般到特殊的順序,通過漸近計(jì)算最大特殊假設(shè)集和最大一般假設(shè)集來尋找變量空間。候選消除算法缺乏魯棒性,并且一些學(xué)習(xí)算法將在后面描述,這些算法可以處理有噪聲的數(shù)據(jù)和目標(biāo)概念不能在假設(shè)空間中表達(dá)的情況。歸納學(xué)習(xí)算法隱含歸納偏差,而候選消除算法的偏差在于目標(biāo)概念可以在假設(shè)空間中找到。輸出假設(shè)和新例子的分類可以從歸納偏差和訓(xùn)練例子中推導(dǎo)出來。2-1。解釋為什么快樂報(bào)告學(xué)習(xí)任務(wù)的假設(shè)空間的大小是973。如
9、果您添加一個(gè)屬性“水流”,其值為“輕”、“中等”和“強(qiáng)”,那么可能的實(shí)例和假設(shè)的數(shù)量會增加多少?概括來說,增加一個(gè)新的屬性A,有K個(gè)值,會增加多少個(gè)實(shí)例和假設(shè)?2-2在候選消除算法中,如果訓(xùn)練樣本出現(xiàn)的順序與享受端口示例相反,請逐步給出S和G邊界集。嘗試對訓(xùn)練樣本進(jìn)行排序,以便在“享受端口”示例中所有s和g集合的中間結(jié)果之和最小。是,更改,冷,強(qiáng),高,暖,晴,4,否,更改,暖,強(qiáng),高,冷,多雨,3,是,相同,暖,強(qiáng),高,暖,晴,2,是,相同,暖,強(qiáng),正常,暖,晴,1,享受運(yùn)動,預(yù)報(bào),水,風(fēng),濕度,氣溫,天空,示例,思考考試問題,2-3實(shí)現(xiàn)查找-S算法和候選人排除算法。驗(yàn)證它是否能夠成功地產(chǎn)生享
10、受端口示例中每個(gè)步驟的結(jié)果。第三章,決策樹算法,共有145人參加了ICDM 2006小組,投票選出了18個(gè)候選算法,并選擇了10個(gè)算法進(jìn)行機(jī)器學(xué)習(xí)。算法投票結(jié)果在2006年ICDM會議上,一般介紹,決策樹學(xué)習(xí)是最廣泛使用的歸納推理算法之一。這是一種逼近離散值函數(shù)的方法。它具有良好的魯棒性。它可以學(xué)習(xí)析取表達(dá)式ID3,助手,C4.5,并搜索假設(shè)空間的完整表示。歸納偏見是首選選擇一個(gè)較小的樹。決策樹表示多個(gè)假設(shè)規(guī)則,提出大綱,決策樹定義適用于問題特征。基本ID3算法。決策樹學(xué)習(xí)的歸納偏差訓(xùn)練數(shù)據(jù)過擬合。決策樹的基本概念。關(guān)于分類問題,分類任務(wù)是通過學(xué)習(xí)獲得目標(biāo)函數(shù),并將每個(gè)屬性集x映射到預(yù)定義的類
11、標(biāo)簽y。分類任務(wù)的輸入數(shù)據(jù)是記錄的集合,每個(gè)記錄也稱為實(shí)例或樣本。它由元組(X,y)表示,其中X是屬性集,y是特殊屬性。它指出樣本的類別標(biāo)簽(也稱分類屬性或目標(biāo)屬性)、決策樹的基本概念、分類問題、X、Y、分類和回歸,分類目標(biāo)屬性Y是離散的,回歸目標(biāo)屬性Y是連續(xù)的,決策樹的基本概念、解決分類問題的一般方法,通過上述2。預(yù)測應(yīng)用(推理)根據(jù)建立的分類模型測試測試集。決策樹的基本概念、解決分類問題的一般方法、學(xué)習(xí)算法、學(xué)習(xí)模型、模型、應(yīng)用模型、訓(xùn)練集(類標(biāo)簽已知)、測試集(類標(biāo)簽未知)、歸納、推理、決策樹表示。內(nèi)部節(jié)點(diǎn)(包括根節(jié)點(diǎn))指定實(shí)例屬性的測試節(jié)點(diǎn)的每個(gè)后續(xù)分支對應(yīng)于屬性的可能值。葉節(jié)點(diǎn)是實(shí)例
12、所屬的分類決策樹的析取,表示實(shí)例的屬性值約束的結(jié)合。決策樹學(xué)習(xí)的適用性,應(yīng)用問題的典型例子用“屬性值”對表示。目標(biāo)函數(shù)具有離散的輸出值??赡苄枰崛〉拿枋?。訓(xùn)練數(shù)據(jù)可能包含錯(cuò)誤的訓(xùn)練數(shù)據(jù)。缺少屬性值的問題示例。醫(yī)療應(yīng)用示例(如根據(jù)疾病對患者進(jìn)行分類、根據(jù)原因?qū)υO(shè)備故障進(jìn)行分類(故障診斷)根據(jù)違約支付的可能性對貸款應(yīng)用進(jìn)行分類核心任務(wù)是將樣本分類為與可能的離散值相對應(yīng)的類別?;緵Q策樹學(xué)習(xí)算法ID3(大部分是核心算法的變體)使用自頂向下的貪婪搜索來遍歷可能的決策樹空間ID3,這是該算法的代表。ID3算法通過從上到下構(gòu)建決策樹來學(xué)習(xí)。ID3算法的核心問題是在樹的每個(gè)節(jié)點(diǎn)選擇要測試的屬性。,選擇根節(jié)
13、點(diǎn)使用統(tǒng)計(jì)測試來確定每個(gè)實(shí)例屬性獨(dú)立地對訓(xùn)練樣本進(jìn)行分類的能力,并且選擇具有最佳分類能力的屬性作為樹的根節(jié)點(diǎn)來為根節(jié)點(diǎn)屬性的每個(gè)可能值生成分支,并且將訓(xùn)練樣本安排到適當(dāng)?shù)姆种碇貜?fù)上述過程,并且使用與每個(gè)分支節(jié)點(diǎn)相關(guān)聯(lián)的訓(xùn)練樣本來選擇此時(shí)測試的最佳屬性,直到滿足以下兩個(gè)條件中的任何一個(gè)。1)該路徑已包含所有屬性;2)與該節(jié)點(diǎn)關(guān)聯(lián)的所有訓(xùn)練樣本具有相同的目標(biāo)屬性值。表3-1用于學(xué)習(xí)布爾函數(shù)的ID3算法。ID3(示例,目標(biāo)屬性,屬性)創(chuàng)建樹的根節(jié)點(diǎn)。如果所有示例都是正數(shù),則返回標(biāo)簽為=的單節(jié)點(diǎn)樹根。如果所有示例都為負(fù),則返回標(biāo)簽為=-的單節(jié)點(diǎn)樹根。如果屬性為空,則返回單節(jié)點(diǎn)樹根。標(biāo)簽=示例中最常見
14、的目標(biāo)屬性值。否則,啟動屬性根的決策屬性A,該屬性根具有對屬性中的示例進(jìn)行分類的最佳能力。對于每個(gè)可能的值vi,增加一個(gè)新的分支,對應(yīng)測試A=vi。標(biāo)簽=范例如果范例是空的,并且節(jié)點(diǎn)的標(biāo)簽是范例中最常見的目標(biāo)屬性值,則在這個(gè)新分支下添加一個(gè)葉節(jié)點(diǎn);否則,在新分支下添加一個(gè)子樹ID3(示例VI,target _ attribute,attributes-a),并返回到根,即最佳分類屬性。信息增益用于衡量給定屬性區(qū)分訓(xùn)練樣本的能力。ID3算法在生長樹的每一步使用信息增益從候選屬性中選擇屬性,并通過熵來測量樣本的均勻性。給定一個(gè)包含關(guān)于某個(gè)目標(biāo)概念的正樣本和負(fù)樣本的樣本集,相對于這種布爾分類的樣本集的熵是信息論中熵的一種解釋。熵決定了要編碼的集合中任何成員分類所需的最小二進(jìn)制數(shù)。更一般地,如果目標(biāo)屬性具有c個(gè)不同的值,那么相對于c狀態(tài)的分類,s的熵被定義為熵(s)=1,s的所有成員屬于同一個(gè)類,并且熵(s)=0;s的正負(fù)例數(shù)相等,熵(s)=1;S的正負(fù)例數(shù)不同,熵在0到1之間。扔一枚統(tǒng)一硬幣的信息熵是多少?解決方案:正面和負(fù)面的概率都是0。5.信息熵是指用信息增益來衡量期望熵,以減
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年北礦檢測技術(shù)股份有限公司招聘備考題庫有答案詳解
- 2026年建華區(qū)消防大隊(duì)政府專職消防員招聘備考題庫完整答案詳解
- 2026年華潤雪花啤酒(中國)有限公司招聘備考題庫及1套參考答案詳解
- 2026年吉林省路橋工程(集團(tuán))有限公司西南地區(qū)項(xiàng)目部勞務(wù)派遣人員招聘13人備考題庫及答案詳解參考
- 2026年中山大學(xué)深圳附屬教育集團(tuán)招聘購買服務(wù)教師備考題庫附答案詳解
- 2026年中材鋰膜有限公司招聘備考題庫及1套參考答案詳解
- 2026年上海外國語大學(xué)海外合作學(xué)院派遣制日語教師招聘備考題庫含答案詳解
- 2026年中國五環(huán)工程有限公司校園招聘備考題庫及答案詳解1套
- 2026年北京師范大學(xué)新聞傳播學(xué)院吳喬飛課題組科研助理招聘備考題庫及一套答案詳解
- 2026年云南昆華醫(yī)院投資管理有限公司(云南新昆華醫(yī)院)招聘備考題庫參考答案詳解
- 班組長管理技巧及方法
- 2025年骨干教師考試試題(含答案)
- 2025年上海市事業(yè)單位招聘考試教師招聘體育學(xué)科專業(yè)知識試卷(綜合)
- 普貨運(yùn)輸安全培訓(xùn)內(nèi)容課件
- 2025年統(tǒng)計(jì)學(xué)多元統(tǒng)計(jì)分析期末考試題庫:多元統(tǒng)計(jì)分析在醫(yī)學(xué)研究中的實(shí)證研究試題
- 2025至2030年中國搜索引擎消費(fèi)市場全面調(diào)研及行業(yè)投資潛力預(yù)測報(bào)告
- 2026版高中漢水丑生生物-第四章第1節(jié)人類活動對生態(tài)環(huán)境的影響
- 2025年龍江森工面試題及答案
- 物業(yè)安全經(jīng)理崗位面試問題及答案
- 訴訟方案意見書
- 大學(xué)生智慧健康養(yǎng)老職業(yè)規(guī)劃
評論
0/150
提交評論