機(jī)器學(xué)習(xí)(Python版) 課件 chap1-微視頻-1.3-機(jī)器學(xué)習(xí)的由來_第1頁
機(jī)器學(xué)習(xí)(Python版) 課件 chap1-微視頻-1.3-機(jī)器學(xué)習(xí)的由來_第2頁
機(jī)器學(xué)習(xí)(Python版) 課件 chap1-微視頻-1.3-機(jī)器學(xué)習(xí)的由來_第3頁
機(jī)器學(xué)習(xí)(Python版) 課件 chap1-微視頻-1.3-機(jī)器學(xué)習(xí)的由來_第4頁
機(jī)器學(xué)習(xí)(Python版) 課件 chap1-微視頻-1.3-機(jī)器學(xué)習(xí)的由來_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

微課視頻:機(jī)器學(xué)習(xí)的由來教材《機(jī)器學(xué)習(xí)(Python版)》ML第1個(gè)AI程序ML圖1:電視節(jié)目中,ArthurSamuel在IBM701上向公眾展示計(jì)算機(jī)“跳棋”1956年2月24日機(jī)器學(xué)習(xí)的誕生ML010203041949年,塞謬爾就有了開發(fā)跳棋程序的設(shè)想跳棋相對(duì)簡(jiǎn)單1952年首次為IBM701編寫跳棋程序1955年完成了具有良好棋藝技巧的第一個(gè)程序1956年2月24日,塞繆爾的“跳棋”節(jié)目在電視上向公眾展示和播放05幾個(gè)月后,達(dá)特茅斯研討會(huì)召開,下棋成為了熱門話題在策略上又有一定的深度在研發(fā)跳棋程序過程中,塞謬爾首次提出ML的概念機(jī)器學(xué)習(xí)的概念ML塞謬爾發(fā)明了機(jī)器學(xué)習(xí)這個(gè)詞,將其定義為:不顯式編程地賦予計(jì)算機(jī)能力的研究領(lǐng)域1959年,塞謬爾發(fā)表論文“Somestudiesinmachinelearningusingthegameofcheckers”計(jì)算機(jī)能夠?qū)W習(xí)下跳棋,而且比寫這個(gè)學(xué)習(xí)程序的人下得更好只需要8個(gè)或10個(gè)小時(shí)的自我對(duì)弈,計(jì)算機(jī)就能做到1962年,塞繆爾跳棋在與自己進(jìn)行了數(shù)千場(chǎng)對(duì)弈以提高其技能后,擊敗了自稱“跳棋大師”的羅伯特·尼利,在當(dāng)時(shí)引起轟動(dòng)!MLMLML塞繆爾跳棋采用的是強(qiáng)化學(xué)習(xí)ML塞謬爾為他的跳棋設(shè)計(jì)的學(xué)習(xí)方法,叫做“時(shí)間差分學(xué)習(xí)”方法。從今天機(jī)器學(xué)習(xí)的分類來看,是屬于強(qiáng)化學(xué)習(xí)。關(guān)注的是與環(huán)境的互動(dòng):采取行動(dòng),從環(huán)境得到反饋,然后逐步改進(jìn)行動(dòng)策略。跳棋程序在下棋的過程中,棋手走的每一步棋存在“好壞”之分,如果下得好,是一步好棋;下得不好,則是一步臭棋。價(jià)值函數(shù)給每一步行動(dòng)后的狀態(tài)賦值,相當(dāng)于環(huán)境給出了一個(gè)明確的反饋,是好還是壞?“好壞”程度如何?然后,機(jī)器再根據(jù)反饋來更新它的價(jià)值函數(shù)。時(shí)間差分學(xué)習(xí)的關(guān)鍵見解是:既使沒有關(guān)于最終結(jié)果的知識(shí)(棋還沒下完),狀態(tài)的價(jià)值可以根據(jù)后續(xù)狀態(tài)的價(jià)值來進(jìn)行更新。ML塞繆爾的時(shí)間差分學(xué)習(xí)ML學(xué)習(xí)過程中,塞繆爾跳棋程序會(huì)從隨機(jī)位置開始,自我對(duì)戰(zhàn)多局。每一步,程序都會(huì)選擇能夠最大化獲勝機(jī)會(huì)的走步,并根據(jù)當(dāng)前狀態(tài)的價(jià)值函數(shù)進(jìn)行決策。隨著游戲的進(jìn)行,該程序會(huì)使用一個(gè)公式來更新狀態(tài)價(jià)值函數(shù),這個(gè)更新被稱為時(shí)間差分,因?yàn)樗鼫y(cè)量了當(dāng)前狀態(tài)的價(jià)值估計(jì)和下一個(gè)狀態(tài)的價(jià)值估計(jì)之間的差異。通過反復(fù)進(jìn)行這個(gè)過程,并不斷更新狀態(tài)的價(jià)值函數(shù),程序逐漸改善了其下棋能力。ML這是人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的一項(xiàng)重大成就。為強(qiáng)化學(xué)習(xí)領(lǐng)域帶來了重要的突破,得到了極其廣泛的應(yīng)用。也對(duì)現(xiàn)代機(jī)器學(xué)習(xí)產(chǎn)生了深遠(yuǎn)的影響。ML塞繆爾的巨大貢獻(xiàn)及其為人ML塞謬爾是一位典型的謙虛低調(diào)、埋頭苦干的學(xué)者,客觀務(wù)實(shí)且樂于助人,特別是在他了解并擅長(zhǎng)的許多領(lǐng)域,盡其所能地幫助其他人。1966年,塞謬爾自IBM退休并成為斯坦福大學(xué)教授,之后他在斯坦福擔(dān)任教職直至1990年因帕金森氏癥并發(fā)癥而去世。在斯坦福時(shí)他繼續(xù)研究西洋跳棋,直到70年代時(shí)他的跳棋程序被更先進(jìn)的方法所替代。他也與著名的計(jì)算機(jī)專家高德納發(fā)展TeX計(jì)劃,并為之撰寫了文件。據(jù)說他在88歲生日后依舊在編寫程序。ML塞繆爾跳棋程序還影響到整個(gè)計(jì)算機(jī)科學(xué)的發(fā)展,證實(shí)了計(jì)算機(jī)可以通過學(xué)習(xí)的方式,完成事先沒有顯式編程好的任務(wù)。其非數(shù)值運(yùn)算和邏輯指令設(shè)計(jì)思想極大影響了計(jì)算機(jī)指令集的設(shè)計(jì)。ML游戲是AI研究者的“小白鼠”ML棋類游戲的研究伴隨著AI的進(jìn)步:塞繆爾跳棋程序、亞歷克斯·伯恩斯坦的國(guó)際象棋程序、TD-Gammon西洋雙陸棋程序等。在這些成就的基礎(chǔ)上,IBM研究人員開發(fā)出了足夠復(fù)雜、能與人類專家競(jìng)爭(zhēng)的深藍(lán)(DeepBlue)國(guó)際象棋程序,于1997年成為第一臺(tái)擊敗國(guó)際象棋世界冠軍加里·卡斯帕羅夫的機(jī)器。在當(dāng)時(shí),引起巨大的轟動(dòng)!ML游戲有趣,比現(xiàn)實(shí)問題更簡(jiǎn)化,便于研究。而跳棋、象棋、圍棋這些兩人對(duì)弈的棋類游戲,規(guī)則簡(jiǎn)單且輸贏標(biāo)準(zhǔn)明確,也需要一些細(xì)微的考慮和復(fù)雜的決策,并且很方便測(cè)試計(jì)算機(jī)的計(jì)算能力及智能程度,容易將其與人類進(jìn)行比較。多方面的因素,使得棋類游戲成為了AI研究者的“小白鼠”!ML游戲是AI研究者的“小白鼠”ML棋類游戲的研究伴隨著AI的進(jìn)步:在IBM這些成果的推動(dòng)下,若干公司及眾多學(xué)者的努力下,將近20年后的2016年,谷歌又進(jìn)一步推出了采用深度學(xué)習(xí)的AlphaGo,挑戰(zhàn)并打敗了人類的頂級(jí)圍棋大師李世石,并以4:1的比分得勝。之后,升級(jí)的阿爾法狗又以“Master”的網(wǎng)名約戰(zhàn)中日韓圍棋大師,并取得60局連勝。緊接著,采用深度強(qiáng)化學(xué)習(xí)的AlphaGoZero輕松碾壓AlphaGo。這些計(jì)算機(jī)弈棋的不斷進(jìn)步,將機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí),蒙特卡洛搜索等多種方法集合在一起,大大推動(dòng)了AI進(jìn)步,最終讓它發(fā)展到今天“百花齊放”的狀態(tài)。如今,人工智能已經(jīng)深入到了普通人的生活中。弈棋研究中的突破,也相應(yīng)在AI歷史上豎起了一個(gè)一個(gè)的里程碑。ML極小極大算法(Minimaxing)ML算法思想:對(duì)于兩個(gè)玩家(分別稱為“玩家”和“對(duì)手”)對(duì)弈的游戲,“極小極大”的意思是說,游戲“玩家”應(yīng)該如此行動(dòng),以盡量“減小”(極小化)可能的最壞情形下的“最大”損失(極大化)。這兒所說的“極小“和”極大“,都是針對(duì)”玩家”而言的,而“對(duì)手”的策略,則與玩家的策略相反。說得更為具體一點(diǎn),假設(shè)“玩家”和“對(duì)手”都會(huì)考慮整個(gè)游戲的未來狀態(tài),那么,你的每一步應(yīng)該這樣選擇:既使對(duì)手也總能按照同樣策略來選擇他的最佳回應(yīng),但在比賽結(jié)束時(shí)你仍然可以獲得你能得到的最好結(jié)果,或者說,將最大風(fēng)險(xiǎn)極小化。ML假定對(duì)手和你一樣聰明極小極大算法(以井字棋為例)ML規(guī)則:誰先把三顆棋連成一條線誰就贏圖2:井字棋的部分游戲樹和最后得分應(yīng)對(duì)更復(fù)雜的棋類對(duì)弈游戲ML窮舉不可行,必須對(duì)游戲樹進(jìn)行剪枝:裁剪樹的深度(下完一盤棋的輪數(shù)):棋子位置評(píng)估函數(shù),蒙特卡洛樹搜索裁剪樹的寬度(每一輪的可能走法):alpha-beta裁剪M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論