版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工智能概論9.1目錄CONTENT概述人工智能在博弈中的應用未來發(fā)展趨勢9.29.49.3博弈游戲中的技術規(guī)則智能博弈
博弈是指個人或者組織,在一定的規(guī)則和環(huán)境條件約束下,依靠所掌握的信息,從各自行為或者策略進行選擇到實現(xiàn),并最終取得各自相應結果或收益的過程。博弈的基本要素包括參與人、行為、信息、戰(zhàn)略、支付函數(shù)、結果、均衡。博弈問題體現(xiàn)在人類生活的各個方面,可以說是無處不博弈。例如,商家與消費者之間的買賣博弈;國與國之間的經(jīng)濟、軍事、人才和科技的競爭博弈;體育比賽各個比賽選手之間的博弈。甚至,英國生物學家Darwin“適者生存”的競爭理論都可以歸結為博弈問題。9.1概述智能博弈
游戲是一種娛樂與博弈的結合方式。古希臘偉大哲學家Plato對游戲的定義是一切動物和人的幼子生活和能力跳躍需要,而產(chǎn)生的一種有意識的模擬活動。他的學生Aristotle對游戲的定義是勞作后的休息和消遣,但不帶有任何目的性的一種行為活動。Sony公司的RalphCoster認為游戲是在快樂中學會某種本領的活動。因此,博弈游戲是所有哺乳類動物,特別是靈長類動物學習生存的第一步,是一種基于物質(zhì)需求滿足之后,在一定時間、空間范圍內(nèi)遵循某種特定規(guī)則,以及追求精神滿足的社會行為,很好地體現(xiàn)了休閑和對抗特性。智能博弈
人機博弈則是人類和智能機器設備之間的一種現(xiàn)代博弈形式。人機博弈,顧名思義,就是運用博弈論的知識,賦予計算機等機器設備與人博弈的能力。從20世紀50年代,第一個博弈類計算機程序誕生以來,人機之間的博弈就從未終止,也成為反映人工智能進步的一面鏡子。20世紀60年代初,IBM公司的ArthurSamuel開發(fā)出了第一個能夠“學習”的西洋跳棋程序,并在1963年擊敗了美國Connecticut的跳棋大師RobertNellie。智能博弈在攻克了跳棋的堡壘后,人工智能又給自己樹立了另一個挑戰(zhàn)對象——國際象棋。國際象棋是一種二人對弈的棋類游戲,棋盤為正方形,由64個黑白相間的格子組成,棋子分黑白兩方共32枚,每方各執(zhí)16枚,是一項非常具有智力挑戰(zhàn)的競技運動。1997年,IBM公司設計的DeepBlue計算機擊敗了據(jù)說有著高達200IQ、國際象棋世界冠軍、首屈一指的頂尖大師GarryKasparov。機器將戰(zhàn)勝人類,甚至將取代人類的各種聲音也喧囂一時。智能博弈
圍棋一共361個落子點,每個落子點都可以落白子、黑子和空白三種可能,因此最終棋盤的落子情況有3361種可能局面,大致的體量是10170,而宇宙中的原子數(shù)量約為1080個,所以圍棋的復雜度數(shù)量級遠超宇宙原子數(shù)量。按照當下最厲害的量子計算機發(fā)展水平,大約為每秒1034次,而且能夠達到這個運算級別的計算機全球也就僅有幾臺,就算假設有1萬億臺這樣電腦,一起運算速度也才達到每秒1046,假如運算1萬億年,約為1020秒,運算量也僅能達到約1066,還不到整個圍棋計算量的一半。因此,要想通過窮舉計算法暴力破解圍棋,基本不可能,這也是為什么有人可以斷定計算機不能在圍棋上戰(zhàn)勝人類的原因。智能博弈
2015年,Google旗下Deepmind公司的AlphaGo打敗了歐洲圍棋冠軍樊麾,2016年在對圍棋世界冠軍、韓國棋手李世石九段的“人機大戰(zhàn)”中以4:1告捷,2017年又以3:0戰(zhàn)勝了世界排名第一的圍棋冠軍、中國棋手柯潔九段。AlphaGo相繼戰(zhàn)勝各大圍棋高手,可以說是機器戰(zhàn)勝人類的一大進步,被視為人類在人工智能發(fā)展道路上的又一里程豐碑。智能博弈Deepmind公司的Demis博士開發(fā)了一個可以自己獨立鉆研如何玩電子游戲的程序,這個程序受到人腦運作機理的啟發(fā),已經(jīng)自主學習、掌握了49款Atari公司的經(jīng)典游戲。而且在一半以上的游戲中,它都能贏,甚至超過專業(yè)級的人類玩家方法倫敦TechCrunchDisrupt大會上,TI和人工智能公司Arago開發(fā)了一款“在問題解決過程中模擬人類的記憶和技能”的人工智能程序HIRO,并且在Freeciv游戲中能擊敗約80%的人類玩家。OpenAI就在DOTA2游戲中一對一的規(guī)則下,擊敗了世界頂級玩家。DeepMind開發(fā)的人工智能程序AlphaStar在游戲中橫掃StarCraftⅡ職業(yè)玩家,超越了99.8%的人類玩家,在游戲的人族、神族、蟲族排名中均達到最高的“宗師”級別。智能博弈已經(jīng)有人工智能公司宣布,他們研發(fā)人工智能程序已經(jīng)在游戲里擊敗世界排名前1%的人類玩家了。同時,隨著人工智能被廣泛的應用在電子競技游戲領域,已經(jīng)有王者榮耀、和平精英等多款游戲成功地使用了可擴展的人工智能技術。智能博弈9.2.3Deepblue9.2.59.2.49.2.29.2.1AlphaGoData2ImageNet挑戰(zhàn)賽Robcup大賽智能博弈9.2人工智能在博弈中的應用22歲時,GarryKasparov就成為第十三位國際象棋世界冠軍,是當時世界上最年輕的國際象棋冠軍,曾11次獲得國際象棋奧斯卡獎。在1985年至2006年間曾23次獲得世界排名第一,在1999年7月達到2851國際棋聯(lián)國際等級分,創(chuàng)造了歷史最高紀錄,可以說是國際象棋史上的奇才,被譽為“棋壇巨無霸”,代表著世界象棋的最高水平。智能博弈9.2.1DeepBlue1997年美國IBM公司研制的超級計算機DeepBlue擊敗了Kasparov,如圖9-1所示。后來,Kasparov回憶說:“當我成為國際象棋世界冠軍時,計算機剛剛達到了世界冠軍的水平。這是我的幸運,也是我的不幸”。智能博弈圖9-1Kasparov對戰(zhàn)“DeepBlue”比賽的IBMDeepBlue超級計算機,用了30臺IBMRS/6000工作站,每臺都有一個當時最先進的主頻為120MHzPower2CPU加上16個VLSI國際象棋芯片,所以DeepBlue的計算資源是30個CPU加480個專用芯片,理論搜索速度達到每秒10億個棋局,它能夠在下棋的過程中不斷對局勢進行分析,找到人類棋手在下棋時的弱點。智能博弈DeepBlue大捷后,一場關于機器智能是否已經(jīng)超過人類,機器人是否能夠統(tǒng)治人類的討論在全世界開展起來。雖然,在當時看DeepBlue戰(zhàn)勝Kasparov是一件很轟動的新聞,但是,現(xiàn)在來看DeepBlue只是存儲了一百多年的經(jīng)典棋局,然后憑借其運算速度和海量程序存儲去出棋,而不像人類一樣去思考,因此它并不算擁有真正的智能。但是,這是人類科學技術的進步成果,是人類智力成果戰(zhàn)勝人類自身的一次勝利,也是人工智能技術發(fā)展歷程中一個標志性事件。智能博弈AlphaGo是由Google公司DeepMind團隊研發(fā)的圍棋機器人,是第一個擊敗人類職業(yè)圍棋選手、獲得圍棋世界冠軍的人工智能機器人。2016年1月27日,國際頂尖期刊Nature封面文章報道,AlphaGo在沒有任何讓子的情況下,以5:0完勝歐洲圍棋冠軍、職業(yè)二段選手樊麾。2016年3月,AlphaGo在韓國首爾挑戰(zhàn)世界圍棋冠軍李世石九段,如圖9-2,最終以4:1的總比分勝出。智能博弈9.2.2AlphaGo智能博弈圖9-2AlphaGo對戰(zhàn)李世石2017年5月,AlphaGo在中國烏鎮(zhèn)圍棋峰會上,以3:0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔九段。2016年到2017年,AlphaGo在中國棋類網(wǎng)站上以“Master”為注冊賬號與中、日、韓數(shù)十位圍棋高手進行快棋對決,連續(xù)60局無一敗績。為什么AlphaGo能夠戰(zhàn)勝人類呢?智能博弈第一,AlphaGo的硬件資源非常強大。據(jù)報道他的中央處理器系統(tǒng)由1202到1920個CPU,176個GPU組成。這在當時,可以說是用錢砸出來的,只有Google這樣的少數(shù)公司才有這般實力。第二,AlphaGo擁有著大約15萬職業(yè)棋手和百萬業(yè)余圍棋高手的棋譜。第三,AlphaGo采用了一種最新的特征學習方法——深度卷積神經(jīng)網(wǎng)絡。這種網(wǎng)絡的層數(shù)多,學習和分類的能力強,可以對局部圖像進行卷積計算,而且效率很高。智能博弈第四,AlphaGo具有了自我學習,自我成長的強化能力。強化學習包括感知、行動、獎賞三個環(huán)節(jié),構成一個狀態(tài)轉(zhuǎn)移空間。通常的強化學習的算法訓練只能解決很小的狀態(tài)轉(zhuǎn)移空間,AlphaGo面臨的是一個超大轉(zhuǎn)移空間的問題,同時還是一個帶有超長延時訓練標注的問題。因此,AlphaGo采用深度學習中的深層循環(huán)神經(jīng)網(wǎng)絡,用以解決上述學習問題。AlphaGo采用了與人類學習類似的深度學習、強化學習、蒙特卡洛樹搜索(Montecarlosearchtree,MCTS)的綜合式學習方法架構,再加上大數(shù)據(jù)、云計算、CPU和GPU資源,所以AlphaGo成功的背后是強大的人類智慧、智能的體現(xiàn)。智能博弈2017年10月19日,Google公司DeepMind在國際學術期刊Nature上聲明開發(fā)了擁有4個TPU的新一代AlphaGoZero。不同于AlphoGo家族中前幾代,AlphaGoZero可以從一無所知的空白狀態(tài)學起,在無任何人類輸入的條件下,它就能夠迅速自學圍棋,經(jīng)過3天的訓練便以100:0的戰(zhàn)績擊敗了對戰(zhàn)李世石的AlphoGoLee,經(jīng)過40天的訓練便擊敗了對戰(zhàn)柯潔的AlphoGoMaster。智能博弈“混元初開,天地未分之際,初生世界迎來了一顆如同水晶般透明的星球——癲狂之月,在一個被稱為‘殤月之夜’的晚上,癲狂之月分崩離析,隕落的物質(zhì)碎片在落地以后,逐漸恢復了其最原始的本源力量——兩個遠古智慧:天輝和夜魘?!边@是世界上最受歡迎,同時也最復雜的電子競技游戲DOTA2的開始場景。智能博弈9.2.3DOTA2DOTA2是全球最具有影響力的一款電競MOBA游戲,高峰時最多有近百萬玩家在線玩游戲,在STEAM上也是常年穩(wěn)坐在線玩家人數(shù)排行榜的頭把交椅。而且,DOTA2有當前所有電競游戲中最高獎金池——每年4千萬美元。2017年,在DOTA2國際邀請賽TI7上,OpenAI與當時的人氣選手Dendi進行了一場對決,最終結果是OpenAI戰(zhàn)勝了Dendi。而且,OpenAI沒有任何失誤的卡兵、補刀,兇狠的線上壓制,完美計算收益比的補給操作,讓世界冠軍Dendi頭疼不已、慘敗而歸。智能博弈2018年6月,OpenAI的能力已經(jīng)擴大到完整的五人團隊——OpenAIFive,并且可以擊敗業(yè)余和半職業(yè)玩家的隊伍。在對戰(zhàn)職業(yè)選手的正賽上,OpenAI以碾壓之勢,連勝兩局,整個對戰(zhàn)過程中,人類陣營可謂一敗涂地。這支被OpenAI虐殺的隊伍,天梯積分都在6500以上,天梯排名最低的也只有1000名出頭。2019年4月,OpenAI
Five在DOTA2中以2:0擊敗了世界冠軍團隊OG,顯示出了人工智能的強大威力,也正式宣告人類在DOTA2這種高難度游戲中成為人工智能的手下敗將。智能博弈
根據(jù)報道,OpenAI配置了256個P100GPU和12.8萬個CPU核心,并且采取了結合近端策略優(yōu)化算法。另外,OpenAIFive戰(zhàn)隊,包含了5個智能體,每一個都是包含1024個節(jié)點的單層LSTM,通過機器人程序接口BotAPI掌握游戲狀態(tài),控制英雄去移動、攻擊、施放技能、使用道具。同時,它能夠觀察到自身、隊友和敵人的狀況,比如位置、血量、攻擊力、護甲、攜帶物品等。
相對于象棋、圍棋而言,電子游戲更加能夠反映真實世界的混亂與連續(xù)的本質(zhì)。因此,人工智能在DOTA2這類電子游戲中戰(zhàn)勝人類職業(yè)戰(zhàn)隊,具有相當大的意義。智能博弈ImageNet實際上是一個用于視覺對象識別軟件研究的大型可視化數(shù)據(jù)庫,它擁有超過2.2萬個類別,1500萬張左右被手動標注的圖像,并且至少有100萬張?zhí)峁┝诉吔缈虻膱D像。ImageNet的結構是按照目錄、子目錄、圖片集形成的一個類似金字塔形樹狀網(wǎng)絡,樹干擁有多個分枝,每一個分枝含有至少500個對應物體的可供訓練的圖片、圖像。ImageNet不但是計算機視覺發(fā)展的重要推動者,也是人工智能4.0中深度學習熱潮的關鍵驅(qū)動力之一,有人工智能“世界杯”之稱。智能博弈9.2.4ImageNet挑戰(zhàn)賽2009年,ImageNet數(shù)據(jù)庫還只是以一篇論文“ImageNet:ALarge-ScaleHierarchicalImageDatabase”呈現(xiàn)在美國Florida舉行的計算機視覺與模式識別(ConferenceonComputerVisionandPatternRecognition,CVPR)會議上。2010年,由于各種新算法的應用,圖像處理技術和識別率取得了顯著提高。之后,ImageNet每年舉辦一次進行圖像分類與目標定位、目標檢測、視頻目標檢測、場景分類的競賽,即ImageNet大規(guī)模視覺識別挑戰(zhàn)賽(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)。智能博弈智能博弈2011年,ILSVRC圖像分類錯誤率為26%。2012年,Hinton和他的學生AlexKrizhevsky設計了深度卷積神經(jīng)網(wǎng)絡AlexNet,使ILSVRC分類錯誤率降到了16%,取得了很大的突破,并最終取得冠軍。智能博弈相比于傳統(tǒng)神經(jīng)網(wǎng)絡,AlexNet有以下幾個特點:第一是采用了ReLU作為CNN的傳輸函數(shù),解決了Sigmoid在網(wǎng)絡較深時存在的梯度彌散問題。第二是訓練時使用了Dropout機制,忽略了一部分神經(jīng)元,避免了算法過擬合問題。第三是使用了重疊的最大池化,避免了平均池化的模糊化效果。。智能博弈第四是采用了局部響應歸一化層LRN層,使得響應比較大的值變更大,抑制了反饋較小的神經(jīng)元,這種對局部神經(jīng)元的活動引入競爭機制的方法,有效增強了網(wǎng)絡的泛化能力。第五使用了CUDA加速深度卷積網(wǎng)絡的訓練。利用GPU強大的并行計算能力,處理神經(jīng)網(wǎng)絡訓練時大量的矩陣運算。第六是采用了數(shù)據(jù)增強機制。隨機地從256×256的原始圖像中截取224×224大小的區(qū)域,相當于增加了2×(256-224)2=2048倍的數(shù)據(jù)量??朔藚?shù)過多時網(wǎng)絡陷入過擬合的問題,提升了模型的泛化能力。智能博弈2015年,Microsoft研究院的He-Kaiming、Ren-Shaoqing等人提出了一種殘差學習神經(jīng)網(wǎng)絡(ResidualNeuralNetwork,ResNet),在目標定位比賽中ResNet將上一年25%的錯誤率下降到了9%。ResNet網(wǎng)絡可以直接將輸入信息繞道傳輸?shù)捷敵龆?,即shortcut或skipconnections措施,保護信息的完整性,網(wǎng)絡只需學習輸入、輸出之間的殘差,大大簡化了學習目標和難度,在一定程度上解決了傳統(tǒng)的卷積網(wǎng)絡或者全連接網(wǎng)絡在信息傳遞的時候存在信息丟失、損耗,以及導致梯度消失、梯度爆炸等網(wǎng)絡訓練問題。智能博弈2016年,來自中國的團隊分外奪目,CUImage、Trimps-Soushen、CUvideo、HikVision、SenseCUSceneParsing、NUIST等團隊基本包攬了各個項目的冠軍,如Trimps-Soushen代表隊在目標定位比賽中位列第二,視頻目標檢測和場景分類賽中均位列第四,目標檢測比賽中位列第七,使用額外數(shù)據(jù)的情況下,目標定位任務取得了單項第一。智能博弈2017年,來自中國的360人工智能團隊奪得了最后一屆ImageNet挑戰(zhàn)賽ILSVRC的冠軍。大會發(fā)起人李飛飛在會上表示,ImageNet挑戰(zhàn)賽將與最大的數(shù)據(jù)科學社區(qū)Kaggle結合,認為只有將數(shù)據(jù)做到民主化,才能實現(xiàn)人工智能民主化。ImageNet共舉辦八屆挑戰(zhàn)賽,從最初的算法對物體進行識別的準確率只有71.8%上升到97.3%,識別錯誤率已經(jīng)遠遠低于人類的5.1%,為計算機視覺技術發(fā)展做出了巨大貢獻,也極大地促進了人工智能技術的提高,有人工智能“催化劑”之稱。1993年6月,在日本東京舉辦了一場名為RobotJ-League的機器人足球賽。隨后得到眾多國家研究者的響應,并擴展成國際性項目,機器人世界杯(RobotWorldCup)應運而生,并簡稱為RoboCup。1997年8月,第一屆正式的RoboCup比賽和會議在日本的Nagoya舉行,比賽設立了小型機器人、中型機器人和計算機仿真三個賽組,來自美、歐、日、澳的40多支球隊參賽,觀眾達到5000余人。智能博弈9.2.5Robocup大賽智能博弈目前,RoboCup足球賽分為小型、中型、類人、標準平臺和足球仿真五個賽組。小型組機器人足球是機器人世界杯一項主要賽事,也是最古老的足球聯(lián)賽,主要集中解決多個智能機器人間的協(xié)作,以及在混合集中式、分布式系統(tǒng)下高度動態(tài)環(huán)境中的控制問題。中型組機器人主要集中在直徑小于50厘米的機器人,最多5個機器人上場踢足球。所有傳感器都需安裝在機器人上,且使用無線網(wǎng)絡來進行信息傳輸,旨在提高機器人的自主、合作、認知水平。智能博弈類人組比賽要求使用具有人類相似外觀及感知能力的自主機器人進行足球比賽。類人組的研究問題涉及動態(tài)行走、跑步、場地、自定位以及動態(tài)平衡狀態(tài)下視覺感和通信等。標準平臺組是一個機器人足球組,現(xiàn)在所有的團隊都使用的標準平臺是Aldebaran機器人公司開發(fā)的NAO。但是,機器人的操作完全是自主的,即沒有人為或者計算機的外在控制。2019年,Robocup機器人世界杯正在澳大利亞Sydney舉辦,浙江大學代表隊獲得小型組機器人的冠軍。智能博弈仿真組比賽不需要任何的機器人硬件,其關注的是人工智能和團隊策略。RoboCup比賽也很關注機器人在實際生產(chǎn)、生活中的具體應用,每年會舉辦一些針對某些具體應用的比賽,如機器人救援仿真系統(tǒng)大賽、機器人世界杯工程組大賽、機器人世界杯物流聯(lián)賽,以及針對中小學生的機器人世界杯青少年組大賽等。機器人世界杯物流聯(lián)賽的目標是實現(xiàn)物流領域的科技化,從而通過自主移動的機器人協(xié)調(diào)小組實現(xiàn)物流行業(yè)的智能無人化。機器人的任務是從倉庫中取出原材料,通過機械將它們按照特定的順序移動,并最終傳送到目的地。智能博弈從Robocup機器人足球大賽可以看出近些年足球機器人技術不斷發(fā)展,但全球人形機器人領域面臨的挑戰(zhàn)是硬件的發(fā)展滯后于軟件的發(fā)展。眾所周知,機器人是一個龐大的硬件與軟件結合的智能控制系統(tǒng),機器人的每一個動作都涉及大量的計算,需要有強大的底層硬件系統(tǒng)處理,現(xiàn)階段硬件的發(fā)轉(zhuǎn)速度明顯落后于軟件的開發(fā)。人工智能技術的革新與發(fā)展促使硬件的發(fā)展需要提升到相應水平,擁有穩(wěn)定且強大的硬件是需要突破的下一個瓶頸。因此,距離Robocup機器人最終目標“在2050年實現(xiàn)一支完全自治的人形機器人足球隊,能在遵循國際足聯(lián)正式規(guī)則的比賽中,戰(zhàn)勝最近的人類世界杯冠軍
?!边€相去甚遠,還有很長的一段路要走。
從人機大戰(zhàn)、電子競技、ILSVRC等典型人工智能案例中可以發(fā)現(xiàn),博弈游戲中博弈雙方或者各方參與者,包括博弈游戲的倡導、開發(fā)者,為了達到各自的目的,取得各自相應結果或收益,都會采用一定的技術規(guī)則,也會賦予其一定的特點,而人工智能技術則需要在某些方面強化這些規(guī)則和特點。9.3博弈游戲中的技術規(guī)則智能博弈智能博弈1.有序規(guī)則在博弈游戲設計中,事件的發(fā)展、狀態(tài)的改變應該是按照有序的規(guī)則進行,即具有一定規(guī)則,按序展開。具體來說,博弈游戲中對弈方的狀態(tài)是有限狀態(tài),其推進方式是由某一數(shù)學公式或者模型運算達成的,其發(fā)展趨勢是可預測的。以流行的水果忍者游戲為例,游戲中水果的狀態(tài)是有限狀態(tài),其運行軌跡是由模擬物理運動規(guī)律的計算公式運算而成的,一個香蕉拋起來后會按照拋物線運行,其每一幀位置變化都是一個狀態(tài)的改變,狀態(tài)改變通過計算公式來決定。這種輸入決定輸出、輸出取決于輸入的有序規(guī)則,可以溯源到人工智能技術中的有限狀態(tài)機理論。智能博弈但是,如果博弈游戲的邏輯規(guī)則非常復雜,這種有限狀態(tài)機方法就有一定不足了。如水果忍者中用手隨機在屏幕上“切”了水果,水果感知到這個事件后,會按照程序邏輯進入爆炸狀態(tài)。這種情況下“爆炸”是規(guī)則,但“切”的時間和位置是隨機的,有限狀態(tài)機似乎就心有余而力不足了。此時,可以采用模糊狀態(tài)機等機制來處理。模糊狀態(tài)機是有限狀態(tài)機的一個延伸,會使博弈游戲更加的細致和豐富,相對于有限狀態(tài)機來說可以存儲更多的內(nèi)容狀態(tài),為博弈各方省去更多時間,并且會獲得更好的體驗。智能博弈2.搜索規(guī)則在博弈游戲中,博弈各方需要及時針對各種狀態(tài)做出決策,而決策就需要預測出后一狀態(tài)的各種可能性,其最好方式就是搜索各種可能,并以直觀易懂的方式呈現(xiàn)出來。通常的窮盡搜索一定可以找到游戲的全局最優(yōu)值,但由于對計算資源和硬件水平的苛求,以及暴力搜索的復雜度隨著搜索的深度呈指數(shù)型增長的缺陷,只適用于一些小型博弈游戲,對大型、復雜性、實時性要求比較強的則只能望洋興嘆了。智能搜索是一種結合了人工智能技術的新一代搜索引擎,除了能提供傳統(tǒng)的快速檢索、相關度排序等功能,還能提供用戶角色登記、用戶興趣自動識別、內(nèi)容的語義理解、智能信息化過濾和推送等功能。智能博弈MCTS是一種基于樹數(shù)據(jù)結構、能權衡探索與利用、在搜索空間巨大仍然比較有效的搜索算法。蒙特卡洛樹搜索就是各種智能搜索中最常用的一種。這種樹搜索算法主要包括Selection、Expansion、Simulation和Backpropagation四個步驟:第一步,Selection就是在樹中找到一個最好的節(jié)點,一般策略是先選擇未被探索的子節(jié)點,如果都探索過就選擇上限置信區(qū)間UCB值最大的子節(jié)點。第二步,Expansion就是在選中的子節(jié)點中走一步創(chuàng)建一個新的子節(jié)點,一般策略是隨機選擇一個子節(jié)點并且這個操作不能與前面的子節(jié)點重復。智能博弈第三步,Simulation就是在選出的節(jié)點上開始模擬游戲,直到游戲結束狀態(tài),并計算出這個節(jié)點的得分。第四步,Backpropagation就是把節(jié)點得分反饋到前面所有父節(jié)點中,更新這些節(jié)點的量化值和時間,方便后面計算上限置信區(qū)間UCB值。另外,值得提及的是AlphaGo用的就是MCTS算法。智能博弈3.決策規(guī)則決策規(guī)則就是根據(jù)博弈游戲的可能性,在現(xiàn)有信息和經(jīng)驗的基礎上,借助
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 電網(wǎng)法學面試題庫及答案
- 2026黑龍江哈爾濱啟航勞務派遣有限公司派遣到哈爾濱工業(yè)大學全媒體中心招聘2人備考題庫必考題
- 中共南充市委政策研究室下屬事業(yè)單位2025年公開選調(diào)工作人員的考試備考題庫附答案
- 仙女湖區(qū)2026年公開招聘衛(wèi)生專業(yè)技術人員備考題庫附答案
- 吉安武功山旅游發(fā)展集團有限公司2026年面向社會公開招聘30名安保人員的參考題庫必考題
- 巴中市總工會關于招聘工會社會工作者的巴中市總工會(5人)備考題庫附答案
- 成都信息工程大學2026年上半年考核招聘事業(yè)編制工作人員(86人)備考題庫附答案
- 揭陽市2025年度市直單位公開遴選公務員23人考試備考題庫必考題
- 江西職業(yè)技術大學2026年高層次人才招聘備考題庫必考題
- 浙江國企招聘-2026年臺州市商貿(mào)核心區(qū)開發(fā)建設投資集團有限公司招聘3人備考題庫必考題
- 重慶市2026年高一(上)期末聯(lián)合檢測(康德卷)化學+答案
- 2026年湖南郴州市百??毓杉瘓F有限公司招聘9人備考考試題庫及答案解析
- 綠電直連政策及新能源就近消納項目電價機制分析
- 【四年級】【數(shù)學】【秋季上】期末家長會:數(shù)海引航愛伴成長【課件】
- 辦公樓物業(yè)服務的品質(zhì)提升策略
- 養(yǎng)殖場土地租賃合同
- JBT 8200-2024 煤礦防爆特殊型電源裝置用鉛酸蓄電池(正式版)
- (正式版)SHT 3078-2024 立式圓筒形料倉工程設計規(guī)范
- 計算機就業(yè)能力展示
- 設備維修團隊的協(xié)作與溝通
- 華為三支柱運作之HRBP實踐分享概要課件
評論
0/150
提交評論