版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第九章智能博弈9.智能博弈2025年10月20日9.1博弈論基礎(chǔ)9.2博弈問題的復(fù)雜度9.3智能博弈策略求解技術(shù)9.4智能博弈應(yīng)用及經(jīng)典案例9.3智能博弈策略求解技術(shù)
2025年10月20日經(jīng)典的博弈論難以解決高復(fù)雜度的博弈問題,隨著人工智能的快速發(fā)展,智能博弈應(yīng)運(yùn)而生。智能博弈(IntelligentGame),又稱計(jì)算機(jī)博弈、機(jī)器博弈,是指利用人工智能領(lǐng)域的搜索和學(xué)習(xí)技術(shù)替代傳統(tǒng)數(shù)值優(yōu)化計(jì)算,來實(shí)現(xiàn)高復(fù)雜度博弈問題的快速求解。智能博弈的熱潮由棋類游戲掀起,逐步擴(kuò)展到競技類游戲以及各類兵棋推演等應(yīng)用中。著名圍棋智能體AlphaGo/AlphaZero,核心思想就是采用深度學(xué)習(xí)網(wǎng)絡(luò)與蒙特卡洛樹搜索的結(jié)合。9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)算法流程分成四步:選擇(Selection),擴(kuò)展(Expansion),模擬(Simulation)和反向傳播(Backpropagation)。AlphaZero去掉了“模擬”環(huán)節(jié),用深度網(wǎng)絡(luò)進(jìn)行動(dòng)作概率和狀態(tài)值(獎(jiǎng)勵(lì))估計(jì)。9.3智能博弈策略求解技術(shù)
2025年10月20日
O方X方O方127468539
9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)1.擴(kuò)展根節(jié)點(diǎn)并進(jìn)行評(píng)估(第一次樹搜索)
N=0W=0Q=0P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=0A=2A=7A=6A=3A=8A=9網(wǎng)絡(luò)
9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)2.反向傳播(第一次樹搜索)N=0W=0Q=0P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=1
A=2A=7A=6A=3A=8A=9由于當(dāng)前節(jié)點(diǎn)是根節(jié)點(diǎn),不需要反向傳播W(節(jié)點(diǎn)的獎(jiǎng)勵(lì)值之和)
和Q(節(jié)點(diǎn)的平均獎(jiǎng)勵(lì)值),只需更新訪問次數(shù)NN=0
其中,鼓勵(lì)利用獎(jiǎng)勵(lì)值較高的動(dòng)作鼓勵(lì)探索訪問次數(shù)少的動(dòng)作權(quán)重平衡利用和探索的權(quán)重9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)3.選擇(第二次樹搜索):根據(jù)動(dòng)作選擇公式選擇動(dòng)作N=0W=0Q=0P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=1
A=2A=7A=6A=3A=8A=9
9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)4.擴(kuò)展節(jié)點(diǎn)并進(jìn)行評(píng)估(第二次樹搜索)N=0W=0Q=0P=0.2N=0W=0Q=0P=0.15N=0W=0Q=0P=0.1N=0W=0Q=0P=0.25N=0W=0Q=0P=0.3N=0W=0Q=0P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=1
A=7A=6A=3A=8A=9A=3A=6A=7A=8A=9網(wǎng)絡(luò)
9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)5.反向傳播(第二次樹搜索)
網(wǎng)絡(luò)N=0W=0Q=0P=0.2N=0W=0Q=0P=0.15N=0W=0Q=0P=0.1N=0W=0Q=0P=0.25N=0W=0Q=0P=0.3N=1W=0.1Q=0.1P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=2
A=7A=6A=3A=8A=9A=3A=6A=7A=8A=9
9.3智能博弈策略求解技術(shù)
2025年10月20日
X方失敗
reward=-1N=0W=0Q=0P=0.2N=0W=0Q=0P=0.15N=0W=0Q=0P=0.1N=0W=0Q=0P=0.25N=0W=0Q=0P=0.3N=1W=0.1Q=0.1P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=2
A=7A=6A=3A=8A=9A=3A=6A=7A=8A=99.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)7.反向傳播(第三次樹搜索)O方玩家選擇動(dòng)作9,贏得了游戲N=0W=0Q=0P=0.2N=0W=0Q=0P=0.15N=1W=1Q=1P=0.3N=0W=0Q=0P=0.1N=0W=0Q=0P=0.25N=1+1=2W=0.1-1=-0.9Q=-0.9/2=-0.45P=0.4N=0W=0Q=0P=0.1N=0W=0Q=0P=0.05N=0W=0Q=0P=0.1N=0W=0Q=0P=0.15N=0W=0Q=0P=0.2N=2N=3
A=7A=6A=3A=8A=9A=3A=6A=7A=8A=9N=1W=0.1Q=0.1P=0.4
9.3智能博弈策略求解技術(shù)
2025年10月20日
N=40W=-35Q=-0.875P=0.4N=10W=-9Q=-0.9P=0.1N=5W=-5Q=-1P=0.05N=10W=-8Q=-0.8P=0.1N=15W=-10Q=-0.6P=0.15N=320W=10Q=0.03P=0.2N=400………………
A=2A=7A=6A=3A=8A=9
9.3智能博弈策略求解技術(shù)
2025年10月20日蒙特卡洛樹搜索(Monte-CarloTreeSearch)應(yīng)用于五子棋的AlphaZero算法結(jié)果演示/initial-h/AlphaZero_Gomoku_MPI9.智能博弈2025年10月20日9.1博弈論基礎(chǔ)9.2博弈問題的復(fù)雜度9.3智能博弈策略求解技術(shù)9.4智能博弈應(yīng)用及經(jīng)典案例9.4智能博弈應(yīng)用及經(jīng)典案例
2025年10月20日隨著計(jì)算能力的大幅提升以及人工智能算法的逐漸成熟,自20世紀(jì)90年代起,涌現(xiàn)了眾多智能博弈領(lǐng)域的突出成果。在棋牌類博弈方面1997年IBM公司的“深藍(lán)(DeepBlue)”擊敗國際象棋大師卡斯帕羅夫;2016年,DeepMind團(tuán)隊(duì)推出了AlphaGo,擊敗了圍棋世界冠軍李世石;2017年卡耐基梅隆大學(xué)發(fā)布了Libratus,在兩人無限制德州撲克中擊敗了職業(yè)選手。DeepBlue比賽現(xiàn)場AlphaGoLibratus子博弈問題解決思路9.4智能博弈應(yīng)用及經(jīng)典案例
2025年10月20日隨著計(jì)算能力的大幅提升以及人工智能算法的逐漸成熟,自20世紀(jì)90年代
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 職業(yè)倦怠與不良事件安全文化關(guān)系
- 職業(yè)健康與員工職業(yè)發(fā)展:醫(yī)療人力資源健康資本
- 荊門2025年湖北京山市重點(diǎn)人才蓄水池專項(xiàng)招聘7人筆試歷年參考題庫附帶答案詳解
- 湖南2025年湖南南華大學(xué)附屬第三醫(yī)院招聘13人筆試歷年參考題庫附帶答案詳解
- 海東2025年青海海東市化隆縣民族中學(xué)選調(diào)教師27人筆試歷年參考題庫附帶答案詳解
- 滄州2025年河北滄州市新華區(qū)招聘中小學(xué)教師100人筆試歷年參考題庫附帶答案詳解
- 曲靖2025年云南曲靖麒麟?yún)^(qū)人民醫(yī)院招聘編外人員37人筆試歷年參考題庫附帶答案詳解
- 成都2025年四川成都市新津區(qū)招聘員額教師45人筆試歷年參考題庫附帶答案詳解
- 廣安2025年四川廣安武勝縣考調(diào)教師進(jìn)縣城學(xué)校(124人)筆試歷年參考題庫附帶答案詳解
- 宣城2025年安徽宣城市中心醫(yī)院第二批次招聘35人筆試歷年參考題庫附帶答案詳解
- 重慶市萬州區(qū)2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)試卷+
- 儲(chǔ)物間管理制度
- 冰雕雪雕工程投標(biāo)方案(技術(shù)標(biāo))
- 內(nèi)科質(zhì)控會(huì)議管理制度
- 鄭州電力高等專科單招職能測(cè)試題
- 竣工圖編制說明-7
- 魯奇加壓氣化爐的開、停車操作課件
- 美國怡口全屋水處置介紹
- 常用實(shí)驗(yàn)室檢查血常規(guī)演示文稿
- 生命第一:員工安全意識(shí)手冊(cè)
- cimatron紫藤教程系列g(shù)pp2運(yùn)行邏輯及block說明
評(píng)論
0/150
提交評(píng)論