本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | 游戏人工智能方法 |
作者: | 赵冬斌[等]著 |
定价: | 128.0 |
出版社: | 科学出版社 |
出版日期: | 24-02-01 |
IN: | 9787030770950 |
印次: | |
版次: | 1 |
装帧: | 精装 |
开本: | 16开 |
内容简介 |
本书尝试归来游戏人工智能方向的优秀研究工作以及我们的一些探索呈现给读者。首先介绍游戏人工智能的背景和意义、发展历史和研究现状、平台和问题,然后梳理典的游戏人工智能方法,并给出DeepMind公司近几年针对棋牌和类游戏所提出的优秀的人工智能方法。之后是著者团队的具体研究工作和算法介绍,所考虑的问题都是有挑战的即时制游戏问题括格斗游戏的实时性和角色变化、ViZDoom游戏的视角属性、星际争霸的宏观生产和微观操作的不接近信息和多个体特点等,给出了相应的解决方法。从理论分析到算法设计到编程实现,旨在为读者提供一个针对不同游戏人工智能问题的系统性论述。本书适合人工智能等相关领域科技人员参考使用,也可供高校相关专业的研究生学 |
目录 |
“新一代人工智能理论、技术及应用丛书”序 前言 第1章游戏人工智能介绍1 1.1引言1 1.1.1游戏人工智能背景和意义1 1.1.2游戏人工智能研究发展1 1.2回合制游戏人工智能3 1.2.1棋类游戏人工智能发展历程3 1.2.2牌类游戏人工智能发展历程4 1.2.3棋牌类游戏人工智能测试平台5 1.3即时制游戏人工智能7 1.3.1即时制游戏平台和竞赛7 1.3.2雅达利游戏8 1.3.3人称视角游戏9 1.3.4即时策略游戏10 1.4游戏人工智能的关键性挑战与研究思路12 1.5游戏人工智能的未来发展趋势与展望13 1.5.1基于深度强化学的策略模型泛化性14 1.5.2构建鲁棒合理的前向推理模型14 1.5.3模型的环境适应和学性能14 1.5.4从虚拟环境到实际应用的迁移15 1.6本章小结15 参考文献15 第2章基本游戏人工智能方法 2.1引言 2.2典博弈树模型 2.2.1极小化极大算法 2.2.2α-β剪枝算法21 2.3统计前向规划22 2.3.1蒙特卡罗树搜索算法23 2.3.2滚动时域演化算法26 2.4强化学 2.4.1蒙特卡罗算法29 2.4.2时间差分强化学30 2.4.3策略梯度学31 2.5深度强化学 2.5.1深度Q网络及其扩展34 2.5.2异步优势执行器-评价器算法及其扩展38 2.5.3策略梯度深度强化学 2.5.4面向对抗博弈的深度强化学 2.6本章小结45 参考文献45 第3章DeepMind游戏人工智能方法51 3.1引言51 3.2AlphaGo51 3.2.1算法概述52 3.2.2计算机围棋的发展历史与现状52 3.2.3原理分析53 3.2.4性能分析56 3.2.5评价57 3.3AlphaGoZero.58 3.3.1算法概述58 3.3.2深度神网络结构61 3.3.3蒙特卡罗树搜索61 3.3.4流程 3.3.5讨论65 3.4AlphaZero和MuZero66 3.4.1AlphaZero概述67 3.4.2MuZero概述68 3.4.3算法解析70 3.4.4性能分析72 3.lphaStar74 3.5.1星际争霸研究意义74 3.5.2算法概述75 3.5.3算法解析76 3.5.4性能分析78 3.6本章小结81 参考文献82 第4章两人零和马尔可夫博弈的极小化极大Q网络算法85 4.1引言85 4.2两人零和马尔可夫博弈的基本知识86 4.2.1两人零和马尔可夫博弈86 4.2.2纳什均衡或极小化极大均衡86 4.2.3极小化极大价值和极小化极大方程86 4.2.4线性规划求解极小化极大解87 4.3动态规划求解贝尔曼极小化极大方程88 4.3.1值迭代88 4.3.2策略迭代88 4.3.3广义策略迭代89 4.4极小化极大Q网络算法90 4.4.1Q函数神网络90 4.4.2在线学 4.4.3M2QN算法在查表法下的收敛性92 4.5实验94 4.5.1足球4 4.5.2守护领土96 4.5.3格斗游戏98 4.6本章小结101 参考文献101 第5章格斗游戏的对手模型和滚动时域演化算法104 5.1引言104 5.2基于滚动时域演化的统计前向规划建模105 5.2.1格斗游戏问题定义105 5.2.2滚动时域演化算法105 5.3基于自适应对手模型的神网络建模107 5.3.1对手模型建模107 5.3.2监督学手模型107 5.3.3强化学手模型108 5.4实验设计与测试结果110 5.4.1实验设置与测试平台110 5.4.2内部比较111 5.4.3对抗18年格斗游戏程序113 5.4.4两种统计前向规划与对手建模结合的性能比较114 5.4.519年格斗游戏竞赛结果115 5.4.6年格斗游戏竞赛结果115 5.4.7性能指标分析116 5.4.8讨论121 5.5本章小结121 参考文献122 第6章星际争霸宏观生产的深度强化学124 6.1引言124 6.2星际争霸宏观生产决策分析与建模125 6.2.1问题定义125 6.2.2输入状态特征126 6.2.3决策动作定义128 6.2.4决策神网络模型结构128 6.2.5基于策略和价值混合式网络的决策系统优化方法129 6.3实验设置与结果分析132 6.3.1星际争霸宏观决策对抗优化场景132 6.3.2对抗优化场景下的实验结果133 6.3.3星际争霸学生天梯赛136 本章小结136 参考文献136 第7章星际争霸微操的强化学程迁移学138 7.1引言138 7.2星际争霸微操任务分析与建模139 7.2.1问题定义139 7.2.2高维状态表示140 7.2.3动作定义141 7.2.4网络结构141 7.3基于强化学际争霸多单位控制142 7.3.1共享参数多智能体梯度下降Sarsa(λ)算法143 7.3.2奖赏函数144 7.3.3帧跳跃145 7.3.4课程迁移学5 7.4实验设置和结果分析146 7.4.1星际争霸微操场景设置146 7.4.2结果讨论147 7.4.3策略分析151 7.5本章小结154 参考文献154 第8章星际争霸微操的可变数量多智能体强化学156 8.1引言156 8.2背景知识与相关工作156 8.2.1多智能体强化学6 8.2.2联合观测动作价值函数分解158 8.2.3相关工作158 8.3可变数量多智能体强化学2 8.3.1自加权混合网络162 8.3.2适应动作空间变化的智能体网络165 8.3.3可变网络的算法166 8.4星际争霸II微操实验169 8.4.1可变网络在星际争霸II微操环境的实验设置169 8.4.2可变网络实验结果170 8.4.3消融实验172 8.4.4可变网络策略分析174 8.5本章小结175 参考文献176 附录A强化学表178 附录B主要词汇中英文对照表179 |