《深度强化学习:学术前沿与实战应用图片色》[40M]百度网盘|pdf下载|亲测有效
《深度强化学习:学术前沿与实战应用图片色》[40M]百度网盘|pdf下载|亲测有效

深度强化学习:学术前沿与实战应用图片色 pdf下载

出版社 温州富庶图书电子商务店
出版年 2025
页数 390页
装帧 精装
评分 9.1(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供深度强化学习:学术前沿与实战应用图片色电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

书名:深度强化学习:学术前沿与实战应用

定价:99.00元

作者:刘驰 王占健 马晓鑫 等

出版社:机械工业出版社

出版日期:2020-03-01

ISBN:9787111646648

字数:

页码:

版次:

装帧:平装-胶订

开本:16开

商品重量:

内容提要


着重介绍深度强化学习的学术界前沿进展与核心代码分析的书籍。对深度强化学习方面的重要学术进展按照单智能体深度强化学习、多智能体深度强化学习、多任务深度强化学习三个方向梳理,介绍其核心算法,以及算法的代码实现示例。

作者介绍


刘驰,北京理工大学计算机学院副院长、教授、博士生导师,英国工程技术学会会士(IET Fellow),IEEE会员(IEEE Senior Member)。分别于清华大学和英国帝国理工学院获得学士和博士学位,曾任美国IBM T.J. Watson研究中心和IBM中国研究院研究主管,并在德国电信研究总院(柏林)任博士后研究员。研究方向为大数据与物联网技术。主持了国家自然科学基金、国家重点研发计划课题、工信部、教育部、装发预研等20余省部级研究项目。共发表SCI/EI论文余篇,其中ESI高被引论文2篇、CCF-A类论文20余篇,授权外发明专利14项,编写书籍9本,Google Scholar索引3500余次,H index为28。现任国家自然科学基金会评专家、科技部重点研发计划会评专家、教育部科技奖评审专家、全国信标委技术委员会委员、中国电子学会理事、中国计算机学会青工委委员、中国计算机学会物联网/大数据/普适计算专委会委员、中国电子学会物联网专委会委员/副秘书长、中国自动化学会大数据专委会委员、中国通信学会物联网专委会委员等;以及IEEE Transactions on Network Science and Engineering编委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入选了国家人社部'高层次留学人才回国计划'、中国科协'青年人才托举工程'、陕西省第八批'人计划(短期项目)'、中国产学研合作促进奖、中国电子学会科技工作者、国家'十二五'轻工业科技创新个人、2017年中国物联网年度人物等。并获得省部级一等奖1项、二等奖1项、三等奖1项。

目录


前言
致谢
数学符号
篇深度强化学习
章深度强化学习基础 2
1.1强化学习 2
1.1.1强化学习的发展历史 2
1.1.2强化学习简介 4
1.1.3深度强化学习简介 6
1.2马尔可夫属性和决策过程 9
1.2.1马尔可夫属性 9
1.2.2马尔可夫决策过程 11
1.3强化学概念 12
1.3.1值函数 12
1.3.2动态规划 14
1.3.3时间(序)差分 15
1.3.4策略梯度 16
1.3.5actor-critic方法 17
1.4Q-learning 18
1.4.1Q-learning简介 18
1.4.2算法 19
1.4.3相关变量及影响 20
1.4.4实现方法 21
第2章深度强化学习算法 22
2.1基于值的深度强化学习算法 22
2.1.1深度Q网络 22
2.1.2深度双Q网络 27
2.1.3竞争网络架构 31
2.1.4平均值DQN 33
2.1.5多DQN变种结合体:Rainbow 37
2.1.6基于动作排除的DQN 42
2.2基于策略的深度强化学习算法 46
2.2.1循环确定性策略梯度 46
2.2.2深度确定性策略梯度 55
2.2.3信赖域策略优化 62
2.2.4近端策略优化 68
2.3基于模型的深度强化学习算法 73
2.3.1基于模型加速的连续深度Q-learning 73
2.3.2范例模型探索 80
2.3.3基于模型集成的信赖域策略优化 88
2.3.4时间差分模型 95
2.4基于分层的深度强化学习算法 2
2.4.1分层深度强化学习 2
2.4.2基于封建网络的分层强化学习 9
2.4.3基于神经网络的分层强化学习 116
第3章分布式深度强化学习 123
3.1分布式系统 123
3.1.1分布式系统简介 123
3.1.2分布式系统的发展历史 124
3.1.3架构演进 125
3.1.4主流分布式系统框架 128
3.2分布式深度强化学习算法 129
3.2.1分布式近端策略优化 129
3.2.2分布式深度确定性策略梯度 138
3.3分布式深度强化学习框架 145
3.3.1重要性加权Actor-Learner架构 145
3.3.2分布式优先经验复用池 153
第二篇多智能体深度强化学习
第4章多智能体深度强化学习基础 162
4.1多智能体强化学习 162
4.1.1多智能体强化学习发展历史 162
4.1.2多智能体强化学习简介 164
4.1.3优势和挑战 166
4.2部分可见马尔可夫决策过程 166
4.2.1POMDP模型 166
4.2.2POMDP相关研究 169
4.2.3POMDP应用领域 170
第5章多智能体深度强化学习算法 171
5.1基于值函数的多智能体深度强化学习 171
5.1.1基于DQN的多智能体网络 171
5.1.2增强智能体间学习 174
5.1.3协同多智能体学习的价值分解网络 178
5.1.4多智能体深度强化学习的稳定经验复用池 182
5.1.5单调值函数分解 187
5.1.6深度强化学习中的对立智能体建模 190
5.1.7平均场多智能体强化学习 193
5.2基于策略的多智能体深度强化学习 197
5.2.1基于自身策略的其他智能体行为预测 197
5.2.2双重平均方案 201
5.2.3多智能体深度强化学习的统一博弈论方法 208
5.3基于AC框架的多智能体深度强化学习 212
5.3.1多智能体深度确定性策略梯度 212
5.3.2多智能体集中规划的价值函数策略梯度 220
5.3.3多智能体系统的策略表示学习 227
5.3.4部分可观察环境下的多智能体策略优化 231
5.3.5基于联网智能体的去中心化MARL 236
第三篇多任务深度强化学习
第6章多任务深度强化学习基础 244
6.1简介 244
6.1.1理论概述 244
6.1.2面临的挑战 247
6.2策略蒸馏法 248
第7章多任务深度强化学习算法 253
7.1无监督强化与辅助学习 253
7.1.1算法介绍 253
7.1.2算法分析 255
7.1.3使用场景与优势分析 261
7.2使用渐进式神经网络解决任务的复杂序列 262
7.2.1算法介绍 262
7.2.2算法分析 262
7.2.3使用场景与优势分析 266
7.3基于单智能体的多任务共享模型 267
7.3.1算法介绍 267
7.3.2算法分析 268
7.3.3使用场景与优势分析 272
7.4使用PopArt归一化多任务更新幅度 273
7.4.1算法介绍 273
7.4.2算法分析 274
7.4.3使用场景与优势分析 276
第四篇深度强化学习的应用
第8章游戏 278
8.1Gym Retro游戏平台 278
8.1.1平台简介 278
8.1.2安装Gym Retro平台 281
8.1.3安装Retro UI 282
8.1.4Gym Retro主要函数说明 283
8.2相关应用 285
8.2.1Pong游戏 285
8.2.2CartPole 291
8.2.3Flappy Bird 298
8.2.4Gradius 302
第9章机器人控制 312
9.1机器人导航 312
9.1.1无地图导航 312
9.1.2社会感知机器人导航 316
9.2路径规划 321
9.3机器人视觉 324
第章计算机视觉 327
.1图像 327
.1.1图像字幕 327
.1.2图像恢复 332
.2视频 337
.2.1视频字幕 337
.2.2视频快进 345
.2.3视觉跟踪 348
1章自然语言处理 354
11.1与知识库交互的多轮对话智能体 354
11.1.1概率KB查找 355
11.1.2端到端KB-InfoBot 356
11.1.3总结 359
11.2

编辑推荐


暂无相关内容