《强化学习入门》[63M]百度网盘|pdf下载|亲测有效
《强化学习入门》[63M]百度网盘|pdf下载|亲测有效

强化学习入门 pdf下载

出版社 博道图书专营店
出版年 2020-09
页数 390页
装帧 精装
评分 8.8(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供强化学习入门电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

基本信息

  • 商品名称:强化学习入门(从原理到实践)
  • 作者:编者:叶强//闫维新//黎斌|责编:迟振春
  • 定价:79
  • 出版社:机械工业
  • 书号:9787111661269

其他参考信息(以实物为准)

  • 出版时间:2020-09-01
  • 印刷时间:2020-09-01
  • 版次:1
  • 印次:1
  • 开本:16开
  • 包装:平装
  • 页数:183

内容提要

强化学习主要研究的问 题是:具有一定思考和行为 能力的个体在与其所处的环 境进行交互的过程中,通过 学习策略达到收获 化或 实现特定的目标。
     本书以理论和实践相结 合的形式深入浅出地介绍强 化学习的历史、基本概念、 经典算法和一些前沿技术, 共分为三大部分: 部分 ( ~5章)介绍强化学习 的发展历史、基本概念以及 一些经典的强化学习算法; 第二部分(第6~9章)在简 要回顾深度学习技术的基础 上着重介绍深度强化学习的 一些前沿实用算法;第三部 分( 0章)以五子棋为例 详细讲解战胜了人类 围 棋选手的Alpha Zero算法的 核心思想。
     对于本书介绍的每一个 经典算法,我们都结合了一 定的应用场景,详细介绍如 何用Python代码来实现。
     本书既可以作为计算机 专业高年级本科生及硕士生 关于人工智能领域的入门参 考读物,也可以作为对人工 智能技术(特别是强化学习 技术)感兴趣的人员理解强 化学 的补充读物。
    

目录

前言
致谢
常用数学符号
主要算法列表
第1章 概述
1.1 强化学习的历史
1.2 强化学习的基本概念
1.3 章节组织
1.4 编程环境与代码资源
第2章 从一个示例到马尔可夫决策过程
2.1 马尔可夫过程
2.2 马尔可夫奖励过程
2.3 马尔可夫决策过程
2.4 编程实践:学生马尔可夫决策示例
2.4.1 收获和价值的计算
2.4.2 验证贝尔曼方程
第3章 动态规划寻找 策略
3.1 策略评估
3.2 策略迭代
3.3 价值迭代
3.4 异步动态规划算法
3.5 编程实践:动态规划求解小型格子世界 策略
3.5.1 小型格子世界MDP建模
3.5.2 策略评估
3.5.3 策略迭代
3.5.4 价值迭代
第4章 不基于模型的预测
4.1 蒙特卡罗强化学习
4.2 时序差分强化学习
4.3 n步时序差分学习
4.4 编程实践:蒙特卡罗学习评估21点游戏的玩家策略
4.4.1 21点游戏规则
4.4.2 将21点游戏建模为强化学习问题
4.4.3 游戏场景的搭建
4.4.4 生成对局数据
4.4.5 策略评估
第5章 无模型的控制
5.1 行为价值函数的重要性
5.2 ?贪婪策略
5.3 同策略蒙特卡罗控制
5.4 同策略时序差分控制
5.4.1 Sarsa算法
5.4.2 Sarsa(λ)算法
5.4.3 比较Sarsa和Sarsa(λ)
5.5 异策略Q学习算法
5.6 编程实践:蒙特卡罗学习求解21点游戏的 策略
5.7 编程实践:构建基于gym的有风的格子世界及个体
5.7.1 gym库简介
5.7.2 状态序列的管理
5.7.3 个体基类的编写