《Python深度强化学习入门:强化学习和深度学习的搜索与控制》[83M]百度网盘|pdf下载|亲测有效
《Python深度强化学习入门:强化学习和深度学习的搜索与控制》[83M]百度网盘|pdf下载|亲测有效

Python深度强化学习入门:强化学习和深度学习的搜索与控制 pdf下载

出版社 机械工业出版社京东自营官方旗舰店
出版年 2022-04
页数 390页
装帧 精装
评分 8.7(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供Python深度强化学习入门:强化学习和深度学习的搜索与控制电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色


编辑推荐

适读人群 :人工智能、机器学习、深度学习相关专业领域的技术人员和爱好者
  《Python深度强化学习入门:强化学习和深度学习的搜索与控制》特点:
  以上手实操介绍为主,可操作性强
  从基础开始介绍深度强化学习的概念及算法
  通过多个典型的实际问题,剖析深度强化学习的具体实现方法

内容简介

  《Python深度强化学习入门:强化学习和深度学习的搜索与控制》共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念;第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法;第3章通过深度学习、卷积神经网络(CNN)、循环神经网络(RNN)介绍了强化学习中深度学习的特征提取方法;第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现;第5章通过策略梯度法的连续控制、学习算法和策略模型等,详细介绍了深度强化学习在连续控制问题中的应用及具体实现;第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现;第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。

作者简介

  [日]伊藤多一,1995年在名古屋大学理学研究所完成博士课程,井获得博士学位。后一直从事粒子物理学研究,直到2004年3月。同年,加入了一家专门从事合同数据分析的风险公司,井参与了多个数据分析项目。自2013年以来,他一直在BrainPad公司从事机器学习的广告效果分析工作。自2016年以来,通过深度学习参与了图像分析项目。
  
  今津义充,博士学位(理学),熟悉统计分析、模型构建以及基于数值分析的基本粒子和核物理研究。自2013年以来,领导了BrainPad公司的定量分析项目,例如需求预测和数学优化等。近年来,一直从事利用深度学习技术的项目分析和应用研究。
  
  须藤广大,在奈良科学技术学院主修自然语言处理,获得硕士学位(信息工程)。后以新毕业生的身份加入BrainPad公司,井以机器学习工程师的身份从事与深度学习相关的项目分析和开发。
  
  仁平将人,硕士学位,在研究生院主修管理系统工程专业,于2018年加入BrainPad公司成为数据科学家。加入公司后,从事有关强化学习和自然语言处理的项目。
  
  川崎悠介,硕士学位,大学期间主修信息工程,并于2018年加入BrainPad公司。从事图像识别和时间序列预测的相关项目研究。

内页插图

前言/序言

原书前言
2016年,Google DeepMind的AlphaGo击败了围棋专业棋手的消息震惊了世界。这一事件表明,即使是在围棋游戏中,基于机器学习的人工智能也能够超越人类,尽管此前的观点认为由于其大量的落子方式,人工智能将远远落后于人类。在此,支撑AlphaGo的技术正是深度强化学习。本书将从基础开始对近年来已引起广泛关注的深度强化学习算法进行介绍,并在给出具体应用示例的同时将其应用于特定的问题。
本书大致分为两个部分。首先,在第1部分的基础篇中介绍了作为深度强化学习的基础算法,并给出了用于倒立摆控制这种简单情况的应用示例和验证结果。在第2章中解释强化学习算法时,为了避免由于不使用数学公式而引起的歧义和不准确性,在介绍时还是引入了一些必要的数学公式。特别是对于在数学公式中尤为重要的贝尔曼方程,通过与备用树等图形对应关系的解释,详细介绍了该方程式,以便读者可以准确地理解其含义。
在第2部分的应用篇中,将第1部分中介绍的算法应用于特定任务。特别是采用了一种基于策略的方法,详细介绍了其在智能体学习以及预测控制的实现。可以预见的是,该方法将在许多强化学习问题解决方案中得到广泛的应用。作为连续控制问题的应用示例,第5章介绍了类人机器人的模拟行走控制。作为组合优化问题的应用示例,第6章介绍了巡回推销员问题的实现,以及魔方问题的解决方案。在第7章中,作为序列数据生成的尝试,将介绍通过SeqGAN生成模型进行的文本语句生成以及基于应用示例的神经网络的架构搜索。
本书中的相关实现均是通过Python和TensorFlow进行。物理模拟器使用的是OpenAI Gym和pybullet-gym,并且在第6章中还为Rubik’s Cube实现了自己的模拟器。
本书适用于希望从基础开始学习深度强化学习算法的学生和研究人员,以及想要实施深度强化学习的工程师。对于那些仅想了解相关算法的读者,只需阅读本书第1部分的内容即可。另一方面,对于想立即开始进行强化学习实践的工程师,或者不擅长数学公式的读者,请阅读本书第1部分的第1章,以全面了解深度强化学习,然后可以跳过第2章和第3章的内容,直接进行第4章及以后内容的阅读。如果想更多地了解每一章中所使用算法的详细信息,则应该回顾一下第1部分的内容,并分别进行第2章和第3章的阅读。
最后,我们要感谢参与本书编写工作的所有人。BrainPad公司的太田满久先生和山崎裕一先生审读了本书的原稿,并对本书的内容和总体结构给予了宝贵的意见和建议。该公司的茂木亮祐先生和栗原理央先生分别从数据科学家和机器学习工程师的角度审读了本书的原稿,并对相关介绍中内容有跳跃和难以理解的部分提供了有益的建议。铃木政臣先生和平木悠太先生从软件工程师的角度对每章Python代码的不足和改进提供了宝贵的意见。在此,对他们表示衷心的感谢。
作 者
2019年7月