近年来,深度学习发展迅速,相关算法在计算机视觉、游戏、机器人、无人驾驶、系统控制及医疗诊断等众多领域取得了显著的成果,在国内外引起了广泛的关注。然而,深度学习的理论基础并没有实质性突破,只是在传统神经网络的基础上加入更多的隐藏层和神经元,使得神经网络的宽度和深度增加,引入了更丰富的网络模块和网络结构,使得神经网络的非线性表达能力增强。深度学习模型的提出和应用带来了人工智能的第三次浪潮,并且此次浪潮的高度和气势前所未见,当前仍处于浪潮的上升期,无论是理论研究还是实践应用都在快速进步,正在深刻改变社会生产和生活的每一个角落,未来人工智能将成为科技创新领域的基础设施。然而,目前基于深度学习模型的人工智能只能完成特定任务,属于弱人工智能,还不具备思考和推理能力。另外,深度学习目前也面临许多挑战。例如,如何从大量的无标注的数据进行学习,如何轻量化深度神经网络,如何更快速更高效地训练模型,如何结合知识图谱和逻辑推理,如何扩展到复杂的动态决策性任务上,如何自主学习……这些都是当前深度学习的前沿课题。
为了获得人类级别解决复杂问题的通用智能,很多最新的技术方案开始将深度学习的感知能力和强化学习的决策能力相结合,特别是2017年AlphaGo Zero的横空出世,将深度强化学习推到了新的热点和高度,成为人工智能历史上一个新的里程碑。深度强化学习技术能够发挥两种学习方法的优势。一方面,可以利用强化学习的试错算法和累积回报函数来解决深层神经网络训练面临的数据集获取和标记难题;另一方面,可以利用深度学习的高维数据处理和快速特征提取能力解决强化学习中的值函数逼近问题。深度强化学习是一种能够进行“迁移学习”“从零开始”“无师自通”的学习模式,是一种更接近人类思维方式的人工智能方法,或许能推动弱人工智能向强人工智能甚至超人工智能的演进。
本书全面地介绍了从神经网络到深度强化学习的演进过程,包括神经网络的关键技术、常用的深度神经网络模型和应用、深度学习模型的优化和轻量化、强化学习的基本理论和算法以及深度强化学习的设计思路和应用。
全书分为10章。
第1章是全书的概要。首先介绍人工智能、机器学习及深度学习的基本概念和发展历程;然后介绍机器学习、深度学习、强化学习的分类;最后介绍深度强化学习的概念和算法。
第2章至第6章介绍从神经网络到深度学习的演进与相关理论和应用。第2章介绍神经网络与深度学习的关键技术。首先简要介绍深度学习的概念和发展历程;其次以图像分类问题为例分析K近邻分类器(KNearest Neighbor, KNN)和线性分类器,并介绍神经网络的损失函数及优化;然后详细阐述常用的损失函数和反向传播算法,并从结构和分类两方面简单介绍神经网络;最后讨论常用的激活函数及其优缺点。
第3章介绍卷积神经网络的主要框架和应用实例。首先介绍卷积神经网络的基本概念和典型的卷积神经网络结构;然后重点阐述计算机视觉问题和其对应的框架和模型,包括图像分类、目标定位、目标检测和图像分割问题;最后介绍卷积神经网络应用实例和常用的深度学习框架。
第4章介绍循环神经网络和无监督学习的深度神经网络的模型和应用。首先介绍循环神经网络的网络结构和训练,包括门控循环单元和长短期记忆网络;然后介绍循环神经网络在自然语言处理和时序数据预测中的应用;最后讨论无监督学习的自编码器和深度生成式模型的结构和应用。
第5章详细介绍深层神经网络的训练方法,包括优化算法、参数初始化方法、常用的正则化策略和训练深层神经网络常用的技巧。
第6章讨论分析深度学习模型的轻量化方案以及移动端深度学习案例。首先介绍人工设计的轻量化神经网络模型;其次对深度神经网络模型压缩算法进行总结;然后简单介绍深度神经网络的硬件加速;最后介绍移动端深度学习的框架和应用实例。
第7章至第9章介绍从强化学习到深度强化学习的演进与相关理论和应用。第7章阐述强化学习的基本理论和算法。首先介绍有模型的马尔可夫决策及动态规划方法;然后详细介绍无模型的强化学习算法,包括基于值函数的强化学习算法和基于策略梯度的强化学习算法;最后介绍值函数近似和衍生算法。
第8章介绍强化学习的演进方向,包括多智能体学习、多任务学习、元学习和联邦学习。
第9章介绍深度强化学习的算法和应用。首先阐述基于值函数的深度强化学习和基于策略梯度的深度强化学习;然后对深度强化学习的应用进行介绍和分析,包括著名的AlphaGo和深度强化学习在游戏、机器人、自然语言处理和金融等方面的应用;最后总结分析深度强化学习在通信网络中的应用情况。
第10章介绍迁移学习的概念及其在深度学习和强化学习中的应用。
全书内容可以划分为三个部分:深度学习的关键技术和算法、强化学习的基本理论和算法和深度强化学习的具体算法及应用。为了有针对性地学习某些深度学习模型或掌握强化学习算法,读者可以根据自身需要,选择性地阅读相关章节。
本书的编撰工作得到了休斯敦大学韩竹教授、都柏林城市大学王小军教授、卡尔顿大学于非教授、北京邮电大学宋梅等教师的指点和帮助。郑颖、薛晨子、顾博、公雨、刘晓伟、何欣等参与了本书部分内容的整理或校对工作,在此向他们表示衷心的感谢。此外,本书参考了斯坦福大学、伦敦大学学院(UCL)、麻省理工学院的公开课以及其他优秀教材,特别说明。
由于编者水平和视野所限,编写时间仓促,加之深度学习技术发展一日千里,书中难免有疏漏甚至错误之处,恳请读者批评指正。
魏翼飞
于北京邮电大学