《深度实践OCR：基于深度学习的文字识别》[89M]百度网盘|pdf下载|亲测有效

深度实践OCR：基于深度学习的文字识别 pdf下载

出版社机械工业出版社京东自营官方旗舰店

出版年 2020-06

页数 390页

装帧精装

评分 8.5(豆瓣)

⏰ 限时特惠 00:00:00

活动结束后恢复原价

纸质书参考价 ¥23

电子版限时价 ¥5.99 省 18 元

选择版本

基础版

PDF文件

¥4

内容简介

本篇主要提供深度实践OCR：基于深度学习的文字识别电子书的pdf版本下载，本电子书下载方式为百度网盘方式，点击以上按钮下单完成后即会通过邮件和网页的方式发货，有问题请联系邮箱ebook666@outlook.com

产品特色

编辑推荐

适读人群：1.人工智能领域的技术工程师，尤其是从事图像识别和NLP的技术工程师； 2.专门研究OCR的专业人士或院校师生等。

（1）作者阵容豪华，由阿里巴巴本地生活研究院算法团队技术专家领衔，海康威视、趣头条等企业的算法专家以及知名场景文本算法作者共同撰写；

（2）行业应用和学术理论相结合，既有来自于阿里巴巴本地生活实际应用场景的一线实践经验和方法，又有来自学术前沿的新理论；

（3）本书得到了阿里巴巴本地生活、达摩院、旷视科技、字节跳动、狗尾草等知名AI企业或机构的知名AI技术专家的联袂推荐；

（4）本书不仅讲解了OCR的组件、方法、算法、实现，而且还介绍了学术界最前沿的文字检测和文字识别方法。

内容简介

这是一部融合了企业界先进工程实践经验和学术界前沿技术和思想的ORC著作。

本书由阿里巴巴本地生活研究院算法团队技术专家领衔，从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地。书中一步步剖析了算法背后的数学原理，提供大量简洁的代码实现，帮助读者从零基础开始构建OCR算法。

全书共10章：

第1章从宏观角度介绍了ORC技术的发展历程、概念和产业应用；

第2章讲解了OCR的图像预处理方法；

第3~4章介绍了传统机器学习方法和深度学习的相关基础知识；

第5章讲解了基于传统方法和深度学习方法的OCR的数据生成；

第6章讲解了与OCR相关的一些高级深度学习方法，方便读者理解后续的检测和识别部分；

第7章讲解了文字的检测技术，从通用的目标检测到文字的检测，一步步加深读者对文字检测问题的认识；

第8章讨论了文字识别的相关技术，定位到文字的位置之后，需要对文字的内容进行进一步的解析；

第9章介绍了一些OCR后处理的方法；

第10章介绍了一些版面分析方法。

作者简介

刘树春

阿里巴巴本地生活研究院算法专家，前复旦七牛云联合实验室OCR算法负责人，在OCR相关技术的落地和实现方面有深入的研究和丰富的实践经验，在菜单识别、车牌检测识别、卡证识别、商业广告文字检测和识别、票据类识别等应用场景中积累了丰富的经验。曾经组队参加COCO竞赛、ICDAR刷榜等活动，并发表多篇顶会论文。

贺盼

佛罗里达大学在读博士，担任 CVPR、ICCV、ECCV等10多家国际顶会审稿人或程序委员，在场景文本领域发表过多篇国际顶会论文 (DTRN、CTPN、SSTD等)。曾经在中科院先进技术研究院、港中文、旷视美国研究院等做过相关研究工作，对场景文本有深刻的认识，并且对场景文本学术前沿有很强的感知力。

马建奇

著名的RRPN算法的作者，发表过多篇国际顶会论文，曾经在旷视研究院做过检测相关的工作，在上海高等研究院做过文字检测相关的工作，曾经组队参加过ICDAR 17 MLT比赛，获得前三名。曾获Facebook研究实习机会。目前即将开始修读博士学位，正在做文字识别相关的工作，对于OCR的问题有独到的见解。

王佳军

阿里巴巴本地生活研究院高级算法专家，负责本地生活研究院图像算法团队的管理、研发等工作，曾经在滴滴研究院做相关算法的研究。业余时间担任深度学习框架MXNet的技术专家，对实际算法的落地优化等有非常深入的耕耘，具有很强的OCR相关项目的落地能力。

谢雨飞

趣头条算法工程师，曾在七牛云做OCR、NLP相关算法的研究工作，发表过多篇国际顶会论文。

陈明曦

纽约大学硕士研究生，曾在七牛云从事OCR相关工作，发表相关论文数篇。

精彩书评

本书系统介绍了OCR的各类方法，既包括图像预处理、数据生成与增强、文字检测与识别等基础内容，又有与神经网络和目标检测相结合的进阶内容。作者团队在学术研究和产业应用方面的经验都非常丰富。

——田值 FCOS/CTPN模型作者

随着深度学习的广泛应用，OCR技术历久弥新，最近几年取得了脱胎换骨的进展。阿里巴巴本地生活提供了各种线上线下融合的场景，催生了如菜单识别、小票识别、招牌识别、包装文字识别等富有生活味道的需求，对 OCR 技术提出了新的挑战。本书将OCR 的前沿理论与行业应用深度结合，能帮助读者更好地理解和掌握前沿的OCR 技术。

——李佩阿里巴巴本地生活研究院高级总监

作为系统性讲解OCR的专业书籍，本书汇集了阿里本地生活研究院技术团队对深度学习领域OCR的理论研究和实践经验，可读性和实操性俱佳，是相关专业学生和从业者不可多得的一本工具书。

——魏秀参旷视南京研究院院长

文字识别改变内容的表达和交互方式，是各行业信息化和数字化的基础，在多媒体内容理解、人工辅助驾驶、无障碍信息交流等方向都发挥着不可或缺的作用。本书讲解了文字识别技术的理论和方法，兼顾入门读者和进阶读者的需求。同时，书中分享了大量应用案例和实战经验，能帮助读者实现AI场景落地。

——王永攀阿里达摩院读光OCR负责人

相较于图像信息，文字信息更加直接、易用。识别图像中的文字，是很多AI应用的非常关键的一步。本书不仅包括文字识别相关的理论和算法，还包括很多技术落地方面的实践和应用，帮助图像算法工程师少走弯路，快速学习。

——邵杰字节跳动AI实验室资深研究员

图像识别是计算机视觉领域非常重要的研究方向，传统的机器学习方法主要关注图像内容的挖掘，如果能够识别出图像中的文字，对于图像的理解和后续的应用都有非常大的帮助。本书不仅讲解了机器学习和深度学习的基础知识，阐述了文字识别的相关理论和算法，更重要的是，还给出了技术实践和应用，可以帮助图像算法工程师快速学习和落地文字识别系统。

——邵浩狗尾草人工智能研究院院长

前言/序言

◆推荐序 ◆

文字识别（OCR）是视觉感知中一个重要的技术，目的是从照片中提取文字信息。这项技术有着广泛的应用前景。比如，自动驾驶汽车路标识别，或把扫描文档转化成结构化的文字信息以方便检索。近几年来，随着深度学习等技术的发展，文字识别相关技术取得了突破性进展，特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。阿里巴巴、腾讯、百度、谷歌、微软等互联网公司都有大规模的文字识别应用，提供了各式各样的文字识别相关的服务。

本书系统地介绍了文字识别的各类方法，内容翔实，包括图像预处理、数据生成与增强、文字检测、文字识别以及后处理和结构化等，这些方法是文字识别的基础。同时，本书还介绍了学习这些方法所必需的一些基础，比如，残差神经网络以及通用目标检测技术。另外，本书详细地介绍了这些方法具体的代码实现，供读者学习和使用。目前，关于文字识别的专业书籍还比较缺乏，本书将给广大文字识别研究人员和应用人员带来便利。

本书的作者在文字识别学术研究和产业应用方面有丰富的经验，书中很好地融合了学术理论和产业化实践。相信本书的出版对于文字识别技术的普及和发展会产生积极的作用。

——FCOS，CTPN模型作者，田值

前言

文字作为人类传播文明、传递信息、记录思想的重要载体，在我们的生活中占据着举足轻重的地位，所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛，相较于图像，文字作为抽象的符号，承载着大量的信息，所以识别文字有非常大的价值。从历史角度看，文字识别是一门古老的技术，但是从实验室走出来，走进人们的生活，也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后，文字识别精度逼近人工水平，发展出非常多的应用。

笔者作为机器视觉方面的从业者，在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难，常常苦恼于市面上鲜有全面介绍文字识别实现原理和方法的资料，特别是中文书籍，即使有，所介绍的技术也非常落后，远远脱离产业以及学术前沿。随着自己不断地学习和尝试，在反复试错以及与同行交流后，慢慢掌握了其中的方法。为了帮助更多与我有相似经历的人，我们几位同事把基于深度学习的OCR方法整理出来，希望能帮助更多相关从业人员。

本书从OCR的出现讲到中间经历的传统技术，再到最新的基于深度学习的技术，同时根据OCR常用技术流程——从数据、模型对文字的定位、识别到后处理等，对OCR技术做了一个深度梳理，带领读者进入一个引人入胜的文字识别智能世界，领略各种神经网络的魅力及挑战。

全书总共有10章，逻辑上分为四个部分。

第一部分（第1～3章），主要介绍传统OCR技术。

第二部分（第4～6章），主要介绍OCR中一些基础的组件和方法。

第三部分（第7～8章），主要跟踪前沿的文字检测和文字识别技术。

第四部分（第9～10章），主要介绍一些常用的后处理方法和版面分析方法。

本书在内容上尽可能涵盖了OCR领域的基础知识，在合著伙伴的组成上，有学术界第一梯队的青年学者，同时也有产业界一线从业者，希望尽可能实现理论与实践并重。

写作分工

刘树春编写第1章、第5章、第6章、第10章。

贺盼编写第7章。

马建奇编写第8章。

王佳军编写第9章。

谢雨飞编写第3章。

陈明曦编写第2章、第4章。

本书特点

本书具有如下特点：

1.作者有学术界的OCR研究者，也有工作在一线的OCR从业者，试图做到理论与实践结合。

2.涵盖的知识面比较全，包括传统的OCR方法以及最新的基于深度学习的OCR方法。

3.强化了对代码的梳理，方便读者实战运行。

本书读者

本书可作为OCR从业人士或者研究生的参考资料或者入门教程，用来了解OCR相关前沿技术。

感谢

本书在后期修订中得到了邵蔚元、张飞云、刘树芳、龙力等同仁的帮助。他们抽出宝贵的时间帮忙审阅，并提出了中肯的意见和建议。

感谢阿里巴巴本地生活研究院提供的支持与帮助，特别是李佩博士与何田院士对我们工作的鼎力支持。

感谢机械工业出版社的编辑杨福川、张锡鹏和董惠芝，没有他们的努力就没有本书的顺利出版。

最后，感谢各位读者朋友。

读者服务

由于OCR领域的发展日新月异，本书无法做到在所有细分领域面面俱到。而且笔者笔力有限，书中会有很多不足的地方，还望读者能够帮忙指正，不胜感激，日后定将勤加修订升级。

本书通过GitHub（https://github.com/ocrbook/ocrinaction）进行各种资源的交互，以及信息的反馈。

谢谢大家！

刘树春

查看全部↓

深度实践OCR：基于深度学习的文字识别 pdf下载

选择版本

内容简介

产品特色

编辑推荐

内容简介

作者简介

精彩书评

目录

前言/序言

相关推荐

数据标准化：企业数据治理的基石

书籍从低层视觉到高层语义特征的图像检索技术

创新永动:下一代卓越计算下的数字化社会

SQL从入门到进阶