本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
(1)作者阵容豪华,由阿里巴巴本地生活研究院算法团队技术专家领衔,海康威视、趣头条等企业的算法专家以及知名场景文本算法作者共同撰写;
(2)行业应用和学术理论相结合,既有来自于阿里巴巴本地生活实际应用场景的一线实践经验和方法,又有来自学术前沿的新理论;
(3)本书得到了阿里巴巴本地生活、达摩院、旷视科技、字节跳动、狗尾草等知名AI企业或机构的知名AI技术专家的联袂推荐;
(4)本书不仅讲解了OCR的组件、方法、算法、实现,而且还介绍了学术界最前沿的文字检测和文字识别方法。
这是一部融合了企业界先进工程实践经验和学术界前沿技术和思想的ORC著作。
本书由阿里巴巴本地生活研究院算法团队技术专家领衔,从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地。书中一步步剖析了算法背后的数学原理,提供大量简洁的代码实现,帮助读者从零基础开始构建OCR算法。
全书共10章:
第1章从宏观角度介绍了ORC技术的发展历程、概念和产业应用;
第2章讲解了OCR的图像预处理方法;
第3~4章介绍了传统机器学习方法和深度学习的相关基础知识;
第5章讲解了基于传统方法和深度学习方法的OCR的数据生成;
第6章讲解了与OCR相关的一些高级深度学习方法,方便读者理解后续的检测和识别部分;
第7章讲解了文字的检测技术,从通用的目标检测到文字的检测,一步步加深读者对文字检测问题的认识;
第8章讨论了文字识别的相关技术,定位到文字的位置之后,需要对文字的内容进行进一步的解析;
第9章介绍了一些OCR后处理的方法;
第10章介绍了一些版面分析方法。
刘树春
阿里巴巴本地生活研究院算法专家,前复旦七牛云联合实验室OCR算法负责人,在OCR相关技术的落地和实现方面有深入的研究和丰富的实践经验,在菜单识别、车牌检测识别、卡证识别、商业广告文字检测和识别、票据类识别等应用场景中积累了丰富的经验。曾经组队参加COCO竞赛、ICDAR刷榜等活动,并发表多篇顶会论文。
贺盼
佛罗里达大学在读博士,担任 CVPR、ICCV、ECCV等10多家国际顶会审稿人或程序委员,在场景文本领域发表过多篇国际顶会论文 (DTRN、CTPN、SSTD等)。曾经在中科院先进技术研究院、港中文、旷视美国研究院等做过相关研究工作,对场景文本有深刻的认识,并且对场景文本学术前沿有很强的感知力。
马建奇
著名的RRPN算法的作者,发表过多篇国际顶会论文,曾经在旷视研究院做过检测相关的工作,在上海高等研究院做过文字检测相关的工作,曾经组队参加过ICDAR 17 MLT比赛,获得前三名。曾获Facebook研究实习机会。目前即将开始修读博士学位,正在做文字识别相关的工作,对于OCR的问题有独到的见解。
王佳军
阿里巴巴本地生活研究院高级算法专家,负责本地生活研究院图像算法团队的管理、研发等工作,曾经在滴滴研究院做相关算法的研究。业余时间担任深度学习框架MXNet的技术专家,对实际算法的落地优化等有非常深入的耕耘,具有很强的OCR相关项目的落地能力。
谢雨飞
趣头条算法工程师,曾在七牛云做OCR、NLP相关算法的研究工作,发表过多篇国际顶会论文。
陈明曦
纽约大学硕士研究生,曾在七牛云从事OCR相关工作,发表相关论文数篇。
本书系统介绍了OCR的各类方法,既包括图像预处理、数据生成与增强、文字检测与识别等基础内容,又有与神经网络和目标检测相结合的进阶内容。作者团队在学术研究和产业应用方面的经验都非常丰富。
——田值 FCOS/CTPN模型作者
随着深度学习的广泛应用,OCR技术历久弥新,最近几年取得了脱胎换骨的进展。阿里巴巴本地生活提供了各种线上线下融合的场景,催生了如菜单识别、小票识别、招牌识别、包装文字识别等富有生活味道的需求,对 OCR 技术提出了新的挑战。本书将OCR 的前沿理论与行业应用深度结合,能帮助读者更好地理解和掌握前沿的OCR 技术。
——李佩 阿里巴巴本地生活研究院高级总监
作为系统性讲解OCR的专业书籍,本书汇集了阿里本地生活研究院技术团队对深度学习领域OCR的理论研究和实践经验,可读性和实操性俱佳,是相关专业学生和从业者不可多得的一本工具书。
——魏秀参 旷视南京研究院院长
文字识别改变内容的表达和交互方式,是各行业信息化和数字化的基础,在多媒体内容理解、人工辅助驾驶、无障碍信息交流等方向都发挥着不可或缺的作用。本书讲解了文字识别技术的理论和方法,兼顾入门读者和进阶读者的需求。同时,书中分享了大量应用案例和实战经验,能帮助读者实现AI场景落地。
——王永攀 阿里达摩院读光OCR负责人
相较于图像信息,文字信息更加直接、易用。识别图像中的文字,是很多AI应用的非常关键的一步。本书不仅包括文字识别相关的理论和算法,还包括很多技术落地方面的实践和应用,帮助图像算法工程师少走弯路,快速学习。
——邵杰 字节跳动AI实验室资深研究员
图像识别是计算机视觉领域非常重要的研究方向,传统的机器学习方法主要关注图像内容的挖掘,如果能够识别出图像中的文字,对于图像的理解和后续的应用都有非常大的帮助。本书不仅讲解了机器学习和深度学习的基础知识,阐述了文字识别的相关理论和算法,更重要的是,还给出了技术实践和应用,可以帮助图像算法工程师快速学习和落地文字识别系统。
——邵浩 狗尾草人工智能研究院院长