前言
欧盟的“INFO2000计划”中对内容产业的定义是:那些制造、开发、包装和销售信息产品及其服务的企业,其中包括在各种媒介上的印刷品(报纸、书籍、杂志等);电子出版物(联机数据库、音像制品服务,以传真及光盘为基础的服务以及电子游戏等);音像传播(电视、录像、广播和影院),还有一些定义把部分软件业(包括课程软件)也放进去了。
“在不久未来,信息服务内容的质量高低将取决于如何加工大数据”。
很久以前就已经感觉到,内容(contents),在大部分的服务和产品中,已经成为最重要的决定要素。最初由谷歌出世、最近各家厂商纷纷推出的互联网电视,就是这样一个例子,虽然产品硬件各有特色地优异,但其中最核心的内容提供才是吸引顾客的关键。
问题是,随着互联网技术的急速发展,构建信息内容的数据量也在急速增加。这类量级巨大、急速增加的数据信息我们称为“大数据”。一般来讲,当我们说“信息内容的质量高低取决于如何加工信息大数据”的时候,就意味着优质高效地加工这些信息大数据所对应的软件技术是必需的。
我们通过本书试图和读者们分享和思考“如何存储和处理这类信息大数据”。我们看到的YouTube或别的视频网站已经在多年前就在思考这些问题:适应不同的服务平台,从成千上万个视频中,根据顾客的兴趣,精心地经过推荐和过滤等环节,向顾客提供高质量的内容视频。本书中,正是要介绍可以简单地完成这些数据加工任务的开源软件Hadoop及其关联工具。特别的,对和Hadoop一起用于实际大数据分析的专用工具进行了有深度的探讨,并基于图表和案例进行了形象的说明。通过本书,比起对Hadoop的相关开源代码的理解来说,作者更着重于读者在实战中对实际大数据分析平台的理解和见识。特别是,在数据分析处理、平台架构构建时针对大数据处理所遇见的共通性必需技术进行了详细的介绍。
第一部分包括第1章Hadoop的介绍和集群构建、第2章Hadoop分布式处理文件系统、第3章大数据和MapReduce和第4章Hadoop版本特征及进化。该部分从Hadoop的历史起源起,分析了Hadoop分布式文件系统的系统结构;讲述了大数据分析所需的软件框架MapReduce,并通过丰富的应用案例,探讨了MapReduce应用;最后通过对Hadoop版本发展和各版本特征的讲述,描绘了Hadoop的发展方向。
第二部分包括第5章云计算和Hadoop、第6章AmazonElasticMapReduce的倍增利用、第7章Hadoop应用下的大数据分析、第8章数据中的DBMS、NoSQL和第9章HBase:Hadoop中的NoSQL。该部分从云计算的基本概念讲起,通过介绍Amazon的主要服务内容,详细了解将云计算和大数据有效结合的典型云服务——AmazonHadoop服务,对Hive、Pig、EC2等可供应用的技术进行了说明;通过了解Mahout、R+RHive和GiraphFramework等工具的设置方法和应用实例,进一步了解大数据分析的具体方法;最后介绍了高度综合大数据存储、实时查询及分析功能为一体的NoSQL技术,并详细讲解了Hadoop生态界中的NoSQL——HBase技术。
本书的读者包括希望成为数据分析师、平台架构师的大学生、研究生和相关研发人员们,希望借此对中国的大数据的相关软件技术教育有相应的贡献。
作者
2017年春于西南