本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | 大数据*教程:NoSQL、Hadoop组件及大数据实施 |
作者: | WroxIT认证项目组 |
定价: | 109.0 |
出版社: | 人民邮电出版社 |
出版日期: | 2018-12-01 |
ISBN: | 9787115493712 |
印次: | |
版次: | |
装帧: | |
开本: | 16开 |
内容简介 | |
“大数据*年来成为IT领域的热点话题,人们每天都会通过互联网、移动设备等产生大量数据。如何管理大数据、掌握大数据的核心技术、理解大数据相关的生态系统等,是作为大数据*须学*练掌握的知识。本系列书以“大数据*”应掌握的技术为主线,共分两卷,以7个模块分别介绍如何管理大数据生态系统、如何存储和处理数据、如何利用Hadoop工具、如何利用NoSQL与Hadoop协同工作,以及如何利用Hadoop商业发行版和管理工具。本系列书涵盖了大数据开发工作的核心内容,全面且详尽地涵盖了大数据开发的各个领域。 本书为第2卷,共3个模块,分别介绍Hadoop工具(如ZooKeeper、Sqoop、Flume、YARN和Storm等),利用NoSQL和Hadoop完成实时、和云的相关工作,以及Hadoop商业发行版和管理工具(如Cloudera、Hortonworks、Greenplum Pivotal HD等),*后介绍几个实用软*能、指南和安装步骤。 本书适用于想成为大数据开发人员以及所有对大数据开发感兴趣的技术人员和决策者阅读。 |
目录 | |
目 录 模块1 额外的Hadoop工具:ZooKeeper、Sqoop、Flume、YARN和Storm 第1讲 用ZooKeepe*行分布式处理协调 3 1.1 ZooKeeper简介 4 1.1.1 ZooKeeper的好处 4 1.1.2 ZooKeeper术语 6 1.1.3 ZooKeeper命令行界面(CLI) 7 1.2 安装和运行ZooKeeper 9 1.2.1 支持*台 9 1.2.2 所需的软件 9 1.2.3 单服务器的安装 9 1.3 使用ZooKeeper 10 1.4 ZooKeeper应用程序 12 1.4.1 FS爬取 13 1.4.2 Katta 14 1.4.3 Yahoo!消息代理(YMB) 14 1.5 使用ZooKeeper构建应用程序 15 1.5.1 Exec.java 15 1.5.2 处理事件 17 1.5.3 监控数据 19 1.5.4 实现屏障和生产者-消费者队列 22 练*0 备忘单 33 第2讲 利用Sqoop有效地传输批量数据 34 2.1 Sqoop简介 35 2.1.1 Sqoop中的工作流 36 2.1.2 Sqoop的特性 36 2.2 使用Sqoop 1 37 2.3 用Sqoop导入数据 41 2.3.1 导入完整的表 41 2.3.2 用HBase Sqoop导入带有复合键的表 42 2.3.3 指定目标目录 43 2.3.4 导入选择的行 43 2.3.5 密码保护 44 2.3.6 用不同的文件格式导入数据 44 2.3.7 导入数据压缩 45 2.4 控制并行 45 2.5 编码NULL值 47 2.6 将数据导入Hive表 47 2.7 将数据导入HBase 47 2.7.1 使用自由形式查询 48 2.7.2 重命名Sqoop作业 48 2.8 导出数据 49 2.8.1 批量导出 50 2.8.2 原子导出 50 2.9 将数据导出至列的子集 50 2.10 Sqoop中的驱动程序和连接器 51 2.10.1 驱动程序 51 2.10.2 连接器 52 2.10.3 连接到数据库 52 2.11 Sqoop架构概览 54 2.12 Sqoop 2 55 2.12.1 Sqoop 2的优势 56 2.12.2 易于扩展 56 2.12.3 57 练*8 备忘单 60 第3讲 Flume 62 3.1 Flume简介 63 3.1.1 Flume架构 64 3.1.2 流可靠性 66 3.2 Flume配置文件 66 3.2.1 流定义 67 3.2.2 配置单个组件 67 3.2.3 在代理中添加多个流 68 3.2.4 配置多代理流 69 3.2.5 配置流扇出 70 3.3 设置Flume 71 3.3.1 安装Flume 71 3.3.2 配置Flume代理 72 3.3.3 数据消费 74 3.4 构建Flume 77 3.4.1 获得源点 77 3.4.2 编译/测试Flume 77 3.4.3 开发自定义组件 77 练*td> |
编辑 | |
学*和 * 涵盖了大数据*备的所有大数据和Hadoop基础组件及相关组件的基本知识,使参与者有可能在一个系列书中获得对所有相关知识、新兴技术*台的了解。 * 在与大数据架构、大数据应用程序开发以及与大数据实施相关的产业相关技术有着极密切关联的编程和技术领域中,锻炼自己全面的和结构化的本领。 * 基于场景的学*,通过多种有代表性的现实场景的使用和案例研究,将IT 基础知识融入现实环境,鼓励参与者积极、全面地学*究,实现体验式教学。 * 强调目标明确、基于成果的学*一讲都以“本讲目标”开始,该目标*一步关联整个教程的更广泛的目标。 * 简明、循序*的编程和编码指导,清晰地解释每行代码的基本原理。 * 强调、实用的过程和技术,帮助参与者深入理解巧妙且符合道德伦理的专业实践及其对业务的影响。 大数据是当今科技行业的流行语之一。全的企业都已经意识到可用的大量数据的价值,并尽*努力来管理和分析数据、发挥其作用,以建立战略和发展竞争优势。与此同时,这项技术的出现,导致了各种新的和增强的工作角色的演变。 “大数据*教程”系列的目标是培养新一代的化大数据程序员、*和技术专家,使其熟悉大数据的相关工具*台和架构,帮助企业有效地存储、管理并处理海量和多样的数据。同时,本书还有助于读者了解如何有效地整合、实现、定制和管理大数据基础架构。 本系列旨在为读者提供处理大数据的技术、存储、处理、管理和基础架构方面的技能,丰富读者与Hadoop 及其组件工具协同工作的经验,并使其可以开发MapReduce和Pig程序,纵分布式文件,以及了解支持MapReduce程序的API等。读者同时可以熟悉*行的Hadoop 商业发行版系统,如Cloudera、Hortonworks和Greenplum等。*后通过一个完整的项目介绍,使读者能够开发一个集成的大数据应用程序。 本系列共两卷,第1卷“大数据技术与编程基础*含4 个模块,涉及大数据入门,管理大数据生态系统,使用HDFS 和MapReduce 存储和处理数据,利用Hadoop工具(如Hive、Pig 和Oozie等)提升效率;第2卷“NoSQL、Hadoop组件及大数据实施*含3个模块,涉及ZooKeeper、Sqoop、Flume、YARN 和Storm等额外的Hadoop工具,如何利用NoSQL和Hadoop实现实时、和云,以及Hadoop商业发行版和管理工具简介。 |