基本信息
- 商品名:正版新书 Hadoop虚拟化 管理虚拟化Hadoop的入门书籍 对大数据计算分析 为可扩展性和业务
- ISBN:9787115497543
- 定价:89.00
- 出版社:人民邮电出版社
- 作者:[美]□□·特鲁希略(George,Trujillo),查尔斯·吉姆(Charles,Kim),史蒂夫·琼斯(Steve
参考信息(以实物为准)
- 出版时间:2019-02-01
- 印刷时间:
- 版次:1
- 印次:1
- 包装:平装
- 开本:16开
- 用纸:胶版纸
- 页数:358
- 字数:
编辑推荐
本书的作者是大数据基础设施、VMware软件和数据架构方面的专家,在构建企业数据解决方案有多年的行业经验。本书专门介绍虚拟化Hadoop。现在市面上没有专门介绍Hadoop虚拟化的书。
内容简介
本书旨在帮助读者了解和掌握不同虚拟化Hadoop选择的优缺点、虚拟化Hadoop的配置及其注意事项。本书共分15章,主要内容包括Hadoop平台在企业转型中扮演的重要角色、Hadoop基础概念、YARN与HDFS、现代数据平台、数据采集、Hadoop SQL引擎、Hadoop中的多租户、虚拟化基础、虚拟化Hadoop实践、虚拟化Hadoop、虚拟化Hadoop主服务器、虚拟化Hadoop工作节点、私有云中的Hadoop即服务、Hadoop安装以及Hadoop Linux配置。
目录
目录
□ □章 了解大数据的世界 1
1.1 数据革命 1
1.□ 传统数据系统 3
1.□.1 半结构化和非结构化数据 4
1.□.□ 因果关系 6
1.□.3 数据挑战 6
1.3 现代数据架构 14
1.4 组织转型 15
1.5 行业转型 17
1.6 小结 17
第 □章 Hadoop基础概念 18
□.1 Hadoop中的数据类型 18
□.□ 使用案例 19
□.3 什么是Hadoop □0
□.4 Hadoop发行版本 □5
□.5 Hadoop框架 □5
□.6 NoSQL数据库 □9
□.7 Hadoop集群 33
□.8 Hadoop软件进程 36
□.9 Hadoop生态中的角色 45
□.10 小结 48
第3章 YARN和HDFS 49
3.1 Hadoop分布式集群 49
3.□ Hadoop目录结构 53
3.3 Hadoop分布式文件系统 54
3.3.1 YARN日志 56
3.3.□ NameNode 57
3.3.3 DataNode 58
3.3.4 块分布 60
3.3.5 NameNode配置和元数据管理 6□
3.4 机架感知 67
3.4.1 块管理 67
3.4.□ 均衡器 68
3.4.3 群集中的数据完整性维护 68
3.4.4 配额和垃圾桶 76
3.5 YARN和YARN处理模型 76
3.5.1 在YARN上运行应用 83
3.5.□ 资源调度器 88
3.5.3 基准测试 9□
3.5.4 TeraSort基准测试组件 94
3.6 小结 96
第4章 现代数据平台 98
4.1 设计一个Hadoop集群 98
4.□ 小结 115
第5章 数据提取 117
5.1 提取、加载和转化 117
5.1.1 Sqoop:数据移动和SQL源 118
5.1.□ Flume:流数据 1□3
5.1.3 Oozie:计划和工作流 140
5.1.4 Falcon:数据生命周期管理 145
5.1.5 Kafka:实时数据流 148
5.□ 小结 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.□ Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的乐趣 166
6.4.1 Hive 166
6.4.□ HCatalog 180
6.5 小结 187
第7章 Hadoop多租户 188
7.1 保障访问 189
7.1.1 认证 189
7.1.□ 审计 194
7.1.3 授权 194
7.1.4 数据保护 196
7.1.5 数据隔离 □03
7.1.6 进程隔离 □11
7.□ 小结 □14
第8章 虚拟化基础 □15
8.1 Hadoop虚拟化的原因 □16
8.□ 小结 □31
参考文献 □31
第9章 Hadoop虚拟化□佳实践 □3□
9.1 有目的、有调理地进行Hadoop虚拟化 □3□
9.1.1 目的始于明确的目标 □34
9.1.□ Hadoop不同层次虚拟化 □34
9.1.3 行业□佳实践 □36
9.□ 小结 □49
□ □0章 Hadoop虚拟化 □50
10.1 如何管理Hadoop生态 □51
10.1.1 构建敏捷和弹性的企业Hadoop平台 □5□
10.1.□ 澄清条款 □5□
10.1.3 从裸机到虚拟化的历程 □53
10.□ 为何考虑Hadoop虚拟化 □54
10.□.1 Hadoop虚拟化的好处 □55
10.□.□ 虚拟化可以跟本地运行一样快甚至更快 □56
10.□.3 协调和交叉目的专业化是未来 □58
10.□.4 障碍可以是在企业之前 □59
10.□.5 虚拟化不是全部或不是一个选项 □59
10.□.6 快速配置并提高开发和测试环境质量 □59
10.□.7 使用虚拟化提升高可用性 □61
10.□.8 使用虚拟化处理Hadoop工作负载 □61
10.□.9 基于云的Hadoop □6□
10.□.10 大数据扩展 □6□
10.□.11 虚拟化的途径 □63
10.□.1□ 软件定义数据中心 □64
10.□.13 虚拟化网络 □65
10.□.14 vRealize Suite □66
10.3 小结 □67
参考文献 □68
□ □1章 Hadoop虚拟化主服务器 □69
11.1 Hadoop虚拟化集群服务器 □69
11.1.1 Hadoop周边环境虚拟化 □70
11.1.□ Hadoop主服务器虚拟化 □71
11.1.3 无SAN虚拟化 □74
11.□ 小结 □75
□ □□章 虚拟化工作节点 □76
1□.1 Hadoop中的工作节点 □76
1□.□ Hadoop集群的部署模式 □77
1□.□.1 组合模式 □78
1□.□.□ 分离模式 □81
1□.□.3 数据-计算分离的网络影响 □83
1□.□.4 数据-计算分离模式下的共享存储方式 □84
1□.□.5 用于应用临时数据的本地磁盘 □86
1□.□.6 使用网络附加存储(NAS)的共享存储架构模型 □86
1□.□.7 部署模式总结 □88
1□.3 Hadoop虚拟化工作节点的□佳实践 □89
1□.4 Hadoop虚拟化扩展 □93
1□.5 小结 □96
参考文献 □96
资源 □97
□ □3章 私有云中部署Hadoop即服务 □98
13.1 云概念 □98
13.1.1 Hadoop的受益者 □99
13.1.□ 解决方案架构概述 303
13.□ 小结 305
参考文献 305
□ □4章 掌握Hadoop的安装 306
14.1 为正确的场景使用正确的解决方案 306
14.□ 配置仓库 308
14.□.1 安装HDP□.□ 310
14.□.□ 环境准备 310
14.3 设置Hadoop配置 3□0
14.4 启动HDFS和YARN 3□5
14.4.1 启动YARN 3□7
14.4.□ 验证MapReduce功能 3□9
14.5 安装和配置Hive 331
14.6 安装和配置MySQL数据库 331
14.7 安装和配置Hive和HCatalog 331
14.8 小结 334
□ □5章 为Hadoop配置Linux 336
15.1 支持的Linu□□台 337
15.□ 不同部署模式 337
15.3 Linux黄金模板 337
15.3.1 构建企业级Linux Hadoop平台 338
15.3.□ Linux版本选择 341
15.4 □优Linux内核参数和系统设置 341
15.4.1 epoll 341
15.4.□ 禁用交换空间 34□
15.4.3 安装过程中的安全性禁用 34□
15.4.4 IO调度器调优 344
15.4.5 检查透明大内存页面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分区对齐 345
15.4.8 文件系统注意事项 345
15.4.9 XFS惰性计算参数 347
15.4.10 Mount选项 347
15.4.11 I/O调度器 348
15.4.1□ 磁盘读写选项 350
15.4.13 存储基准测试 350
15.4.14 Java版本 351
15.4.15 设置NTP 351
15.4.16 启用巨型帧 35□
15.4.17 其他网络方面的考虑 353
15.5 小结 355
附录 Hadoop集群创建:先决条件检查表 356
作者简介
George J. Trujillo, Jr. 是一名经验丰富且具有高沟通能力的企业高管。他是□革管理专家,具备强大的领导力、批判性思维且善于用数据驱动决策。George在大数据和云解决方案领域是国际公认的数据架构师和讲师。他涉足的领域包括大数据架构、Hadoop(Hortonworks、Cloudera)、数据治理、数据库模式设计、元数据管理、安全、NoSQL和商业智能(BI)。他拥有众多的行业认证,其中包括Oracle双ACE认证、Sun 微系统应用中间平台Sun大使、VMware认可vExpert、VMware认证讲师、MySQL苏格拉底奖获得者和MySQL认证数据库管理员(DBA)。同时,他在用户社区中的领导地位包括Independent Oracle Users Group(IOUG)董事会成员、IOUG Cloud SIG□□、RMOUG Big Data SIG□□、OracleFusion Council和Oracle BetaOracle Beta Leadership Council委员,并被IOUG推选加入“Oracles of Oracle”圈子,同时也是IOUG’s Master Series演讲大师。George的工作职位包含金融服务行业大数据架构副总裁、Hortonworks大数据专家、VMware Center of Excellence以及专业服务和培训组织的CEO。
Charles Kim是Viscosity North America公司总裁,该公司是一家专门从事大数据、Oracle Exadata/RAC和虚拟化的利基咨询机构。Charles是Hadoop大数据、Linux基础架构、云计算、虚拟化、工程化系统和Oracle集群技术方面的架构师。同时,Charles也是Oracle出版社、培生出版集团和Apress出版社Oracle、Hadoop和Linux技术领域的作者。他有Oracle、VMware、Red Hat Linux和Microsoft认证,在关键任务和关键业务系统上有超过□3年的IT从业经历。