本篇主要提供实战Hadoop2.0――从云计算到大数据电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
深入解读Hadoop2.0,全新升级,实战性更强。
书是刘鹏教授主编的国内**本Hadoop编程书籍《实战Hadoop》的第二版。Hadoop堪称业界*经典的开源云计算和大数据平台软件。本书介绍了Hadoop 2.0生态圈的核心和扩展组件,包括:管理工具Ambari、分布式文件HDFS、分布式资源管理器YARN、分布式并行处理MapReduce、内存型计算框架Spark、数据流实时处理Storm、分布式锁服务ZooKeeper、分布式数据库HBase、数据仓库工具Hive,以及Pig、Oozie、Flume、Mahout等。
刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得计算机排序比赛,并二次夺得全国高校科技比赛高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。
目 录|第1章| 大数据组件概述1
1.1 Google大数据组件2
1.2 Apache大数据组件6
1.2.1 Hadoop核心组件7
1.2.2 基于MR的数据分析组件10
1.2.3 数据库组件16
1.2.4 BSP组件19
1.2.5 基于YARN框架组件20
1.2.6 基于YARN的编程类库组件24
1.2.7 搜索引擎组件25
1.2.8 工作流组件26
1.2.9 数据流组件27
1.2.10 序列化和持久化组件29
1.2.11 调试工具30
1.2.12 安全性组件31
1.2.13 兼容性组件33
1.2.14 集群部署与管理组件33
习题34
参考文献35
|第2章| 大数据集群39
2.1 大数据集群简介40
2.2 大数据集群bigCstor45
2.3 我的大数据集群littleCstor48
2.4 小结52
习题52
参考文献53
|第3章| 集群管理工具Ambari55
3.1 Ambari简介56
3.2 使用Ambari部署HDP59
3.3 使用Ambari搭建littleCstor62
3.3.1 相关约定62
3.3.2 制定部署规划63
3.3.3 搭建prelittleCstor64
3.3.4 本地建仓72
3.3.5 部署AmbariServer77
3.3.6 搭建littleCstor83
3.3.7 小结105
3.4 使用Ambari管理littleCstor110
3.5 小结111
习题111
参考文献111
|第4章| 分布式文件HDFS113
4.1 分布式存储引例114
4.1.1 问题描述114
4.1.2 常规解决方案115
4.1.3 分布式解决方案117
4.2 HDFS简介124
4.2.1 HDFS逻辑架构124
4.2.2 HDFS物理拓扑129
4.2.3 HDFS部署133
4.2.4 HDFS其他概念[9]135
4.3 HDFS接口138
4.4 实战HDFS Shell140
4.4.1 HDFS文件级命令集141
4.4.2 HDFS级命令集143
4.5 实战WebHDFS149
4.5.1 WebHDFS简介149
4.5.2 WebHDFS示例151
4.6 实战HDFS JAVA API156
4.6.1 搭建开发环境156
4.6.2 常规操作示例158
4.7 实战HDFS大项目:用HDFS存储海量视频数据163
4.7.1 应用场景163
4.7.2 设计实现164
习题166
参考文献166|第5章| 分布式资源管理器YARN169
5.1 分布式资源管理器引例170
5.1.1 分布式资源管理器简介170
5.1.2 分布式资源管理器架构173
5.2 YARN简介177
5.2.1 基础概念177
5.2.2 物理拓扑179
5.2.3 体系架构180
5.2.4 集群部署190
5.3 YARN接口192
5.4 实战YARN Shell194
5.4.1级命令195
5.4.2 程序级命令197
5.4.3 其他辅助命令199
5.5 实战YARN编程199
5.5.1 常见并行化范式199
5.5.2 YARN编程步骤205
5.6 实战YARN编程之DistributedShell213
5.6.1 DistributedShell简介213
5.6.2 编写DistributedShell214
5.7 实战YARN编程之三大范式221
5.7.1 DistributedShell222
5.7.2 MapReduce222
5.7.3 Giraph223
习题224
参考文献224
|第6章| 分布式并行处理MapReduce225
6.1 并行化范式M-S-R引例226
6.1.1 问题描述226
6.1.2 常规解决方案227
6.1.3 分布式解决方案228
6.1.4 小结234
6.2 MapReduce简介[1]234
6.2.1 基本概念235
6.2.2 编程模型237
6.2.3 集群部署239
6.2.4 体系架构241
6.2.5 执行过程245
6.3 MapReduce接口247
6.4 实战MapReduce Shell250
6.5 实战MapReduce编程253
6.6 实战MapReduce编程之WordCount[3]256
6.6.1 WordCount代码分析256
6.6.2 WordCount处理过程260
6.7 实战MapReduce编程之SecondarySort261
6.8 实战MapReduce编程之倒排索引265
6.8.1 简介265
6.8.2 分析与设计266
6.8.3 倒排索引完整源码269
6.9 实战MapReduce之性能优化271
习题280
参考文献280
|第7章| 分布式锁服务ZooKeeper281
7.1 ZooKeeper简介282
7.1.1 ZooKeeper应用场景282
7.1.2 ZooKeeper体系架构[3]285
7.1.3 ZooKeeper服务模型287
7.1.4 ZooKeeper部署289
7.2 ZooKeeper接口292
7.2.1 接口汇总292
7.2.2 实战ZooKeeper Shell292
7.3 实战ZooKeeper编程294
7.4 实战ZooKeeper之进程通信296
7.5 实战ZooKeeper之进程调度297
7.5.1 设计方案297
7.5.2 设计实现297
7.6 实战ZooKeeper之实现NameNode自动切换303
7.6.1 设计思想304
7.6.2 详细设计304
7.6.3 编码305
7.6.4 实战总结310
习题311
参考文献311
|第8章| 分布式数据库HBase313
8.1 HBase简介314
8.1.1 体系架构314
8.1.2 数据模型320
8.1.3 集群部署[21]321
8.2 HBase接口326
8.3 实战HBase Shell327
8.4 实战HBase API329
8.5 实战HBase之综例330
8.6 实战HBase之使用MapReduce构建索引332
8.6.1 索引表蓝图332
8.6.2 HBase和MapReduce333
8.6.3 实现索引334
习题336
参考文献337
|第9章| 内存型计算框架Spark339
9.1 Spark简介340
9.1.1 基础概念340
9.1.2 体系架构346
9.1.3 集群部署358
9.1.4 计算模型366
9.1.5 工作机制374
9.1.6 其他特性375
9.2 Spark接口377
9.3 实战Spark Shell379
9.3.1 集群管理379
9.3.2 任务管理381
9.4 实战Spark编程之RDD383
9.4.1 RDD属性383
9.4.2 并行化证明RDD、调试RDD386
9.4.3 RDD操作389
9.5 实战Spark之WordCount[3]396
9.6 实战Spark之MLLib397
习题398
参考文献398|第10章| 数据流实时处理Storm399
10.1 Storm简介400
10.1.1 与Hadoop的关系400
10.1.2 基础概念402
10.1.3 体系架构408
10.1.4 集群部署[4]412
10.1.5 计算模型421
10.2 Storm接口450
10.3 实战Storm Shell452
10.4 实战Storm API之RollingTopWords455
习题457
参考文献458
|第11章| 数据仓库工具Hive459
11.1 Hive简介460
11.1.1 工作原理460
11.1.2 体系架构461
11.1.3 计算模型462
11.1.4 集群部署463
11.2 Hive接口467
11.2.1 接口汇总467
11.2.2 实战Hive Web467
11.3 实战Hive Shell468
11.3.1 DDL Operations468
11.3.2 DML Operations469
11.3.3 SQL Operations470
11.4 实战Hive之复杂语句471
11.5 实战Hive之综合示例473
11.6 实战Hive API接口474
11.6.1 UDF编程示例[3]474
11.6.2 UDAF编程示例475
习题477
参考文献477
|第12章| 其他常见大数据组件479
12.1 Pig480
12.1.1 Pig简介480
12.1.2 实战Pig483
12.2 Oozie483
12.2.1 Oozie简介483
12.2.2 实战Oozie[4]485
12.3 Flume487
12.3.1 Flume简介487
12.3.2 Flume入门489
12.4 Mahout492
12.4.1 Mahout简介492
12.4.2 Mahout入门492
习题494
参考文献494
|附录A| 手工部署Hadoop2.0495
一、部署综述496
二、部署步骤500
第二版前言
本书版早在2011年9月就出版了,是国内本Hadoop编程书籍。经过5年发展,我们欣喜地看到,Hadoop已经在我国遍地开花,成为云计算、大数据领域受欢迎的开源平台。
这些年来,经过众多企业和个人的共同参与,Hadoop生态圈取得了长足进步。核心版本从1.x升级到2.x,并出现了以Spark和Storm为代表的全新开源软件。本书第二版的目的就是追踪新技术,使得读者能够尽快迈进前沿。
编者从1988年在通信工程学院跟随谢希仁教授从事计算机网络的研究, 2000年起在清华大学跟随李三立院士从事分布式计算的研究,先后以计算机网络、网格计算、云计算和大数据为研究重点,出版了《网格计算》、《云计算》(、二、三版)、《实战Hadoop》、《云计算大数据处理》、《军事信息栅格理论与技术》等书。其中,《云计算》已经成为全国高校教材,成为云计算从业者的“红宝书”,其配套PPT下载量逾百万次。目前,编者正联合全国多所高校和知名企业,以同样的高标准编著《大数据》教材,即将于2016年中出版。这些年来,编者还创办了中国云计算(www.chinacloud.cn)、中国大数据(www.thebigdata.cn)、中国物联网(www.netofthings.cn)、中国智慧城市(www.smartcitychina.cn)等网站,这些网站均在搜索引擎排名。希望自己所做的工作,对大家有所裨益。
下列同志参与了本书版的编写工作,第二版中隐含了他们的贡献。他们是:黄宜华、陈卫卫、程浩、王磊、顾荣、张贞、邓鹏、杨晓亮、郭岩岩、李浩、魏家宾、王胤然、张欣、王海坤等。本书的编写得到了云计算、大数据领域的领军企业云创大数据(网址:www.cstor.cn,微信公众号:cStor_cn,股票简称:云创数据,股票代码:835305)在软硬件环境和技术上的大力支持。在此,一并致谢!
由于编者水平有限,请读者提宝贵意见!邮箱:gloud@126.com。编者还设有微信公众号:刘鹏看未来(lpoutlook),与大家分享对科技未来的看法,并提供各种课件、资料和视频。
刘鹏 教授
2016年2月1日