作 者:(美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超 译
定 价:69
出 版 社:人民邮电出版社
出版日期:2018年04月01日
页 数:211
装 帧:平装
ISBN:9787115479648
●前言ix
●第一部分 分布式计算入门
●第1章 数据产品时代2
●1.1 什么是数据产品2
●1.2 使用Hadoop构建大规模数据产品4
●1.2.1 利用大型数据集4
●1.2.2 数据产品中的Hadoop5
●1.3 数据科学流水线和Hadoop生态系统6
●1.4 小结8
●第2章 大数据操作系统9
●2.1 基本概念10
●2.2 Hadoop架构11
●2.2.1 Hadoop集群12
●2.2.2 HDFS14
●2.2.3 YARN15
●2.3 使用分布式文件系统16
●2.3.1 基本的文件系统操作16
●2.3.2 HDFS文件权限18
●2.3.3 其他HDFS接口19
●2.4 使用分布式计算20
●部分目录
通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览,为数据科学家深入了解特定主题领域铺平道路,从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分,第 一部分从很好高的层次介绍分布式计算,讨论如何在集群上运行计算;第二部分则重点关注数据科学家应该了解的工具和技术,意在为各种分析和大规模数据管理提供动力。
(美)本杰明·班福特(Benjamin Bengfort),(美)珍妮·基姆(Jenny Kim) 著;王纯超 译
本杰明·班福特(Benjamin Bengfort),数据科学家,目前正在马里兰大学攻读博士学位,方向为机器学习和分布式计算;熟悉自然语言处理、Python数据科学、Hadoop和Spark分析等。
珍妮·基姆(Jenny Kim),经验丰富的大数据工程师,不仅进行商业软件的开发,在学术界也有所建树,在海量数据、机器学习以及生产和研究环境的Hadoop实施方面有深入研究。目前任职于Cloudera的Hue团队。