本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
商品基本信息,请以下列介绍为准 | |
商品名称: | ALLUXIO:大数据统一存储原理与实践 |
作者: | 范斌 |
定价: | 79.0 |
出版社: | 电子工业出版社 |
出版日期: | 2019-07-01 |
ISBN: | 9787121367823 |
印次: | |
版次: | |
装帧: | |
开本: | 24开 |
内容简介 | |
Alluxio 这一以内存为中心的分布式虚拟文件系统,*初诞生于加州大学伯克利分校的 AMPLab,其开源社区在目前大数据生态系统中发展很快。本书以广泛使用的 Alluxio 1.8.1 版本为基行编写,是一本全面介绍 Alluxio 相关技术原理与实践案例的书籍。本书主要内容包括 Alluxio 系统快速入门、Alluxio 系统架构及读写工作机制、Alluxio 与底层存储系统的集成、Alluxio 与上层计算框架的集成、Alluxio 能的介绍与使用。此外,本书还详细介绍了 Alluxio 的应用案例与生产实践,并详细解读了 Alluxio 的核心框架和技术应用,旨在为大数据从业人员和大数据存储技术爱好者提供一个深入学台,也可用作开源社区开发者指南。 |
目录 | |
第 1 章 Alluxio 系统快速入门 ............................................................................................. 1 1.1 Alluxio 背景概述 ..................................................................................................... 1 1.1.1 Alluxio 能简介 ................................................................................. 4 1.1.2 Alluxio 项目发展历史 ................................................................................. 5 1.2 获取/编译 Alluxio 软件 ........................................................................................... 6 1.2.1 预编译的 Alluxio 可执行包 ................................................................ 6 1.2.2 编译 Alluxio 源代码 .................................................................................... 6 1.3 Alluxio 的搭建部署及程序运行 ........................................................................... 10 1.3.1 单机模式 .................................................................................................... 10 1.3.2 集群模式 .................................................................................................... 13 1.3.3 高可用集群模式 ........................................................................................ 16 第 2 章 Alluxio 系统架构及读写工作机制 ....................................................................... 22 2.1 Alluxio 的构架简介与基本特征 ........................................................................... 22 2.1.1 提升远程存储读写性能 ............................................................................ 23 2.1.2 统一持久化数据访问接口 ........................................................................ 24 2.1.3 数据的快速复用和共享 ............................................................................ 26 2.2 Alluxio 的能组件 ....................................................................................... 27 2.2.1 Alluxio Master 组件 ................................................................................... 27 2.2.2 Alluxio Worker 组件 .................................................................................. 29 2.2.3 Alluxio Client 组件 .................................................................................... 30 2.3 Alluxio 读写场景的行为分析 ............................................................................... 31 2.3.1 Alluxio 的读场景数据流 ........................................................................... 31 2.3.2 Alluxio 的写场景数据流 ........................................................................... 37 第 3 章 Alluxio 与底层存储系统的集成 ........................................................................... 40 3.1 配置 HDFS 作为 Alluxio 底层存储 ...................................................................... 40 3.1.1 准备步骤与基本配置流程 ........................................................................ 41 3.1.2 参数配置 ............................................................................................ 43 3.1.3 使用 HDFS 在本地运行 Alluxio ............................................................... 44 3.2 配置 Secure HDFS 作为 Alluxio 底层存储 .......................................................... 44 3.2.1 准备步骤与基本配置流程 ........................................................................ 45 3.2.2 使用认证模式 HDFS 在本地运行 Alluxio ....................................... 46 3.3 配置 AWS S3 作为 Alluxio 底层存储 .................................................................. 47 3.3.1 准备步骤与基本配置流程 ........................................................................ 47 3.3.2 参数配置 ............................................................................................ 49 3.3.3 使用 S3 在本地运行 Alluxio ..................................................................... 51 3.4 配置 Google GCS 作为 Alluxio 底层存储 ........................................................... 52 3.4.1 准备步骤与基本配置流程 ........................................................................ 52 3.4.2 参数配置 ............................................................................................ 53 3.4.3 使用 GCS 本地运行 Alluxio ..................................................................... 54 3.5 配置 Azure BLOB Store 作为 Alluxio 底层存储系统 ........................................ 55 3.5.1 准备步骤与基本配置流程 ........................................................................ 55 3.5.2 使用 Azure BLOB Store 本地运行 Alluxio .............................................. 57 第 4 章 Alluxio 与上层计算框架的集成 ........................................................................... 58 4.1 Alluxio 的管理员作命令 ................................................................................... 58 4.1.1 作命令列表 ............................................................................................ 59 4.1.2 作命令示例 ............................................................................................ 59 4.2 Alluxio 的用户作命令 ....................................................................................... 61 4.2.1 作命令列表 ............................................................................................ 62 4.2.2 作命令示例 ............................................................................................ 65 4.3 Alluxio 与 Hadoop 作命令行的集成 ................................................................ 78 4.3.1 前期准备与配置 ........................................................................................ 78 4.3.2 具体使用示例 ............................................................................................ 79 4.4 Alluxio 与 Hadoop MapReduce 的集成 ................................................................ 79 4.4.1 前期准备与配置 ........................................................................................ 80 4.4.2 具体使用示例 ............................................................................................ 82 4.5 Alluxio 与 Spark 的集成 ....................................................................................... 83 4.5.1 前期准备与配置 ........................................................................................ 83 4.5.2 使用 Alluxio 作为输入/输出源 ................................................................. 85 4.5.3 Alluxio 与 Spark 集成常见问题分析与解决 ............................................ 86 4.6 Alluxio 与 Hive 的集成 ......................................................................................... 89 4.6.1 安装并配置 Hive 环境 .............................................................................. 89 4.6.2 使用 Alluxio 存储部分 Hive 表 ................................................................ 90 4.6.3 使用 Alluxio 作为默认文件系统(存储全部数据) .............................. 93 4.6.4 检查 Hive 和 Alluxio 的集成情况(支持 Hive 2.x) ............................. 95 4.7 Alluxio 与 Presto 的集成 ....................................................................................... 96 4.7.1 前期准备 .................................................................................................... 96 4.7.2 部署分发 Alluxio 客户端 jar 包 ................................................................ 98 4.7.3 Presto 作命令示例 ................................................................................. 98 4.8 Alluxio 与 TensorFlow 的集成 ........................................................................... 100 4.8.1 深度学的数据挑战 ...................................................................... 100 4.8.2 基于 Alluxio |
编辑推荐 | |
√ Alluxio创始人及实践先驱联合力荐 √ 深度解密Alluxio核心概念与技术应用 √ 基于国内一线互联网企业真实案例技术剖析 √ 项目PMC&Maintainer凝聚钻研实力与超前视野 |
媒体评论 | |
Alluxio能够面向集群计算框架(如Apache Spark和Hadoop MapReduce)提供一个抽象现有不同存储特点的存储层,从而支撑大数据存储系统的快速。这一点与IP层支撑了互联网的快速很类似。 Ion Stoica 加州大学伯克利分校教授,Apache Spark联合创始人 DataBricks公司联合创始人兼席执行官,加州大学伯克利分校AMPLab共同负责人 大数据分析正在驱动分布式内存去满足实时流处理、交互式查询分析及图计算的新需求。我们很高兴能够与Alluxio社区的开发者一起工作,是优化Alluxio基于Inte台的解决方案,这将帮助我们为客户创造出更具创新性且高性能的云和大数据解决方案。 Michael Greene 英特尔公司副总裁 作为上较大的互联网公司之一,百度不断面临着管理PB级规模数据带来的挑战。通过采用Alluxio等创新技术,我们能够帮助用户快速抽取出有意义、有价值的数据。我们部署的一个Alluxio集群超过了1000台workers,这也是上较大的Alluxio集群之一。Alluxio的层次化能为我们提供了很好的管理大规模数据的灵活性。我们观察到,在支持交互式查询系统等业务时,能够取均10倍、*30倍的性能提升,这有效地提升了做出重要商业决策的速度。 James Peng pony.ai创始人兼CEO,百度前席架构师 随着云计算业务的发展,集团管理着越来越多的大型数据中心。通过阿里云OSS与Alluxio的整合,以及其他阿里云服务产品的支撑,我们的用户可以利用新潮的硬件技术,以*的性能运行重要作业。我们一直在为Alluxio开源社区做贡献,并且相信Alluxio会在未来的大数据架构中扮演重要的角色。 章文嵩 滴滴出行副总裁,阿里云前副总裁 LVS(Linux Virtual Server,Linux虚拟服务器)开源软件创始人 Alluxio是源自于AMPLab的一个具有重大影响力的开源项目。为了能够支撑不断拓展的大数据应用案例,存储层正在快速,Alluxio技术在其中扮演着具有重大颠覆性的角色。 Michael Franklin 加州大学伯克利分校AMPLab负责人 |