本篇主要提供大数据技术体系详解:原理、架构与实践电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
(1)作者是资深大数据专家,经验极其丰富,著有《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》两本畅销书。
(2)从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个方面详细讲解全栈大数据技术。
这是一部系统、深度讲解大数据技术栈的著作,从数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化6个层次讲解了整个大数据技术体系中所有核心技术的原理、架构与实践。不仅能让读者从宏观上全面认识整个大数据系统,而且还能让读者从微观上深入理解各种大数据技术的细节。
本书将以数据在大数据系统中的生命周期为线索,一共17章,分为七个部分:
第一部分(第1章):概述
主要介绍企业级大数据技术框架、技术实现方案和架构,包括Google的大数据技术栈和以Hadoop和Spark为代表的开源技术栈。
第二部分(第2-4章):数据收集
讲解大数据收集相关技术,主要涉及关系型数据收集工具Sqoop与Canel,非关系型数据收集系统Flume以及分布式消息队列Kafka。
第三部分(第5-7章):数据存储
讲解大数据存储相关技术,涉及数据存储格式,分布式文件系统以及分布式数据库三部分,包括Thrift、Protobuf、Avro、HDFS和HBase等。
第四部分(第8-9章):分布式协调与资源管理
讲解资源管理和服务协调相关技术,涉及资源管理和调度系统YARN以及资源协调系统Zookeeper。
第五部分(第10-13章):计算引擎
讲解计算引擎相关技术,涉及批处理、交互式处理以及流式实时处理三类引擎,包括MapReduce、Spark、Impala/Presto、Storm等常用技术。
第六部分(第14-16章):数据分析
讲解数据分析相关技术,涉及基于数据分析语言HQL与SQL,大数据统一编程模型及机器学习库等。
第七部分(第17章):应用案例
讲解了3个企业级大数据综合应用案例,包括Lambda架构、基于大数据技术的数据仓库、用户行为实时统计系统。
董西成
资深大数据技术实践者和研究者,对大数据基础架构有非常深刻的认识和理解,有着丰富的实践经验。熟悉常见的开源大数据解决方案,包括Hadoop和Spark生态系统等,擅长底层分布式系统的优化和开发。撰写了大量关于Hadoop和Spark等大数据相关的技术文章并分享在自己的博客上,由于文章技术含量高,所以非常受欢迎。
出版有大数据领域负有盛名的专著:《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》。
个人博客:http://dongxicheng.org/(大量关于Hadoop的干货分享)
微信公众账号:hadoop123(大量关于大数据最新资讯和干货分享)
如果想了解更多关于本书的内容,可访问:http://hadoop123.com/