本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
“数据湖”已经成为大数据行业的一个重要术语,它是数据科学家们获得有意义的洞察力的平台,这些洞察力可以被企业用来重新定义或改变它们的运营方式。Lambda架构作为大数据领域的杰出模式之一也应运而生。
本书旨在帮助你选择正确的大数据技术并使用Lambda架构模式来为企业构建自己的数据湖。全书主要分为三部分,第一部分介绍数据湖的概念、数据湖在企业中的重要性以及Lambda架构。第二部分深入研究使用Lambda架构构建数据湖所需的主要技术组件,介绍流行的大数据技术,如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。第三部分展示一些非常实用的数据湖落地建议,包括企业应如何建立一个真实的数据湖,以及提高数据湖运营效率所需的其他技术组件。第三部分最后还详细介绍了几个实际的用例,以及在企业内实现这些用例时应考虑的重要方面。
本书主要分为三部分,第一部分介绍数据湖的概念、数据湖在企业中的重要性以及Lambda架构。第二部分深入研究使用Lambda架构构建数据湖所需的主要技术组件,介绍流行的大数据技术,如Apache Hadoop、Sqoop、Flume、Flink和Elasticsearch等。第三部分展示一些非常实用的数据湖落地建议,包括企业应如何建立一个真实的数据湖,以及提高数据湖运营效率所需的其他技术组件。第三部分最后还详细介绍了几个实际的用例,以及在企业内实现这些用例时应考虑的重要方面。
通过阅读本书,你将:
·使用大数据技术构建企业级数据湖。
·掌握Lambda架构的精髓,以及如何在企业内使用它。
·学习与Apache Sqoop及其功能相关的技术细节。
·Kafka与Hadoop组件集成,用于获取企业数据。
·使用Flume进行流式数据处理。
·理解Flink与流式数据处理的关系。
·Hadoop生态圈组件的协同使用,以及它们能带来的好处。
·使用Elastic Stack构建快速、流式、高吞吐应用。
·确保数据摄取处理在不同数据格式配置时的一致性。
汤姆斯·约翰(Tomcy John)是一名企业级Java技术专家,拥有工学学士学位,并且有超过14年多行业的开发经验。他目前担任Emirates Group IT核心架构部门的首席架构师。在此之前,他曾在甲骨文公司、安永公司任职。他主要擅长构建企业级应用,并且在企业内担任首席导师和布道者,以促进新技术融入企业标准技术栈。
潘卡·米斯拉(Pankaj Misra)是一名技术传播者,拥有工程学士学位,并且有超过16年跨多个业务领域的技术经验。自2015年以来,他一直在Emirates Group IT任职。他擅长架构和构建多技术栈的解决方案及实现。他在印度的技术论坛上也是一名活跃分子,参与过多个海量数据、可水平扩展的近实时数据处理和分析产品的构建。
印象中这是我读过的首本数据湖著作。数据湖逐渐演变成大数据架构的通用解决方案。本书对数据湖及Lambda架构有非常精准的介绍,理论性跟实践性结合得很好。在WiFi万能钥匙的很多业务线中都有数据湖应用场景,如果能早点读到本书,相信能极大减少技术探索的时间。
—— 章动,WiFi万能钥匙精准内容大数据总监
数据湖遵循了Lambda架构设计理念,整合了现有的各项大数据技术,从而实现了离线与在线、批量与流式的有机统一。本书介绍的设计思想和具体技术实现,包括对现有技术的评估选型,都极具参考价值。
—— 梁磊,蚂蚁金服人工智能高级技术专家
数据湖技术涵盖了大数据处理的全周期。本书对4V、数据获取、消息队列、ETL、大数据存储、计算引擎、Lambda架构等方面有非常精彩的叙述,深入浅出,图文并茂,值得各种层次的读者研读。
—— 左春伟,淘宝高级技术专家
如今,大数据技术通常涉及多种框架的整合,初学者往往深陷技术细节的泥潭难以自拔。数据湖是对大数据技术的系统性梳理,对其进行了模块化、可插拔的架构设计,能满足4V的弹性要求。本书对数据湖原理及Lambda架构有着非常详细的阐述,值得推荐。
—— 陈铁兵,滴滴出行资深工程师
数据湖技术是基于现有大数据技术深度整合出来的一套全面的解决方案。在DT时代,企业在运营决策上对数据有强烈的依赖,数据湖技术不仅是技术框架,更是一种思维框架。本书对数据湖技术及其设计思维方式进行了全面而深入的介绍,强烈推荐给数据开发相关的读者。
—— 王尧,美团大众点评技术专家