《剑指大数据――企业级电商数据仓库项目实战》[96M]百度网盘|pdf下载|亲测有效
《剑指大数据――企业级电商数据仓库项目实战》[96M]百度网盘|pdf下载|亲测有效

剑指大数据――企业级电商数据仓库项目实战 pdf下载

出版社 电子工业出版社京东自营官方旗舰店
出版年 2024-04
页数 390页
装帧 精装
评分 8.9(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供剑指大数据――企业级电商数据仓库项目实战电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

产品特色

内容简介

本书完整讲解了电商行业数据仓库项目的构建过程,并提供了详尽的思路分析。在整个项目构建过程中,介绍了关键技术框架的安装部署流程和经典数据指标的解决方案,并在其中穿插了大数据和数据仓库的经典理论知识。

本书从逻辑上可以分为两大部分:第一部分是第1~3章,重点讲解数据仓库的相关概念和项目需求分析,并初步介绍了数据仓库项目所需的基本环境;第二部分是第4~8章,这一部分是数据仓库项目构建的关键部分,讲解了如何对海量数据进行采集、存储和分层计算,以及如何计算得到所有的项目需求指标。

作者简介

尚硅谷教育是一家专业的IT教育培训机构,开设了JavaEE、大数据、HTML5前端等多门学科,在互联网上发布的JavaEE、大数据、HTML5前端、区块链、C语言、Python等技术视频教程广受赞誉。

目录

目 录


第1章 数据仓库概论 1
1.1 数据仓库的概念与特点 1
1.2 数据仓库的演进过程 2
1.3 数据仓库技术 3
1.4 数据仓库基本架构 5
1.5 数据库和数据仓库的区别 8
1.6 学前导读 8
1.6.1 学习的基础要求 8
1.6.2 你将学到什么 9
1.7 本章总结 9
第2章 项目需求描述 10
2.1 前期调研 10
2.2 项目架构分析 11
2.2.1 电商数据仓库产品描述 11
2.2.2 系统功能结构 12
2.2.3 系统流程图 12
2.3 项目业务概述 13
2.3.1 数据采集模块业务描述 13
2.3.2 数据仓库需求业务描述 14
2.3.3 数据可视化业务描述 15
2.4 系统运行环境 16
2.4.1 硬件环境 16
2.4.2 软件环境 16
2.5 本章总结 18
第3章 项目部署的环境准备 19
3.1 集群规划与服务器配置 19
3.2 安装JDK与Hadoop 19
3.2.1 虚拟机环境准备 19
3.2.2 安装JDK 23
3.2.3 安装Hadoop 24
3.2.4 Hadoop的分布式集群部署 25
3.3 本章总结 31
第4章 用户行为数据采集模块 32
4.1 日志生成 32
4.1.1 数据埋点 32
4.1.2 用户行为日志格式 32
4.1.3 数据模拟 37
4.2 消息队列Kafka 40
4.2.1 安装ZooKeeper 40
4.2.2 ZooKeeper集群启动、停止脚本 42
4.2.3 安装Kafka 43
4.2.4 Kafka集群启动、停止脚本 45
4.2.5 Kafka topic相关操作 45
4.3 采集日志的Flume 46
4.3.1 Flume组件 46
4.3.2 Flume安装 47
4.3.3 采集日志的Flume配置 48
4.3.4 采集日志的Flume测试 49
4.3.5 采集日志的Flume启动、停止脚本 50
4.4 消费日志的Flume 51
4.4.1 消费日志的Flume配置 51
4.4.2 时间戳拦截器 53
4.4.3 消费日志的Flume测试 56
4.4.4 消费日志的Flume启动、停止脚本 56
4.5 本章总结 57
第5章 业务数据采集模块 58
5.1 电商业务概述 58
5.1.1 电商业务流程 58
5.1.2 电商常识 59
5.1.3 电商业务表结构 59
5.1.4 数据同步策略 70
5.1.5 数据同步工具选择 72
5.2 业务数据采集 72
5.2.1 MySQL安装 72
5.2.2 业务数据生成 75
5.2.3 DataX安装 77
5.2.4 Maxwell安装 78
5.2.5 全量同步 83
5.2.6 增量同步 88
5.3 采集通道启动和停止脚本 96
5.4 本章总结 97
第6章 数据仓库搭建模块 98
6.1 数据仓库理论准备 98
6.1.1 数据建模概述 98
6.1.2 关系模型与范式理论 99
6.1.3 维度模型 102
6.1.4 维度建模理论之事实表 103
6.1.5 维度建模理论之维度表 106
6.1.6 雪花模型、星形模型与星座模型 109
6.2 数据仓库建模实践 111
6.2.1 名词概念 111
6.2.2 为什么要分层 112
6.2.3 数据仓库搭建流程 113
6.2.4 数据仓库开发规范 120
6.3 数据仓库搭建环境准备 123
6.3.1 Hive安装 123
6.3.2 Hive on Spark配置 126
6.3.3 YARN容量调度器并发度问题 128
6.3.4 数据仓库开发环境配置 129
6.3.5 模拟数据准备 131
6.3.6 复杂数据类型 133
6.4 数据仓库搭建——ODS层 134
6.4.1 用户行为日志数据 134
6.4.2 ODS层用户行为日志数据导入脚本 136
6.4.3 业务数据 138
6.4.4 ODS层业务数据导入脚本 151
6.5 数据仓库搭建——DIM层 154
6.5.1 商品维度表(全量) 154
6.5.2 优惠券维度表(全量) 159
6.5.3 活动维度表(全量) 161
6.5.4 地区维度表(全量) 163
6.5.5 营销坑位维度表 165
6.5.6 营销渠道维度表 165
6.5.7 时间维度表(特殊) 166
6.5.8 用户维度表(拉链表) 167
6.5.9 DIM层首日数据装载脚本 173
6.5.10 DIM层每日数据装载脚本 173
6.6 数据仓库搭建——DWD层 173
6.6.1 交易域加购物车事务事实表 174
6.6.2 交易域下单事务事实表 176
6.6.3 交易域支付成功事务事实表 180
6.6.4 交易域购物车周期快照事实表 185
6.6.5 交易域交易流程累积快照事实表 186
6.6.6 工具域优惠券使用(支付)事务事实表 192
6.6.7 互动域收藏事务事实表 194
6.6.8 流量域页面浏览事务事实表 195
6.6.9 用户域用户注册事务事实表 197
6.6.10 用户域用户登录事务事实表 200
6.6.11 DWD层首日业务数据装载脚本 202
6.6.12 DWD层每日业务数据装载脚本 202
6.7 数据仓库搭建——DWS层 202
6.7.1 最近1日汇总表 203
6.7.2 最近n日汇总表 218
6.7.3 历史至今汇总表 221
6.8 数据仓库搭建——ADS层 226
6.8.1 流量主题指标 226
6.8.2 用户主题指标 230
6.8.3 商品主题指标 240
6.8.4 交易主题指标 247
6.8.5 优惠券主题指标 249
6.8.6 ADS层数据导入脚本 249
6.9 数据模型评估及优化 250
6.10 本章总结 250
第7章 DolphinScheduler全流程调度 251
7.1 DolphinScheduler概述与安装部署 251
7.1.1 DolphinScheduler概述 251
7.1.2 DolphinScheduler安装部署 252
7.2 创建MySQL数据库和表 258
7.3 DataX数据导出 262
7.4 全流程调度 268
7.4.1 数据准备 268
7.4.2 全流程调度配置 268
7.5 电子邮件报警 277
7.5.1 注册邮箱 277
7.5.2 配置电子邮件报警 278
7.6 本章总结 281
第8章 数据可视化模块 282
8.1 Superset部署 282
8.1.1 环境准备 282
8.1.2 Superset安装 284
8.2 Superset使用 287
8.2.1 对接MySQL数据源 287
8.2.2 制作仪表盘 289
8.3 Superset实战 294
8.3.1 制作柱状图 294
8.3.2 制作饼状图 295
8.3.3 制作桑基图 297
8.3.4 合成仪表盘页面 299
8.4 ECharts可视化 299
8.5 本章总结 301


前言/序言

在当今这个高度数据化的世界里,管理和分析海量数据是各大互联网企业业务成功的关键。数据仓库项目正是大数据处理的基石项目,在大数据领域有着举足轻重的地位。数据仓库为企业提供了一种强大的数据解决方案,通过有组织且高效地存储、管理和分析数据,推动决策层做出更明智、更有利于企业发展的决策。
尚硅谷教育已经接连出版了多本数据仓库相关的图书,其中《剑指大数据——企业级数据仓库项目实战(电商版)》一书讲解得十分细致,除了全面升级了数据仓库指标体系和数据仓库的技术栈,还增加了数据治理环节。但编者团队以为这本书仍存在不足之处。该书中环境准备和框架的安装部署占据了较大的篇幅,这对于没有项目搭建经验的读者来说足够友好,但是对于已经有一定开发经验的读者来说,恐不能精准把握项目的核心思想。
在数据仓库项目中,数据的组织、处理和计算是整个项目的核心部分。为了帮助读者聚焦核心部分的项目理论和代码编写,在本次改版中我们弱化了环境准备和框架搭建(仍保留关键部分,且读者可通过附赠资料获取详细文档),强化了对数据仓库核心部分内容的讲解,主要体现在两个方面。一方面是强化了对数据仓库构建过程关键代码的思路讲解,将代码实现的关键思路抽丝剥茧地展示给读者,有助于读者快速理解代码、掌握代码。另一方面是增加了大量的图片思路讲解。在图片中,通过若干条关键数据展示数据的处理计算过程,通过箭头表示数据的转化流程。大量的图片讲解可以使读者快速了解复杂函数的使用和复杂的表关联关系。
本次改版除了上述的改动和升级,对数据仓库的关键技术框架,如Hadoop、Hive、Spark和Kafka等进行了版本升级,永远追求更适合、关注度更高的技术是我们编者团队的准则。以上的种种升级,编者团队都进行了反复调研测试,力求理论指导实践,技术框架不落人后,需求实现经得起推敲。
此外,本书依然与《剑指大数据——企业级数据仓库项目实战(电商版)》一书保留了密切的联系,读者若想为本书的项目增加必要的数据治理功能,或者想要了解更详细具体的环境准备和框架搭建过程,《剑指大数据——企业级数据仓库项目实战(电商版)》都可以提供必要的指导。
阅读本书要求读者具备一定的编程基础,至少掌握一门编程语言(如Java)和SQL查询语言。如果读者对大数据的一些基本框架,如Hadoop、Hive等,也有一定了解的话,那么学习本书也将事半功倍。读者如果不具备以上条件,可以关注“尚硅谷教育”公众号,免费获取相关学习资料。
本书中涉及的所有安装包、源码,以及视频课程资料,读者均可以通过关注“尚硅谷教育”公众号,回复“电商数仓”关键字获取。书中难免有疏漏之处,如在阅读本书的过程中,发现任何问题,欢迎私信给“尚硅谷教育”公众号后台。
感谢电子工业出版社的李冰老师,您的精心指导使得本书能够最终面世。也感谢所有为本书内容编写提供技术支持的老师所付出的努力。