书籍详情
《大数据采集与处理张雪萍著》[58M]百度网盘|亲测有效|pdf下载
  • 大数据采集与处理张雪萍著

  • 出版社:小逗图书专营店
  • 出版时间:2021-09
  • 热度:11501
  • 上架时间:2024-06-30 09:38:03
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

基本信息

书名:大数据采集与处理

定价:128.00元

作者:张雪萍 著

出版社:电子工业出版社

出版日期:2021-09-01

ISBN:9787121420115

字数:

页码:492

版次:

装帧:平装

开本:16开

商品重量:

编辑推荐


内容提要


本书是一本专门论述大数据采集与处理相关技术及应用的著作,也是一线研发工程师的实战经验结晶。本书依次介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等相关内容,并结合大数据应用各行业背景,介绍了电商、煤炭、教育、医疗、电信、交通等行业的大数据采集与处理。 后,本书以某电商网站数据分析为背景,介绍一个完整的数据采集、清洗、处理的离线数据分析案例,以期给读者展示一个系统的实践操作过程。与本书所述技术相关的论著较少,所著内容新颖、系统全面、实践指导性强。

目录


章 大数据基础 1n
1.1 大数据概念及特征 1n
1.2 大数据采集与处理基本流程 2n
1.2.1 大数据采集 3n
1.2.2 大数据预处理 3n
1.2.3 大数据处理 4n
1.3 大数据分析 5n
1.4 大数据应用 6n
1.4.1 大数据应用行业分类 6n
1.4.2 大数据分析在商业上的应用 7n
习题 9n
参考文献 9n
第2章 开源Hadoop 10n
2.1 Hadoop概述 10n
2.1.1 Hadoop简介 10n
2.1.2 Hadoop起源及发展史 11n
2.1.3 Hadoop发行版本 12n
2.1.4 Hadoop特性 13n
2.2 Hadoop生态系统 13n
2.2.1 HDFS 14n
2.2.2 MapReduce 15n
2.2.3 Hive 15n
2.2.4 ZooKeeper 16n
2.2.5 Flume 17n
2.2.6 Kafka 17n
2.2.7 Spark 18n
2.2.8 Storm 19n
2.2.9 Flink 20n
2.2.10 YARN 20n
2.3 Hadoop的安装与使用 21n
2.3.1 环境准备 22n
2.3.2 单机模式 24n
2.3.3 伪分布式 25n
2.3.4 完全分布式安装 38n
习题 44n
参考文献 45n
第3章 大数据采集 46n
3.1 数据采集与大数据采集 46n
3.1.1 数据采集 47n
3.1.2 大数据采集及数据来源 47n
3.1.3 传统数据采集与大数据采集的区别 48n
3.1.4 大数据采集分类 48n
3.2 大数据采集方法 49n
3.2.1 数据库采集 50n
3.2.2 系统日志采集 50n
3.2.3 网络数据采集 51n
3.2.4 传感器采集 51n
3.2.5 众包采集 51n
3.3 常用采集工具及平台 52n
3.3.1 Flume 52n
3.3.2 Fluentd 53n
3.3.3 Logstash 55n
3.3.4 Chukwa 56n
3.3.5 Scribe 57n
3.3.6 Splunk 58n
3.3.7 Scrapy 59n
3.4 网络爬虫 61n
3.4.1 网络爬虫分类 61n
3.4.2 网络爬虫发展现状 62n
3.4.3 网络爬虫使用技术 63n
3.5 实战 64n
3.5.1 项目准备 64n
3.5.2 架构设计 65n
3.5.3 代码实现 66n
3.5.4 结果展示 73n
习题 78n
参考文献 78n
第4章 日志采集 79n
4.1 日志采集概述 79n
4.1.1 系统日志分类 79n
4.1.2 日志分析系统架构及日志采集方式 80n
4.1.3 日志采集应用场景与日志分析应用场景 81n
4.1.4 日志采集系统关键技术 82n
4.2 Scribe 83n
4.2.1 Scribe概述 83n
4.2.2 Scribe全局配置 83n
4.2.3 Scribe的存储类型配置 84n
4.3 Chukwa 88n
4.3.1 Chukwa概述 88n
4.3.2 Chukwa架构 88n
4.3.3 Chukwa数据收集应用 89n
4.4 Kafka 90n
4.4.1 Kafka概述 90n
4.4.2 Kafka架构 91n
4.4.3 Kafka日志采集 93n
4.5 Flume 94n
4.5.1 Flume概述 94n
4.5.2 Flume架构 95n
4.5.3 Flume的优势 95n
4.6 实战 95n
4.6.1 Flume安装部署 96n
4.6.2 环境测试 98n
4.6.3 采集目录到HDFS 99n
4.6.4 采集文件到HDFS 100n
习题 101n
参考文献 101n
第5章 大数据预处理 102n
5.1 为什么要进行数据预处理 102n
5.2 大数据预处理总体架构 104n
5.3 大数据预处理方法 105n
5.3.1 数据清洗 105n
5.3.2 数据集成 108n
5.3.3 数据转换 109n
5.3.4 数据消减 110n
5.4 ETL工具Kettle 116n
5.4.1 ETL介绍 116n
5.4.2 Kettle介绍 119n
5.4.3 Kettle安装与配置 142n
5.5 实战 151n
5.5.1 基于Python的数据预处理 151n
5.5.2 基于Hadoop生态圈的Kettle应用 155n
习题 179n
参考文献 180n
第6章 大数据存储 182n
6.1 大数据存储概述 183n
6.1.1 大数据存储面临的问题 183n
6.1.2 大数据存储方式 184n
6.1.3 大数据存储技术路线 184n
6.2 HDFS 185n
6.2.1 HDFS架构 186n
6.2.2 HDFS存储机制 187n
6.2.3 NameNode和DataNode工作机制 190n
6.3 NoSQL 193n
6.3.1 NoSQL数据库概述 193n
6.3.2 HBase 198n
6.3.3 MongoDB 206n
6.3.4 Redis 214n
6.4 ElasticSearch 220n
6.4.1 ElasticSearch概述 220n
6.4.2 ElasticSearch基本概念 221n
6.4.3 ElasticSearch工作原理 223n
6.4.4 ElasticSearch存储机制 224n
6.4.5 ElasticSearch分布式存储 226n
6.4.6 ElasticSearch安装与运行 229n
6.5 实战 231n
6.5.1 主从模式搭建 231n
6.5.2 Sentinel模式搭建 235n
6.5.3 Cluster模式搭建 238n
习题 245n
参考文献 245n
第7章 MapReduce 246n
7.1 概述 246n
7.2 MapReduce计算框架 247n
7.2.1 MapReduce模型 247n
7.2.2 MapReduce函数 249n
7.2.3 MapReduce资源管理 250n
7.2.4 MapReduce生命周期管理 251n
7.3 MapReduce工作流程及原理 253n
7.3.1 MapReduce工作流程 253n
7.3.2 MapReduce工作原理 254n
7.4 深入Shuffle过程 255n
7.4.1 Map端Shuffle 256n
7.4.2 Reduce端Shuffle 260n
7.5 实战 262n
7.5.1 任务准备 262n
7.5.2 编写Map程序 262n
7.5.3 编写Reduce 程序 263n
7.5.4 编写main函数 265n
7.5.5 核心代码包 265n
7.5.6 运行代码 266n
习题 266n
参考文献 267n
第8章 Hive数据仓库 268n
8.1 数据仓库简介 269n
8.1.1 数据仓库概念 269n
8.1.2 数据仓库的结构 269n
8.1.3 传统数据仓库的问题 271n
8.1.4 数据仓库的发展 271n
8.2 Hive 272n
8.2.1 Hive简介 272n
8.2.2 Hive与传统数据库的对比 273n
8.2.3 Hive系统架构 275n
8.2.4 Hive体系结构 276n
8.2.5 Hive工作原理 277n
8.2.6 Hive的数据模型 283n
8.2.7 Hive基本操作 284n
8.3 Impala 288n
8.3.1 Impala简介 288n
8.3.2 Impala架构 290n
8.3.3 Impala执行过程 292n
8.3.4 Impala与Hive比较 294n
8.3.5 Impala基本操作 294n
8.4 Spark SQL 296n
8.4.1 Spark SQL简介 296n
8.4.2 Spark SQL系统架构 297n
8.4.3 HiveContext和SQLContext的运行过程 298n
8.4.4 Shark和Spark SQL 299n
8.4.5 Spark SQL基本操作 303n
8.5 案例 305n
8.5.1 大数据仓库设计案例 305n
8.5.2 YouTuBe项目实战 307n
习题 318n
参考文献 318n
第9章 流计算 319n
9.1 流计算简介 319n
9.1.1 流计算的概念及特点 320n
9.1.2 流计算的适用范围与应用场景 321n
9.2 Spark Streaming 321n
9.2.1 Spark Streaming 概述 321n
9.2.2 Spark Streaming基本原理 322n
9.2.3 Spark Streaming 运行架构 322n
9.2.4 实战 323n
9.3 Storm 325n
9.3.1 Storm概述 326n
9.3.2 Storm基础架构 326n
9.3.3 Storm运行流程 327n
9.3.4 实战 328n
9.4 Flink 332n
9.4.1 Flink概述 333n
9.4.2 Flink运行架构 335n
9.4.3 实战 336n
9.5 案例 341n
9.5.1 任务目标 341n
9.5.2 实验环境 341n
9.5.3 数据准备 341n
9.5.4 业务(任务)实现 344n
9.5.5 结果展示 350n
习题 351n
参考文献 351n
0章 Pregel图计算 352n
10.1 Pregel图计算简介 353n
10.1.1 图结构数据 353n
10.1.2 传统图计算解决方案的不足 353n
10.1.3 图计算通用软件 353n
10.1.4 Pregel简介 354n
10.2 Pregel图计算模型 355n
10.2.1 有向图和顶点 355n
10.2.2 顶点之间的消息传递 355n
10.2.3 Pregel计算过程 356n
10.3 Pregel工作原理 358n
10.3.1 Pregel的C++ API 358n
10.3.2 消息传递机制和Combiner 358n
10.3.3 Aggregator机制 359n
10.3.4 拓扑改变 360n
10.3.5 输入和输出 360n
10.4 Pregel体系结构 360n
10.4.1 Pregel的执行过程 360n
10.4.2 容错性 362n
10.4.3 Worker 363n
10.4.4 Master 363n
10.4.5 Aggregator 364n
10.5 Pregel应用实例 365n
10.5.1 单源 短路径 365n
10.5.2 PageRank算法实现及比较 367n
10.6 Hama 371n
10.6.1 Hama介绍 371n
10.6.2 Hama体系结构 371n
10.6.3 Hama实现PageRank算法 372n
习题 374n
参考文献 374n
1章 大数据安全技术及应用 375n
11.1 大数据安全概述 376n
11.2 大数据安全威胁形式 376n
11.2.1 大数据基础设施安全威胁 376n
11.2.2 大数据生命周期安全威胁 377n
11.2.3 大数据隐私安全威胁 379n
11.3 大数据安全关键路径 380n
11.3.1 大数据性能安全保障 380n
11.3.2 大数据安全关键技术 387n
11.4 大数据安全管理及应用 391n
11.4.1 大数据安全管理 392n
11.4.2 大数据安全应用 394n
11.5 大数据安全案例分析 398n
11.5.1 安全性能案例――如何自行搭建大数据计算平台 398n
11.5.2 生命周期安全分析案例――大数据内网的硬件漏洞安全分析 400n
习题 403n
参考文献 403n
2章 行业大数据采集与处理 404n
12.1 电商大数据采集与处理 404n
12.1.1 电商行业大数据概述 404n
12.1.2 京东大数据采集与处理 404n
12.1.3 某电商网站完整离线数据分析案例 410n
12.2 煤炭大数据采集与处理 423n
12.2.1 煤炭行业大数据概述 423n
12.2.2 煤炭行业大数据采集与处理 424n
12.2.3 煤炭行业大数据平台案例 425n
12.3 教育大数据采集与处理 432n
12.3.1 总体技术架构 432n
12.3.2 Hadoop与Spark集成平台 433n
12.3.3 数据采集方案设计 434n
12.3.4 数据清洗方案设计 435n
12.3.5 数据存储方案设计 436n
12.3.6 学生学业预警系统需求分析 437n
12.3.7 系统体系结构设计 438n
12.4 医疗大数据采集与处理 439n
12.4.1 医疗大数据概述 439n
12.4.2 医疗行业大数据采集与处理 441n
12.4.3 医疗大数据采集与处理案例 443n
12.5 电信大数据采集与处理 447n
12.5.1 电信行业大数据概述 448n
12.5.2 电信行业大数据采集与处理 450n
12.5.3 电信行业大数据案例 452n
12.6 交通大数据采集与处理 455n
12.6.1 交通大数据概述 456n
12.6.2 交通行业大数据采集与处理 461n
12.6.3 交通大数据案例 466n
习题 476n
参考文献 477

作者介绍


张雪萍,博士,教授,新世纪人才,河南省高校科技创新人才,河南省教育厅学术技术带头人。长期从事计算机科学与技术、地理信息系统领域的的教学与科研工作,主要研究兴趣包括空间数据挖掘与信息共享、数据库版权保护、软件测试、大数据与人工智能技术及应用等。近年来完成国家"八五”、"十五”科技攻关、"十一五”科技支撑计划、新世纪人才支持计划等20余项科研项目,其中获地厅级科学技术进步一等奖4项、二等奖3项、三等奖1项;在LNAI、LNCS等外重要学术期刊上发表论文60余篇,其中被EI收录30余篇;出版学术著作6部,其中获河南省信息技术一等奖1项,二等奖1项。

序言