《Python和PySpark数据分析》[58M]百度网盘|亲测有效|pdf下载

书籍详情

Python和PySpark数据分析
出版社:文轩网旗舰店
出版时间:2023-10
热度:11949
上架时间:2024-06-30 09:38:03
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作者:(加)乔纳森·里乌著殷海英译

定价:118

出版社:清华大学出版社

出版日期:2023年10月01日

页数:420

装帧:平装

ISBN:9787302645368

《Python和PySpark数据分析》有 14 章和 3 个附录，详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例，介绍了PySpark中的实用知识点和语法，使你能够轻松掌握PySpark的核心概念，并将其应用于实际工作中。在本书中，你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作，你将了解如何使用 PySpark 处理大规模数据集、等

●第1章介绍1
1.1什么是PySpark1
1.1.1从头开始：什么是Spark2
1.1.2PySpark=Spark+Python3
1.1.3为什么选择PySpark3
1.2PySpark的工作原理5
1.2.1使用集群管理器进行物理规划6
1.2.2懒惰的主管成就工厂的高效8
1.3你将从本书学到什么11
1.4我们将如何开始12
1.5本章小结13
第Ⅰ部分介绍：PySpark的第一步
第2章使用PySpark编写的第一个数据处理程序17
2.1设置pysparkshell18
2.1.1SparkSession入口点20
2.1.2配置PySpark的日志级别21
2.2映射程序22
2.3采集和探索：为数据转换奠定基础23
2.3.1用spark.read将数据读入数据帧24
2.3.2从结构到内容：使用show()探索数据帧27
2.4简单的列转换：将句子拆解为单词列表29
2.4.1使用select()选择特定的列30
2.4.2转换列：将字符串拆分为单词列表31
2.4.3重命名列：alias和withColumnRenamed33
2.4.4重塑数据：将list分解成行34
2.4.5处理单词：更改大小写并删除标点符号36
2.5筛选记录38
2.6本章小结40
2.7扩展练习40
第3章提交并扩展你的第一个PySpark程序43
3.1对记录进行分组：计算词频43
3.2使用orderBy对结果排序46
3.3保存数据帧中的数据48
3.4整合所有内容：计数49
3.4.1使用PySpark的导入约定简化依赖50
3.4.2通过方法链简化程序51
3.5使用spark-submit以批处理模式启动程序53
3.6本章未涉及的内容54
3.7扩展词频程序55
3.8本章小结56
3.9扩展练习57
第4章使用pyspark.sql分析表格数据59
4.1什么是表格数据60
4.2使用PySpark分析和处理表格数据62
4.3在PySpark中读取和评估带分隔符的数据63
4.3.1第一次使用专门处理CSV文件的SparkReader63
4.3.2自定义SparkReader对象来读取CSV数据文件65
4.3.3探索数据世界的轮廓67
4.4数据操作基础：选择、删除、
重命名、排序及诊断68
4.4.1了解我们想要什么：选择列69
4.4.2只保留我们想要的：删除列71
4.4.3创建新列：使用withColumn()创建新列73
4.4.4整理数据帧：对列进行重命名和重排序76
4.4.5用describe()和summary()分析数据帧78
4.5本章小结80
4.6扩展练习80
第5章数据帧操作：连接和分组83
5.1连接数据83
5.1.1探索连接的世界84
5.1.2了解连接的两边85
5.1.3成功连接的规则：谓词85
5.1.4连接方法87
5.1.5连接的命名约定91
5.2通过groupby和GroupedData汇总数据94
5.2.1一个简单的分组蓝图95
5.2.2对自定义列使用agg()98
5.3处理null值：删除或填充100
5.3.1立即删除：使用dropna()
删除具有null值的记录100
5.3.2使用fillna()替换null值101
5.4问题回顾：端到端程序102
5.5本章小结105
5.6扩展练习105
第Ⅱ部分进级：将你的想法转化为代码
第6章多维数据帧：使用PySpark处理JSON数据109
6.1读取JSON数据：为schemapocalypse做好准备109
6.1.1从小处开始：将JSON数据作为受限的Python字典111
6.1.2更进一步：在PySpark中读取JSON数据113
6.2用复杂的数据类型突破二维数据114
6.2.1当有多个值时：使用数组116
6.2.2映射类型：同一列中的键和值119
6.3结构体：列中的嵌套列121
6.4构建和使用数据帧模式125
6.4.1使用Spark类型作为schema的基本代码块125
6.4.2使用结构体模式原地读取JSON文档127
6.4.3循环往复：以JSON格式指定模式131
6.5进行整合：使用复杂数据类型减少重复数据133
6.5.1获取“刚刚好”的数据帧：explode和collect135
6.5.2创建自己的层次结构：作为函数的结构体138
6.6本章小结139
6.7扩展练习139
第7章双语PySpark：混合Python和SQL141
7.1根据我们的了解：pyspark.sql与普通SQL142
7.2为SQL准备数据帧143
7.2.1将数据帧转换为Spark表144
7.2.2使用Spark目录145
7.3SQL和PySpark146
7.4在数据帧方法中使用类似SQL的语法148
7.4.1获取所需的行和列：select和where148
7.4.2将相似的记录分组在一起：groupby和orderby149
7.4.3在分组后使用having进行筛选150
7.4.4使用CREATE关键字创建新表/视图151
7.4.5使用UNION和JOIN向表中添加数据153
7.4.6通过子查询和公共表表达式更好地组织SQL代码154
7.4.7PySpark与SQL语法的快速总结157
7.5简化代码：混合SQL和Python157
7.5.1使用Python提高弹性并简化数据读取阶段158
7.5.2在PySpark中使用SQL风格的表达式159
7.6结论161
7.7本章小结161
7.8扩展练习162
第8章使用Python扩展PySpark:RDD和UDF165
8.1PySpark中的RDD166
8.2使用Python通过UDF扩展PySpark173
8.2.1这一切都从简单的Python开始：使用类型化的Python函数174
8.2.2使用udf()将Python函数转换为UDF176
8.3本章小结179
8.4扩展练习179
第9章大数据就是大量的小数据：使用pandasUDF181
9.1通过pandas进行列转换：使用SeriesUDF182
9.1.1将Spark连接到谷歌的BigQuery183
9.1.2SeriestoSeriesUDF：使用pandas的列函数188
9.1.3标量UDF+冷启动=SeriesUDF的迭代器190
9.2分组数据上的UDF：聚合
与应用193
9.2.1分组聚合UDF194
9.2.2分组映射UDF196
9.3何时用，怎么用198
9.4本章小结200
9.5扩展练习200
第10章不同视角下的数据：窗口函数203
10.1学习并使用简单的窗口函数204
10.1.1确定每年最冷的一天204
10.1.2创建并使用一个简单的窗口函数来获取最冷的日子206
10.1.3比较两种方法210
10.2除了汇总：使用排名和分析功能211
10.2.1排名函数：看看谁是第一212
10.2.2分析函数：回顾过去和展望未来216
10.3弹性窗口！使用行和范围的边界218
10.3.1计数，窗口样式：静态、增长和无边界219
10.3.2范围和行221
10.4综合实践：在窗口中使用UDF224
10.5查看窗口：成功的窗口函数的主要步骤226
10.6本章小结226
10.7扩展练习226
第11章加速PySpark：理解Spark的查询计划229
11.1芝麻开门：通过SparkUI了解Spark环境229
11.1.1查看配置：Environment选项卡231
11.1.2Executors选项卡和resourcemanagement选项卡233
11.1.3了解任务的运行：通过SparkUI判断任务是否完成237
11.1.4通过Spark查询计划映射操作：SQL选项卡240
11.1.5Spark的核心：解析、分析、优化和物理计划242
11.2关于性能：操作和内存246
11.2.1宽操作与窄操作246
11.2.2缓存数据帧：功能强大，但往往致命(对于性能而言)251
11.3本章小结254
第Ⅲ部分使用PySpark进行机器学习
第12章准备工作：为机器学习准备特征259
12.1阅读、探索和准备机器学习数据集260
12.1.1使用toDF()对列名进行标准化261
12.1.2探索数据并获取第一个特征列262
12.1.3解决数据错误并构建第一个特征集264
12.1.4删除无用记录并估算二分类特征266
12.1.5处理极值：清洗带有连续值的列268
12.1.6删除不常见的二分类列271
12.2特征创建和细化272
12.2.1创建自定义特征272
12.2.2去除高度相关的特征273
12.3基于转换器和估计器的特征准备276
12.3.1使用Imputer估计器填充连续特征277
12.3.2使用MinMaxScaler估计器对特征进行缩放279
12.4本章小结281
第13章通过机器学习管道增强机器学习283
13.1转换器和估计器：Spark
中机器学习的构建块284
13.1.1数据进出：转换器285
13.1.2估计器289
13.2构建(完整的)机器学习管道290
13.2.1使用向量列类型组装最终数据集292
13.2.2使用LogisticRegression分类器训练机器学习模型295
13.3评估和优化模型297
13.3.1评估模型准确率：混淆矩阵和评估器对象298
13.3.2真阳性与假阳性：ROC曲线300
13.3.3使用交叉验证优化超参数302
13.4从模型中获取优选的驱动力：提取系数305
13.5本章小结307
第14章构建自定义机器学习转换器和估计器309
14.1创建自己的转换器309
14.1.1设计转换器：从Param和转换的角度思考310
14.1.2创建转换器的Param312
14.1.3getter和setter：成为PySpark中优秀的一员314
14.1.4创建自定义转换器的初始化函数316
14.1.5创建转换函数317
14.1.6使用转换器319
14.2创建自己的估计器321
14.2.1设计估计器：从模型到Param321
14.2.2实现伴生模型：创建自己的Mixin324
14.2.3创建ExtremeValueCapper估计器326
14.2.4使用自定义估计器328
14.3在机器学习管道中使用转换器和估计器328
14.3.1处理多个输入329
14.3.2将自定义组件应用于机器学习管道331
14.4本章小结334
14.5结论：有数据，我就开心334
附录A习题答案337
附录B安装PySpark369
附录C一些有用的Python内容389

Spark数据处理引擎是一个惊人的分析工厂：输入原始数据，输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线，并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力，同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识，就可以通过构建机器学习管道，并配合Python、pandas和PySpark代码，探索PySpark的全面多功能特性。

(加)乔纳森·里乌著殷海英译

作为一家数据驱动软件公司的ML总监，Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

相关推荐