Python和PySpark数据分析 pdf下载pdf下载

Python和PySpark数据分析百度网盘pdf下载

作者:
简介:本篇提供书籍《Python和PySpark数据分析》百度网盘pdf下载
出版社:文轩网旗舰店
出版时间:2023-10
pdf下载价格:0.00¥

免费下载


书籍下载


内容介绍

作  者:(加)乔纳森·里乌 著 殷海英 译
定  价:118
出 版 社:清华大学出版社
出版日期:2023年10月01日
页  数:420
装  帧:平装
ISBN:9787302645368
主编推荐
《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、等
目录
第1章介绍1
1.1什么是PySpark1
1.1.1从头开始:什么是Spark2
1.1.2PySpark=Spark+Python3
1.1.3为什么选择PySpark3
1.2PySpark的工作原理5
1.2.1使用集群管理器进行物理规划6
1.2.2懒惰的主管成就工厂的高效8
1.3你将从本书学到什么11
1.4我们将如何开始12
1.5本章小结13
第Ⅰ部分介绍:PySpark的第一步
第2章使用PySpark编写的第一个数据处理程序17
2.1设置pysparkshell18
2.1.1SparkSession入口点20
2.1.2配置PySpark的日志级别21
2.2映射程序22
2.3采集和探索:为数据转换奠定基础23
2.3.1用spark.read将数据读入数据帧24
2.3.2从结构到内容:使用show()探索数据帧27
2.4简单的列转换:将句子拆解为单词列表29
2.4.1使用select()选择特定的列30
2.4.2转换列:将字符串拆分为单词列表31
2.4.3重命名列:alias和withColumnRenamed33
2.4.4重塑数据:将list分解成行34
2.4.5处理单词:更改大小写并删除标点符号36
2.5筛选记录38
2.6本章小结40
2.7扩展练习40
第3章提交并扩展你的第一个PySpark程序43
3.1对记录进行分组:计算词频43
3.2使用orderBy对结果排序46
3.3保存数据帧中的数据48
3.4整合所有内容:计数49
3.4.1使用PySpark的导入约定简化依赖50
3.4.2通过方法链简化程序51
3.5使用spark-submit以批处理模式启动程序53
3.6本章未涉及的内容54
3.7扩展词频程序55
3.8本章小结56
3.9扩展练习57
第4章使用pyspark.sql分析表格数据59
4.1什么是表格数据60
4.2使用PySpark分析和处理表格数据62
4.3在PySpark中读取和评估带分隔符的数据63
4.3.1第一次使用专门处理CSV文件的SparkReader63
4.3.2自定义SparkReader对象来读取CSV数据文件65
4.3.3探索数据世界的轮廓67
4.4数据操作基础:选择、删除、
重命名、排序及诊断68
4.4.1了解我们想要什么:选择列69
4.4.2只保留我们想要的:删除列71
4.4.3创建新列:使用withColumn()创建新列73
4.4.4整理数据帧:对列进行重命名和重排序76
4.4.5用describe()和summary()分析数据帧78
4.5本章小结80
4.6扩展练习80
第5章数据帧操作:连接和分组83
5.1连接数据83
5.1.1探索连接的世界84
5.1.2了解连接的两边85
5.1.3成功连接的规则:谓词85
5.1.4连接方法87
5.1.5连接的命名约定91
5.2通过groupby和GroupedData汇总数据94
5.2.1一个简单的分组蓝图95
5.2.2对自定义列使用agg()98
5.3处理null值:删除或填充100
5.3.1立即删除:使用dropna()
删除具有null值的记录100
5.3.2使用fillna()替换null值101
5.4问题回顾:端到端程序102
5.5本章小结105
5.6扩展练习105
第Ⅱ部分进级:将你的想法转化为代码
第6章多维数据帧:使用PySpark处理JSON数据109
6.1读取JSON数据:为schemapocalypse做好准备109
6.1.1从小处开始:将JSON数据作为受限的Python字典111
6.1.2更进一步:在PySpark中读取JSON数据113
6.2用复杂的数据类型突破二维数据114
6.2.1当有多个值时:使用数组116
6.2.2映射类型:同一列中的键和值119
6.3结构体:列中的嵌套列121
6.4构建和使用数据帧模式125
6.4.1使用Spark类型作为schema的基本代码块125
6.4.2使用结构体模式原地读取JSON文档127
6.4.3循环往复:以JSON格式指定模式131
6.5进行整合:使用复杂数据类型减少重复数据133
6.5.1获取“刚刚好”的数据帧:explode和collect135
6.5.2创建自己的层次结构:作为函数的结构体138
6.6本章小结139
6.7扩展练习139
第7章双语PySpark:混合Python和SQL141
7.1根据我们的了解:pyspark.sql与普通SQL142
7.2为SQL准备数据帧143
7.2.1将数据帧转换为Spark表144
7.2.2使用Spark目录145
7.3SQL和PySpark146
7.4在数据帧方法中使用类似SQL的语法148
7.4.1获取所需的行和列:select和where148
7.4.2将相似的记录分组在一起:groupby和orderby149
7.4.3在分组后使用having进行筛选150
7.4.4使用CREATE关键字创建新表/视图151
7.4.5使用UNION和JOIN向表中添加数据153
7.4.6通过子查询和公共表表达式更好地组织SQL代码154
7.4.7PySpark与SQL语法的快速总结157
7.5简化代码:混合SQL和Python157
7.5.1使用Python提高弹性并简化数据读取阶段158
7.5.2在PySpark中使用SQL风格的表达式159
7.6结论161
7.7本章小结161
7.8扩展练习162
第8章使用Python扩展PySpark:RDD和UDF165
8.1PySpark中的RDD166
8.2使用Python通过UDF扩展PySpark173
8.2.1这一切都从简单的Python开始:使用类型化的Python函数174
8.2.2使用udf()将Python函数转换为UDF176
8.3本章小结179
8.4扩展练习179
第9章大数据就是大量的小数据:使用pandasUDF181
9.1通过pandas进行列转换:使用SeriesUDF182
9.1.1将Spark连接到谷歌的BigQuery183
9.1.2SeriestoSeriesUDF:使用pandas的列函数188
9.1.3标量UDF+冷启动=SeriesUDF的迭代器190
9.2分组数据上的UDF:聚合
与应用193
9.2.1分组聚合UDF194
9.2.2分组映射UDF196
9.3何时用,怎么用198
9.4本章小结200
9.5扩展练习200
第10章不同视角下的数据:窗口函数203
10.1学习并使用简单的窗口函数204
10.1.1确定每年最冷的一天204
10.1.2创建并使用一个简单的窗口函数来获取最冷的日子206
10.1.3比较两种方法210
10.2除了汇总:使用排名和分析功能211
10.2.1排名函数:看看谁是第一212
10.2.2分析函数:回顾过去和展望未来216
10.3弹性窗口!使用行和范围的边界218
10.3.1计数,窗口样式:静态、增长和无边界219
10.3.2范围和行221
10.4综合实践:在窗口中使用UDF224
10.5查看窗口:成功的窗口函数的主要步骤226
10.6本章小结226
10.7扩展练习226
第11章加速PySpark:理解Spark的查询计划229
11.1芝麻开门:通过SparkUI了解Spark环境229
11.1.1查看配置:Environment选项卡231
11.1.2Executors选项卡和resourcemanagement选项卡233
11.1.3了解任务的运行:通过SparkUI判断任务是否完成237
11.1.4通过Spark查询计划映射操作:SQL选项卡240
11.1.5Spark的核心:解析、分析、优化和物理计划242
11.2关于性能:操作和内存246
11.2.1宽操作与窄操作246
11.2.2缓存数据帧:功能强大,但往往致命(对于性能而言)251
11.3本章小结254
第Ⅲ部分使用PySpark进行机器学习
第12章准备工作:为机器学习准备特征259
12.1阅读、探索和准备机器学习数据集260
12.1.1使用toDF()对列名进行标准化261
12.1.2探索数据并获取第一个特征列262
12.1.3解决数据错误并构建第一个特征集264
12.1.4删除无用记录并估算二分类特征266
12.1.5处理极值:清洗带有连续值的列268
12.1.6删除不常见的二分类列271
12.2特征创建和细化272
12.2.1创建自定义特征272
12.2.2去除高度相关的特征273
12.3基于转换器和估计器的特征准备276
12.3.1使用Imputer估计器填充连续特征277
12.3.2使用MinMaxScaler估计器对特征进行缩放279
12.4本章小结281
第13章通过机器学习管道增强机器学习283
13.1转换器和估计器:Spark
中机器学习的构建块284
13.1.1数据进出:转换器285
13.1.2估计器289
13.2构建(完整的)机器学习管道290
13.2.1使用向量列类型组装最终数据集292
13.2.2使用LogisticRegression分类器训练机器学习模型295
13.3评估和优化模型297
13.3.1评估模型准确率:混淆矩阵和评估器对象298
13.3.2真阳性与假阳性:ROC曲线300
13.3.3使用交叉验证优化超参数302
13.4从模型中获取优选的驱动力:提取系数305
13.5本章小结307
第14章构建自定义机器学习转换器和估计器309
14.1创建自己的转换器309
14.1.1设计转换器:从Param和转换的角度思考310
14.1.2创建转换器的Param312
14.1.3getter和setter:成为PySpark中优秀的一员314
14.1.4创建自定义转换器的初始化函数316
14.1.5创建转换函数317
14.1.6使用转换器319
14.2创建自己的估计器321
14.2.1设计估计器:从模型到Param321
14.2.2实现伴生模型:创建自己的Mixin324
14.2.3创建ExtremeValueCapper估计器326
14.2.4使用自定义估计器328
14.3在机器学习管道中使用转换器和估计器328
14.3.1处理多个输入329
14.3.2将自定义组件应用于机器学习管道331
14.4本章小结334
14.5结论:有数据,我就开心334
附录A习题答案337
附录B安装PySpark369
附录C一些有用的Python内容389
内容简介
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。
作者简介
(加)乔纳森·里乌 著 殷海英 译
    作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。