本篇主要提供深入大型数据集:并行与分布化Python代码J.T.Wolohan(J电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
图书基本信息 | |
图书名称 | 深入大型数据集:并行与分布化Python代码 |
作者 | (美)J.T.Wolohan(J.T.沃勒翰) |
定价 | 99元 |
出版社 | 电子工业出版社 |
ISBN | 9787121403682 |
出版日期 | 2021-01-01 |
字数 | |
页码 | |
版次 | |
装帧 | 平装 |
开本 | 128开 |
商品重量 |
内容提要 | |
本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。 |
目录 | |
部分 |
作者介绍 | |
J.T. Wolohan是Booz Allen Hamilton公司的一名高级人工智能和自然语言处理架构师。他教过各种层次的学生学习编程:从小学、初中学生到研究生、专业人士。除对分布式和并行计算感兴趣之外,J.T.还喜欢跑步、烹饪和与家人共度时光。 |