作 者:(美)刘永川(Alex Liu) 著;闫龙川,高德荃,李君婷 译
定 价:59
出 版 社:机械工业出版社
出版日期:2017年03月01日
页 数:208
装 帧:平装
ISBN:9787111562559
●译者序
●前言
●第1章Spark机器学习简介
●1.1Spark概述和技术优势
●1.1.1Spark概述
●1.1.2Spark优势
●1.2在机器学习中应用Spark计算
●1.3机器学习算法
●1.4MLlib
●1.5SparkRDD和DataFrame
●1.5.1SparkRDD
●1.5.2SparkDataFrame
●1.5.3R语言DataFrameAPI
●1.5.4机器学习框架、RM4E和Spark计算
●1.5.5机器学习框架
●1.5.6RM4E
●1.5.7Spark计算框架
●1.6机器学习工作流和Sparkpipeline
●1.7机器学习工作流示例
●1.8Sparknotebook简介
●部分目录
本书包装了一系列项目“蓝图”,展示了Spark可以帮你解决的一些有趣挑战,读者在将理论知识实践于一些实际项目之前,会了解到如何使用Sparknotebook,以及如何访问、清洗和连接不同的数据集,你将在其中了解Spark机器学习如何帮助你完成从欺诈检测到分析客户流失等各种工作。你还将了解如何使用Spark的并行计算能力构建推荐引擎。
Preface?前 言作为数据科学家和机器学习专业人员,我们的工作是建立模型进行欺诈检测、预测客户流失,或者在广泛的领域将数据转换为洞见。为此,我们有时需要处理大量的数据和复杂的计算。因此,我们一直对新的计算工具满怀期待,例如Spark,我们花费了很多时间来学习新工具。有很多可用的资料来学习这些新的工具,但这些资料大多都由计算机科学家编写,更多的是从计算角度来描述。 作为Spark用户,数据科学家和机器学习专业人员更关心新的系统如何帮助我们建立准确度更高的预测模型,如何使数据处理和编程更加简单。这是本书的写作目的,也是由数据科学家来执笔本书的主要原因。 与此同时,数据科学家和机器学习专业人员已经开发了工作框架、处理过程,使用了一些较好的建模工具,例如R语等