作 者:(美)奥弗·曼德勒维奇(Ofer Mendelevitch) 等 著;唐金川 译
定 价:59
出 版 社:机械工业出版社
出版日期:2018年06月01日
页 数:178
装 帧:平装
ISBN:9787111600343
●译者序
●序
●前言
●致谢
●关于作者
●第一部分Hadoop中的数据科学概览
●第1章数据科学概述2
●1.1数据科学究竟是什么2
●1.2示例:搜索广告3
●1.3数据科学史一瞥4
●1.3.1统计学与机器学习4
●1.3.2互联网巨头的创新5
●1.3.3现代企业中的数据科学6
●1.4数据科学家的成长之路6
●1.4.1数据工程师7
●1.4.2应用科学家7
●1.4.3过渡到数据科学家角色8
●1.4.4数据科学家的软技能9
●1.5数据科学团队的组建10
●1.6数据科学项目的生命周期11
●部分目录
本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题:数据提取、数据再加工(datamunging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子,并通过不同方式来提供对商业价值的洞察,全书共分三部分,第 一部分包括靠前、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附录中提供了本书参考材料。
(美)奥弗·曼德勒维奇(Ofer Mendelevitch) 等 著;唐金川 译
Ofer Mendelevitch是Lendup公司的数据科学副总裁,领导着Lendup的机器学习和不错分析小组。之前,Ofer是Hortonworks的数据科学总监,负责帮助Hortonworks的客户使用Hadoop和Spark数据科学应用于医疗保健、金融、零售和其他行业。
Casey Stella是Hortonworks的首席数据科学家,领导着正在孵化开源Apache Metron网络安全项目的分析和数据科学团队。之前,Casey是Explorys医疗信息创业公司的架构师。
Douglas Eadline是以Linux集群高性能计算等
前 言数据科学和机器学习作为许多创新技术和产品的核心,预计在可预见的未来将继续颠覆全球许多行业和商业模式。早几年,这些创新大多受限于数据的可用性。 随着Apache Hadoop的引入,所有这一切都发生了变化。 Hadoop提供了一个平台,可以廉价且大规模地存储、管理和处理大型数据集,从而使大数据集的数据科学分析变得实际可行。在这个大规模数据深层分析的新世界,数据科学是核心竞争力,它使公司或组织得以超越传统的商业模式,并在竞争和创新方面保持优势。在Hortonworks工作期间,我们有机会看到各种公司和组织如何利用这些新的机会,帮助它们使用 Hadoop和Spark进行规模化数据科学实现。在本书中,我们想分享一些这样的经验。 等