《大数据挖掘技术及分析》[78M]百度网盘|pdf下载|亲测有效
《大数据挖掘技术及分析》[78M]百度网盘|pdf下载|亲测有效

大数据挖掘技术及分析 pdf下载

出版社 社会出版社
出版年 2021-10
页数 390页
装帧 精装
评分 8.8(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供大数据挖掘技术及分析电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com

内容简介

  软件在人类社会生活中发挥着十分重要的作用,软件工程研究软件系统构造、开发、运行、维护、演化的创新方法以提高效率和质量。从20世纪五六十年代起,软件工程经历了从结构化到面向对象、网络服务化的演进。软件工程研究的内容不断扩展,其应用和实践的范围也在不断延伸,正发展成为人工智能、社会计算、认知科学、数据科学与工程等多学科交叉的领域。
  为及时反映我国学者结合大数据技术在软件工程研究领域的新进展以及在大数据软件应用开发方面的新实践经验,作者撰写了《大数据挖掘技术及分析》。

目录

第一章 大数据与数据分析
第一节 大数据概述
第二节 电子商务与大数据
第三节 物联网与大数据
第四节 移动互联网与大数据
第五节 大数据应用给企业带来的机会
第六节 大数据应用带来的挑战
第七节 大数据应用

第二章 大数据存储
第一节 大数据对数据存储的要求
第二节 存储技术
第三节 云存储技术
第四节 大数据存储解决方案

第三章 大数据分析工具
第一节 数据分析概述
第二节 数据挖掘
第三节 关联分析
第四节 Apriori算法
第五节 聚类分析
第六节 分类分析
第七节 时间序列分析
第八节 确定性时间序列分析
第九节 随机性时间序列分析

第四章 大数据与信息安全
第一节 大数据带来的安全问题
第二节 大数据信息安全风险因素识别
第三节 大数据安全策略
第四节 大数据安全与政策法规建设

第五章 基于二部图网络的电子商务推荐算法研究
第一节 概述
第二节 推荐算法概述
第三节 基于二部图网络的推荐算法
第四节 基于二部图网络推荐算法的改进

第六章 基于位置的社交网络好友推荐算法研究
第一节 概述
第二节 基于位置的社交网络
第三节 基于位置信息对好友推荐算法的改进

第七章 基于稀有类分类的信用卡欺诈识别研究
第一节 概述
第二节 信用卡概述
第三节 不均衡数据集的处理
第四节 基于Adaboost的稀有类分类算法

参考文献

精彩书摘

  《大数据挖掘技术及分析》:
  大数据研究院和中国人民银行征信中心建立的一个合作,通过一个数字化模型与模型化的方式来帮助银行在信审的过程中来衡量申请人的信用水平。
  中国人民银行与美国个人消费信用评估公司(FICO)进行合作。FICO使用的建模算法相对来说比较陈旧,应用到国内的征信场景也会有一些问题。中国征信市场还不够成熟,很多客户,尤其是在银行拥有征信记录的区分度并不是很高,可能每个人都是一个车贷,一个房贷,几张信用卡。通过传统的模型不容易把客户的风险等级做一个比较好的区分的。同时,这个模型的建立过程非常久,包括在中间的一些变量,被审贷人员、申请人解读的话,都会存在一些刷分的漏洞。个人需要提升哪方面的指标,才可以使得信用分数更高,这样的做法,也就会更容易形成刷分的漏洞。
  在合作过程中,采用3.7亿的个人征信报告,基于此使用了很多先进的大数据、机器学习的算法。在这之上,银行对信贷数据模型的效果也有了一个比较明确的优化,包括对正常还款和信用违约人群的区分度,我们可以提升10%-20%。这对于银行整个的资产规模来说,其实也是一个非常有效的提升。
  再就是中国商业银行与美国借贷俱乐部(Lending Club)进行P2P平台合作,在这里除了传统的信用数据之外,还有个人的一些申请信息,其实还有很多的互联网端的,比如说社交网络、网购、一些行为特征的数据。互联网的数据比较复杂,本身的缺失率比较高,噪音也比较大。在这样的场景之下,就更需要用基于大数据的算法来帮助提升模型预测的准确率。经过优化建模之后,而且通过平台的全量数据进行回测时发现坏账率同比减少将近40%。
  现在银行主要还是基于对公的业务,在这样的场景下,首先是数据源可以辅助信贷审批的过程,包括税务,一些互联网舆情,都可以帮助银行去提升对信贷企业风险的一些判断,包括一些公民链、担保圈等。
  再者大数据也可以作用在智能反欺诈。随着电子渠道端、手机银行、网银的兴起,还有直销银行,这样一个业务的兴起,这样和传统的业务是不同的,数据来源除了客户的一些申请数据和他本身的交易数据之外,银行也可以从终端的行为数据采集到很多用户的行为数据(PC)。在这个行为之上怎么来帮助银行识别一些欺诈风险?传统的方式,如信用卡,交易反欺诈,很多都是通过专家规则的方式,专家规则也有很大的问题,就是在于它本身更新的机制比较慢,专家规则的误报率比较高。包括中国支付清算协会曾下达文件,现在已经明确规定商业银行需要建立反欺诈平台,同时使用机器学习的算法,来持续监控这样的一些交易风险。
  基于大数据底层的技术,在云计算上,我们也需要基于这些分布式的技术,帮助我们做一套底层的基础设施,然后来支撑所有数据的处理、分析。另外,基于金融市场数据,包括对宏观经济的一些分析,在量化投资里怎么通过多因子模型或者是一些大数据因子的加入,来帮助客户提高收益率。
  四、大数据与云计算
  全球知名咨询公司麦肯锡是最先预见并提出大数据时代到来的。麦肯锡认为,数据已经不仅仅是0和1,他已经融于任何一个领域和行业,涵盖我们所有的已知范畴,大数据逐渐从一个概念,变成一种重要的生产要素;而对大数据的运用将是又一次的经济增长趋势。
  麦肯锡的报告发布后,大数据迅速成了计算机行业争相传诵的热门概念,也引起了金融界的高度关注。随着互联网时代的到来,信息就是财富,这不仅仅在互联网行业是公认的,在其他很多行业也开始被逐渐认可。如果说云计算为数据资产提供了保管、访问的场所和渠道,那么如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,则是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。
  事实上,全球互联网巨头都已意识到了“大数据”时代数据的重要意义。易安信(EMC)、惠普(微博)、国际商业机器公司(IBM)、微软(微博)在内的全球IT巨头纷纷通过收购“大数据”相关厂商来实现技术整合,可见其对“大数据”的重视。
  大数据产业是一个新兴产业,这个概念出现时间早,但发展时间尚短,还不具备足够资历以获得国家相关政策扶持。但在2017年12月8日工信部发布的物联网“十三五”规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、数据分析、图像视频智能分析,这都是大数据的重要组成部分。而另外3项关键技术创新工程,包括信息感知技术、信息传输技术、信息安全技术,也都与“大数据”密切相关。
  大数据这个概念很早就被提出,但数据庞大是没有意义的,没有挖掘的金矿仅仅只是石头,如果没有云的话,大数据和互联网不会有联系,而这些信息更得不到挖掘和开采,产生出应有的价值。
  而现今的数据不仅仅是体量庞大,真正核心所在是这些数据是在线的、流动的、共享的,这既是数据的特质,也是互联网的特质,而正是数据的这种流动和连接,才让大数据变得有意义。
  像过去办公购买会出一些发票,用以报销之类,但这些数据是没有用的,因为他们不在线,无法产生应有的价值,为什么网络上各大平台的数据具有价值,因为这些东西是在线的,是极其容易搜集的,当人数的调查达到全体,那么通过分析调查出来的结论就是真理,而在线就是这样一个过程。
  ……

前言/序言

  软件在人类社会生活中发挥着十分重要的作用,软件工程研究软件系统构造、开发、运行、维护、演化的创新方法以提高效率和质量。从20世纪五六十年代起,软件工程经历了从结构化到面向对象、网络服务化的演进。软件工程研究的内容不断扩展,其应用和实践的范围也在不断延伸,正发展成为人工智能、社会计算、认知科学、数据科学与工程等多学科交叉的领域。
  为及时反映我国学者结合大数据技术在软件工程研究领域的新进展以及在大数据软件应用开发方面的最新实践经验,作者撰写了本书。
  在互联网环境下,以开源软件生态为代表的,以群体化协同模式开发的,深度结合数据分析技术的软件系统成为软件研究的新主题。
  大数据是人们获得新的认知、创造新的价值的源泉;大数据还为改变市场、组织机构,以及政府与公民的关系服务。这仅仅是一个开始,大数据时代对我们的生活以及与世界交流的方式都提出了挑战。
  人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍。事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,最重要的物理定律便是万有引力定律。但对于细小的昆虫来说,重力是无关紧要的。对它们而言,宇宙中有效的约束是表面张力,这个张力可以让它们在水面上自由行走而不会掉下去。但人类对于表面张力却毫不在意。对于万有引力产生的约束力而言,生物体的大小是非常重要的。类似地,对于信息而言,规模也是非常重要的。如谷歌能够基于大量真实病例信息实时地得到流感情况,机票价格预测系统Farecast可以预测机票价格的波动,大数据分析之所以如此给力,是因为存在供其分析的数以千亿计的数据项。
  大数据应用的核心就是预测。大数据的精髓在于我们分析信息时的“三个转变”,这些转变将改变我们理解和组织社会的方法。
  第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖随机采样。大数据让我们更清楚地看到了样本无法揭示的细节信息。
  第二个转变就是,研究数据如此之多,以至于我们不再热衷于追求精确度。拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握其大体的发展方向即可。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力。
  第三个转变由前两个转变促成,即我们不再热衷于寻找因果关系,而是寻找事物之间的相关关系。大数据告诉我们“是什么”而不是“为什么”。
  例如,对冲基金通过剖析社交网络推特(Twitter)上的数据信息来预测股市的表现;亚马逊(Amazon)和奈飞(netfiix)根据用户在其网站上的类似查询来进行产品推荐;推特、脸书(Facebook)和领英(Linkedln)通过用户的社交网络图来得知用户的喜好。
  数据化意味着我们要从一切事物中汲取信息。而大数据时代的来临,让我们能够共同沐浴在这阳光下。