书籍详情
《大数据技术原理与实践》[24M]百度网盘|亲测有效|pdf下载
  • 大数据技术原理与实践

  • 出版社:北京邮电大学出版社京东自营官方旗舰店
  • 出版时间:2018-01
  • 热度:11421
  • 上架时间:2024-06-30 09:38:03
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

  《大数据技术原理与实践/网络安全与大数据系列丛书》较为全面地介绍了大数据相关技术和应用的现状。全书共7章:第1章主要介绍大数据的基础概念;第2章和第3章对主流大数据框架从不同侧面进行了分析对比;第4章主要介绍了信息挖掘中的经典算法(C4.5 、k-means、支持向量机、Apriori、EM、PageRank、AdaBoost、Naive Bayes、CART);第5章内容为数据的可视化;第6章涉及大数据与人工智能的联系;第7章介绍大数据在现实生活中的实际用例。

作者简介

辛阳,男,博士,北京邮电大学信息安全中心副教授。长期从事信息安全及灾备领域研究工作,主要涉及电信网安全、下一代网络安全、移动通信安全、存储灾备技术等,主持及参与过国家863计划、国家发改委信息安全专项等近20项国家及省部级项目。申请专利30多项,软件著作权12项,出版网络安全书籍5本,主导国家灾备标准四项的编写工作。

内页插图

精彩书评

1. 本书较为全面地介绍了大数据相关技术和应用的现状。2. 介绍了大数据在现实生活中的实际用例,向读者展示大数据在公安领域的具体应用。

目录

第1章 绪论
1.1 什么是大数据
1.2 大数据的特征
1.3 大数据分析的发展情况
1.4 大数据的相关政策

第2章 面向大数据的分布式存储系统
2.1 Bigtable
2.1.1 Bigtable构件
2.1.2 Bigtable实现
2.1.3 Tablet
2.1.4 Bigtable优化
2.1.5 Bigtable性能
2.1.6 实际应用
2.2 Google File System
2.2.1 GFS框架
2.2.2 Master节点
2.2.3 Chunk数据块
2.2.4 元数据
2.2.5 系统交互
2.2.6 容错和诊断
2.3 Dynamo
2.3.1 系统架构
2.3.2 系统实现
2.3.3 故障处理
2.4 小结

第3章 面向大数据的分布式处理框架
3.1 Hadoop
3.1.1 概述
3.1.2 实现运行
3.1.3 实际应用
3.2 MapReduce
3.2.1 MapReduce实现
3.2.2 MapReduce的实际应用
3.3 Spark
3.3.1 概述
3.3.2 RDD
3.3.3 Spark处理框架
3.3.4 Spark在实际中的应用
3.4 小结

第4章 面向大数据信息挖掘的算法
4.1 C4.5
4.1.1 算法描述
4.1.2 算法特性
4.1.3 软件实现
4.1.4 应用示例
4.1.5 相关研究
4.1.6 小结
4.2 k-means
4.2.1 算法描述
4.2.2 软件实现
4.2.3 应用示例
4.2.4 相关研究
4.2.5 小结
4.3 支持向量机
4.3.1 支持向量分类器
4.3.2 支持向量分类器的软间隔优化
4.3.3 核技巧
4.3.4 理论基础
4.3.5 支持向量回归器
4.3.6 软件实现
4.3.7 相关研究
4.3.8 小结
4.4 Apriori
4.4.1 算法描述
4.4.2 挖掘序列模式
4.4.3 软件实现
4.4.4 应用示例
4.4.5 相关研究
4.4.6 小结
4.5 EM
4.5.1 引言
4.5.2 算法描述
4.5.3 软件实现
4.5.4 应用示例
4.5.5 相关研究
4.5.6 小结
4.6 PageRank
4.6.1 算法描述
4.6.2 扩展:Timed-PageRank
4.6.3 小结
4.7 AdaBoost
4.7.1 算法描述
4.7.2 软件实现
4.7.3 应用示例
4.7.4 相关研究
4.7.5 小结
4.8 k最近邻
4.8.1 算法描述
4.8.2 软件实现
4.8.3 相关研究
4.8.4 小结
4.9 Naive Bayes
4.9.1 算法描述
4.9.2 独立变量
4.9.3 模型扩展
4.9.4 软件实现
4.9.5 应用示例
4.9.6 相关研究
4.9.7 小结
4.10 分类和回归树算法
4.10.1 算法描述
4.10.2 深度讨论
4.10.3 软件实现
4.10.4 相关研究
4.10.5 小结

第5章 数据可视化
5.1 基本可视化图表
5.2 示例
5.2.1 全国就业和薪酬分析
5.2.22015年国内外搜索分析
5.3 可视化工具
5.4 D3.js
5.4.1 简介
5.4.2 搭建一个简易的D3开发环境
5.4.3 如何深入学习D3.js

第6章 大数据与人工智能
6.1 什么是深度学习
6.2 深度学习主流模型介绍
6.2.1 卷积神经网络
6.2.2 循环神经网络
6.3 深度学习实例
6.3.1 深度学习主流工具介绍
6.3.2 利用CNN模型识别MNIST手写数字数据集
6.3.3 利用RNN模型识别MNIST手写数字数据集
6.3.4 分布式深度学习
6.3.5 分布式深度学习实例

第7章 实践案例
7.1 云计算技术
7.1.1 服务模式
7.1.2 部署模型
7.2 公安智能大数据平台
7.2.1 背景
7.2.2 智能大数据平台架构
7.2.3 智能大数据平台功能介绍
7.3 交警智能大数据平台
7.3.1 交警智能大数据平台框架
7.3.2 交警智能大数据平台技术框架
7.3.3 功能展示
参考文献
附录 促进大数据发展行动纲要

精彩书摘

第一章 绪论

当代人类置身于数据的海洋当中,金融,工业,医疗,IT……数据与各行各业都息息相关,密不可分。数据和太空资源、自然资源等战略资源的地位同样重要,我们每天网上购物、聊天,使用手机通话,在商场消费,上下班打卡,机场过安检……我们的一举一动都在产生着数据,而我们的日常工作和生活甚至整个社会的向前发展都无时无刻不在受着大量数据的影响。数据的潜在的巨大价值,得到了社会各界广泛关注。
这里有国际数据资讯(IDC)公司的一组监测数据:全球的数据量大致每两年翻一倍,估计在2020年将达到35ZB的数据量,且以半结构化或非结构化的形式存在的数据将占85%以上。数据处理带来的巨大挑战摆在了IT专业人员面前。实际上,“大数据”并不是一个新鲜的名词,美国人在上世纪80年代就提了出来。“大数据”这个词在2008年9月,“Big Data:Science in the Petarbyte Era”一文在《科学》杂志发表之后,开始了广泛的传播。
1.1什么是大数据
研究机构Gartner给出的定义:大数据指的是只有运用新的处理模式才能具有更强的洞察发现力、决策力、和流程优化能力的海量、多样化和高增长率的信息资产。
麦肯锡给出的定义:大数据是指用传统的数据库软件工具无法在一定时间内对其内容进行收集、储存、管理和分析的数据集合。
维基百科给出的定义:大数据指的是所涉的资料量规模十分庞大,以至于无法通过当前主流的软件工具,在适当时间内达到选取、管理、处理并且整理成为有助于企业经营决策目的讯息。
看的出来,不管在哪种定义下,大数据既不是一种新的技术也不是一种新的产品,大数据只是一种出现在数字化时代的现象,就像本世纪初提出的“海量数据”概念一样。但是大数据和海量数据却有着本质上的区别。从字面上讲,“大数据”和“海量数据”都来自英文的翻译,“big data”译为“大数据”,而“vast data’或者“large-scale data”则译为“海量数据”。而从组成的角度来看,大数据不仅包括海量数据所包括的半结构化和结构化的交易数据,还包括交互数据和非结构化数据。Informatica大中国区首席产品顾问但彬更深入的指出,交易和交互数据集在内的所有数据集都包括在大数据内,它的规模和复杂程度远远超出了用常规技术按照合理的期限和成本捕获、管理并处理这些数据集的能力范围。由此可见,海量数据处理、海量交互数据、海量交易数据将会是大数据的三大主要技术趋势。
上个世纪60年代,数据基本在文件中储存,应用程序直接对其进行管理;在70年代,人们构建了关系数据模型,数据库技术为数据存储提供了一种新的手段;80年代中期,由于具有面向主题、集成性、时变性和非易失性特点,数据仓库成为数据分析和联机分析的主要平台;非关系型数据库和基于web的数据库等技术随着网络的普及和web 2.0网站的兴起也应运而生。目前,各种类型的数据伴随着社交网络和智能手机的广泛使用呈现指数增长的态势,逐渐超出了传统关系型数据库的处理能力的范围,数据中潜在的规则和关系难以被发现,这个难题运用大数据技术却能够得到很好的解决,大数据技术可以在能够承受的成本范围内,在较短的时间中,将采集到数据仓库中的数据,运用分布式技术框架对非关系型数据进行异质性处理,经过数据挖掘和分析,从海量、类别繁多的数据中提取价值,大数据技术将会成为IT业内新一代的技术和架构。
大数据是伴随着存储介质的不断扩容以及信息获技术的不断发展的一种社会发展的必然产物。有一句名言说道:人类之前延续的是文明,现在传承的是信息。从中能够看出,数据对我们现在的生活产生了多么深刻的影响。
1.2大数据的特征
业界将大数据的特征归纳为4个“V”:Volume(大量),Variety(多样),Velocity(快速),Value(价值)。
1.2.1数据体量巨大(Volume)
大数据一般指10TB(1TB=1024GB)规模以上的数据量。产生如此庞大的数据量,一是因为各种仪器的使用,让我们可以感知到更多的事物,这些事物部分乃至所有的数据都被存储起来;二是因为通信工具的使用,让人们能够全天候沟通联系,交流的数据量也因为机器-机器(M2M)方式的出现而成倍增长;三是因为集成电路的成本不断降低,大量事物都拥有了智能的成分。
1.2.2数据种类繁多(Variety)
如今,传感器的种类不断增多,智能设备、社交网络等逐渐盛行,数据的类型也变得越发复杂,不但包括传统的关系数据类型,还包括以文档、电子邮件、网页、音频、视频等形式存在的未加工的、非结构化的和半结构化的数据。
1.2.3价值密度低(Value)
虽然数据量呈现指数增长的趋势,但隐藏在海量数据中有价值的信息不仅没有对应比例的增长,反而加大了我们获得有用信息的难度。以视频监控为例,长达数十小时的监控过程,有价值的数据可能只有几秒钟而已。
1.2.4流动速度快(Velocity)
一般来讲,我们所理解的速度是指数据的获取、存储以及挖掘有效信息的速度。但我们目前处理的数据已经从TB级上升到了PB级,因为“海量数据”以及“超大规模数据”同样具有规模大的特点,所以强调数据是快速动态变化的,形成流式数据则就为了大数据的重要特征,数据流动的速度非常之快以至于很难再用传统的系统去处理。
大数据的“4V”特征表明其不仅仅是数据上的海量,对于大数据的分析也将便得更加复杂、更追求速度、更注重实际的效益。
1.3大数据分析的发展情况
1989年在美国底特律召开的第1l届国际人工智能联合会议专题讨论会上,“数据库中的知识发现(KDD)”的概念首次提了出了来。1995年召开了第一届知识发现与数据挖掘国际学术会议,KDD国际会议由于与会人员的不断增多发展为年会。1998年在美国纽约举行了第四届知识发现与数据挖掘国际学术会议,与会期间不但进行了学上的术讨论,30多家软件公司也展示了自己的产品,例如SPSS股份公司开发了基于决策树的数据挖掘软件Clementine,IBM公司研制的用来提供数据挖掘解决方案的Intelligent Miner,0racle公司开发的Darwin数据挖掘套件,此外还有SGI公司的Mine Set和SAS公司的Enterprise等。
IBM、Microsoft、Google、Facebook等知名跨国公司通过大数据技术的发展具备了更强的竞争力。仅2009年一年,通过大数据业务,谷歌公司对美国经济贡献高达540亿美元;2005年以来,IBM耗资160亿美元进行了30余次和大数据相关的收购,使得业绩稳定高速增长;
2012年3月,美国政府公布“大数据研发计划”,旨在改进和提高人们从复杂、海量的数据中获取知识的能力,发展收集、储存、保留、管理、分析和共享海量数据所需的核心技术,继集成电路和互联网之后,大数据成为目前信息科技所关注的重点。
在大数据方面,国内起步稍晚于国外,而且还没有形成整体力量,企业使用数据挖掘技术也尚未行成趋势。不过值得欣慰的是,近几年我国的大数据业务也出现了朝气蓬勃的发展态势。
1993年,我国国家自然科学基金首次支持了对数据挖掘领域的研究项目。1999年,在北京召开的第三届亚太地区知识发现与数据挖掘国际会议(PAKDD)上,收到论文158篇。2011年,在深圳举办了第十五届PAKDD,会议就数据挖掘、知识发现、机器学习、人工智能等相关领域进行交了广泛的交流,反响十分热烈。2012年6月9日,中国计算机学会常务理事会决定成立大数据专家委员会。2012年10月,成立了中国通信学会大数据专家委员会这个首家专门研究大数据应用和发展的学术咨询组织,促进了我国大数据的科研与发展。2012年11月,在以“大数据共享与开放技术”为主题的“Hadoop与大数据技术大会”上,总结了八个热点问题:数据计算的基本模式与范式、数据科学与大数据的学科边界、大数据特性与数据态、大数据安全和隐私问题、大数据的作用力和变换反对、大数据对IT技术架构的挑战、大数据的生态环境问题以及大数据的应用及产业链。大会还成立了“大数据共享联盟”,旨在搜集大数据、展示大数据、推动大数据的研究与开发。
目前,国内相关技术主要针对于数据挖掘相关算法、实际应用及有关理论方面的研究,涉及行业较广,包括零售、制造、电信、金融、医疗、制药等行业及科学领域,单位集中在公司、部分高等院校以及研究所,在IT等新兴领域,浪潮、华为、阿里巴巴、百度等企业也纷纷参与其中,强有力的促进了我国大数据技术的进步。
1.4大数据的相关政策
2015年8月31日,国务院印发了《促进大数据发展行动纲要》,首次在国家层面上提出发展大数据产业。
纲要提出,在未来10-15年内要逐步实现以下目标:打造精准治理、多方协作的社会治理新模式,2017年底前形成跨部门数据资源共享共用格局;建立运行平稳、安全高效的经济运行新机制;构建以人为本、惠及全民的民生服务新体系;开启大众创业、万众创新的创新驱动新格局;2018年底前建成国家政府数据统一开放平台,率先在交通、信用、金融、卫生、就业、社保、医疗、地理、教育、文化、科技、资源、农业、环境、安监、统计、质量、海洋、气象、企业登记监管等重要领域实现公共数据资源合理适度向社会开放;培育高端智能、新兴繁荣的产业发展新生态,推动大数据与物联网、云计算、移动互联网等新一代信息技术融合发展,探索大数据与传统产业协同发展的新业态、新模式,促进传统产业转型升级和新兴产业发展,培育新的经济增长点。
为此,纲要提出了加快政府数据开放共享,推动资源整合,提高治理能力;促进产业创新发展,培育新兴业态,助力经济转型;强化安全保障,提高管理水平,促进健康发展等三大任务。
纲要还提出,政府数据资源共享开放工程、国家大数据资源统筹发展工程、政府治理大数据工程、公共服务大数据工程、现代农业大数据工程、工业和新兴产业大数据工程、万众创新大数据工程、大数据关键技术及产品研发与产业化工程、数据产业支撑能力提升工程等9个专项。
其中包括建设形成国家政府数据统一开放平台、医疗、交通旅游服务大数据、工业大数据应用、服务业大数据应用、农业农村信息综合服务、构建科学大数据国家重大基础设施。
根据纲要,到2020年,我国将形成一批具有国际竞争力的大数据处理、分析、可视化软件和硬件支撑平台等产品;并且培育10家国际领先的大数据核心龙头企业,500家大数据应用、服务和产品制造企业。

前言/序言

  随着云时代的来临,大数据(Big Data)也吸引了越来越多的关注。大数据目前已成为IT领域最为流行的词汇,其实它并不是一个全新的概念。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》-书中,明确提出“数据就是财富”这一观点,并将大数据热情地赞颂为“第三次浪潮的华彩乐章”。直到现在,大数据在政府决策部门、行业企业、研究机构等地方得到了广泛的应用,并实际创造了价值。
  本书较为全面地介绍了大数据相关技术和应用的现状。主要的编写思路是首先介绍概念,然后理解方法,最后结合实际。全书共7章:
  第1章主要介绍了大数据的基础概念,包括大数据的定义、由来以及特点,使读者对大数据有一个感性上的认识,为之后的章节打好基础。
  第2章主要介绍了面向大数据的分布式存储框架,包括Google的Bigtable和Amazon的Dynamo。从架构、实现和性能等角度进行了分析和比较,使读者了解现有的大数据存储方法与策略。
  第3章在第2章的基础上介绍了面向大数据的分布式处理框架,包括Hadoop和Spark。从概况、实现和应用三个方面对两个框架进行了介绍,力求使读者对现有大数据处理框架有较为直观的认识,便于理解大数椐分析的原理。
  有了前3章的概念介绍,第4章开始进入实践性更强的内容。
  第4章主要介绍了信息挖掘的经典算法,包括C4.5、k-means、支持向量机、Apriori、EM、PageRank等算法,结合一些生动的例子,深入浅出地介绍这些算法的工作原理,使读者在遇到实际问题时能够灵活应用。
  第5章内容为数据的可视化,将数据或结果通过可视化方法呈现出来,使读者能够更加直观地传达与沟通信息。
  第6章涉及大数据与人工智能的联系,主要包括深度学习中的CNN和RNN框架,以及它们在大数据下的工作方式,帮助读者了解人工智能和大数据的关系以及算法实现。
  第7章主要介绍了大数据在现实生活中的实际用例,通过具体案例,向读者展示大数据在公安领域的具体应用和作用。 在本书的编写过程中,我们参考了大量相关文献资料,并且借鉴了同行专家的研究成果,听取了同行专家的宝贵意见,在此向他们表示真挚的谢意。
  本书的编写和出版得到了北京邮电大学出版社的大力支持,在此表示衷心的感谢。
  由于编者水平有限,加上时间仓促,书中疏漏与不妥之处在所难免,敬请有关专家和读者批评指正。