本篇主要提供数据清洗电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
数据清洗是大数据技术不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,把“脏”的数据变为“干净”的数据。本书详细讲解了ETL技术方法和常用工具、常用的数据清洗工具、数据抽取、数据转换与加载、对Web数据的采集、对RDBMS数据的清洗操作。目前市面上此类书还很少,对数据清洗从业人员是一本不可多得的技术参考书,也可以作为应用型院校的课程教材。
\"数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。
本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集等;第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。
本书系统地讲解了数据清洗理论和实际应用,适用于高职高专院校和应用型本科的大数据课程教学,也适用于希望了解数据清洗的广大读者。
\"
李法平- 副教授/系统分析师,硕士,重庆电子工程职业学院软件学院移动应用开发教研室主任,主要从事高职软件类专业教学研究、教育信息化系统和企业信息化系统等应用技术研究。
第1章 数据清洗概述
1.1 数据清洗简介
1.1.1 数据科学过程
1.1.2 数据清洗定义
1.1.3 数据清洗任务
1.1.4 数据清洗流程
1.1.5 数据清洗环境
1.1.6 数据清洗实例说明
1.2 数据标准化
1.2.1 数据标准化概念
1.2.2 数据标准化常用方法
1.3 数据仓库简介
1.3.1 数据仓库定义
1.3.2 数据仓库组成要素
1.3.3 数据仓库分类
1.3.4 数据仓库相关技术
1.3.5 常用工具简介
1.4 习题
第2章 数据格式与编码
2.1 文件文本格式
2.1.1 常见文本格式
2.1.2 xls及xlsx文件格式
2.1.3 JSON文本格式
2.1.4 HTML和XML文本格式
2.2 数据编码
2.2.1 数据类型
2.2.2 数据类型间转换
2.2.3 字符编码
2.2.4 空值和乱码
2.3 数据转换
2.3.1 电子表格转换
2.3.2 RDBMS数据转换
2.4 习题
第3章 基本技术方法
3.1 ETL入门
3.1.1 ETL解决方案
3.1.2 ETL基本构成
3.1.3 ETL技术选型
3.2 技术路线
3.2.1 文本清洗路线
3.2.2 RDBMS清洗路线
3.2.3 Web内容清洗路线
3.3 ETL工具
3.3.1 ETL功能
3.3.2 开源ETL工具
3.4 ETL子系统
3.4.1 抽取
3.4.2 清洗和 正数据
3.4.3 数据发布
3.4.4 管理ETL