书籍详情
《数据准备从获取到整理》[24M]百度网盘|亲测有效|pdf下载
  • 数据准备从获取到整理

  • 出版社:万里路图书专营店
  • 出版时间:2022-07
  • 热度:12171
  • 上架时间:2024-06-30 09:38:03
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

作  者:阮敬,任韬 编
定  价:46
出 版 社:中国人民大学出版社
出版日期:2022年07月01日
页  数:244
装  帧:平装
ISBN:9787300307985
目录
第1章数据来源
1.1调查和观察数据
1.1.1调查数据
1.1.2观察数据
1.2数据库数据
1.2.1关系型数据库
1.2.2非关系型数据库
1.3爬虫数据
1.4日志数据
第2章数据类型
2.1结构化数据
2.1.1基本数据类型
2.1.2二维表结构数据
2.2集合数据类型
2.2.1列表
2.2.2元组
2.2.3字典
2.2.4集合
2.2.5推导式
2.3其他常见的结构化数据
2.3.1数组
2.3.2矩阵
2.3.3数列
2.3.4数据帧
2.3.5日期时间型数据
2.4非结构化数据
2.4.1网页与JSON数据
2.4.2图像数据
2.4.3音频数据
2.4.4视频数据
第3章数据编码
3.1数据编码的基本要求和原则
3.2数据编码的结构类型
3.2.1分类编码
3.2.2顺序编码
3.2.3分段编码
3.2.4值标签编码
3.2.5Dummy/虚拟变量编码
3.2.6尺度编码
第4章数据清洗
4.1异常值清洗
4.1.1异常值识别
4.1.2异常值处理
4.2重复数据清洗
4.2.1重复数据检测
4.2.2重复数据删除
4.3低频类别清洗
4.3.1观察低频类别
4.3.2低频类别处理
4.4数据纠错
4.4.1逻辑纠错
4.4.2格式纠错
4.5数据纠偏
4.5.1数据偏度识别和测量
4.5.2数据偏度的纠正
第5章数据插补
5.1缺失值产生原因及其表现
5.1.1缺失值的含义
5.1.2缺失值的类型
5.1.3缺失值产生的原因
5.1.4缺失值的影响
5.1.5缺失值的表现形式
5.2缺失值插补
5.2.1简单统计量插补
5.2.2聚类插补
5.2.3模型插补
5.3MVP
5.3.1MVP分析思路
5.3.2MVP提取方法
第6章数据配平
6.1不平衡数据
6.1.1不平衡数据的含义
6.1.2不平衡数据的影响
6.2数据配平方法
6.2.1欠采样
6.2.2过采样
6.2.3混合采样
6.3数据配平的影响
6.3.1数据配平的效果
6.3.2模型预测结果的偏离及其校正方法
6.3.3欠采样对预测稳定性的影响
第7章数据重构
7.1数据组合
7.1.1序列组合
7.1.2水平组合
7.1.3垂直组合
7.1.4深度组合
7.1.5列组合
7.1.6行组合
7.2轴向连接
7.2.1左右拼接
7.2.2数据追加
7.3数据融合
7.3.1键融合
7.3.2索引融合
7.3.3插补融合
7.4数据重塑
7.4.1Panel
7.4.2层次化索引
7.4.3stack与unstack
7.5数据分拆
7.5.1水平分拆
7.5.2垂直分拆
7.5.3深度分拆
7.5.4逻辑分拆
7.5.5随机采样与数据分割
7.6数据聚合
第8章数据变换
8.1数据变换的含义和作用
8.2连续数据函数变换
8.2.1对数变换
8.2.2平方根变换
8.2.3平方变换
8.2.4倒数变换
8.2.5幂变换与BOX-COX变换
8.3连续数据离散化
8.3.1客观法
8.3.2主观法
8.4数据次序化
8.4.1升降次序
8.4.2位置与秩
8.4.3秩的计算方法
8.4.4秩的缺失值处理
8.4.5DataFrame中的秩
8.5多分类数据哑变量化
8.5.1哑变量的概念与特征
8.5.2哑变量与one.hot码
8.5.3多分类数据转换为哑变量
8.5.4多分类数据转换为one.hot码
8.6定性数据数量化
8.6.1顺序数据转化为得分
8.6.2构造定性数据的平滑值
第9章数据缩放
9.1数据缩放的概念
9.2数据缩放方法
9.2.1中心化
9.2.2标准化
9.2.3Min-Max缩放
9.2.4Max-ABS缩放
9.2.5Robust缩放
第10章数据归约
10.1数据归约的概念
10.2变量选择方法
10.2.1使用统计量
l0.2.2决策树模型
10.2.3Lasso算法
10.3样本归约
参考文献
内容简介
数据的获取方式、数据的形式及其结构纷繁芜杂,如何把数据整理成我们想要的样子呢?本书通过真实案例构建了数据准备过程中的方法与技术体系,并通过Python 3编程实现从数据获取到数据整理的全过程。 全书内容包括数据来源、数据类型、数据编码、数据清洗、数据插补、数据配平、数据重构、数据变换、数据缩放和数据归约。为使读者能够快速掌握数据准备的方法与技术,本书的数据文件与程序代码均可下载(见封底二维码)。 本书既可作为高等院校的数据分析类课程教材,也可作为社会科学领域数据分析的自学用书。从事数据分析与数据管理工作的相关人员,以及用Python解决实际数据分析问题的工程技术和管理人员亦可参考使用。
作者简介
阮敬,任韬 编
阮敬 博士、教授、博士生导师。首都经济贸易大学数据科学学院副院长。兼任第七届全国统计教材编审委员会学术委员、数据科学与大数据应用组副组长,中国现场统计研究会副秘书长、经济与金融统计分会副理事长,中国统计教育学会副秘书长、高等教育分会秘书长,全国工业统计学教学研究会常务理事,中国青年统计学家协会创会秘书长,北京大数据协会副会长、秘书长,《统计学报》《统计与精算》编委等。研究领域为经济统计、大数据分析。在国内外发表论文70余篇,出版专著、译著、教材16部。主持重量和省部级科研项目及企事业单位横向课题50余项。荣获全国统计科学研究优秀成果奖、全国应用统计专业学位研究生优秀教育教学成果奖、北京市哲学社等