本篇主要提供数据科学中的实用统计学第2二版贝叶斯分析统计机器学习Python和R语言代码大数据分析挖掘电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
本书解释了数据科学中*关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第 2 版在第1版的基础上加入了更多以Python 和 R 编写的示例,更清楚地阐释了如何将统计方法用于数据科学。
彼得·布鲁斯(Peter Bruce),Statistics.com统计学教育学院*办人兼院长,重采样统计软件Resampling Stats的*,美*统计协会职业发展咨询委员会成员。
安德鲁·布鲁斯(Andrew Bruce),*数据*、华盛顿大学统计学博士,拥有30余年的统计学和数据科学经验。
彼得·格德克(Peter Gedeck),数据*,拥有30余年的科学计算和数据科学经验,善于开发机器学习算法。
第 *章 探索性数据分析 *
*.* 结构化数据的要素 2
*.2 矩形数据 4
*.2.* 数据框和索引 5
*.2.2 非矩形数据结构 6
*.2.3 扩展阅读 6
*.3 位置估计 6
*.3.* 均值 8
*.3.2 中位数和健壮的估计 9
*.3.3 示例:人口和谋杀率的位置估计 *0
*.3.4 扩展阅读 **
*.4 变异性估计 **
*.4.* 标准差以及相关估计 *3
*.4.2 基于*分位数的估计 *4
*.4.3 示例:美*各州人口数量的变异性估计 *5
*.4.4 扩展阅读 *6
*.5 探索数据分布 *6
*.5.* *分位数与箱线图 *7
*.5.2 频数表和直方图 *8
*.5.3 密度图和密度估计 20
*.5.4 扩展阅读 22
*.6 探索二元数据和分类型数据 22
*.6.* 众数 24
*.6.2 期望值 24
*.6.3 概率 25
*.6.4 扩展阅读 25
*.7 相关性 25
*.7.* 散点图 28
*.7.2 扩展阅读 29
*.8 探索两个及以上的变量 29
*.8.* 六边形分箱图和等*线图(绘制数值型数据之间的关系) 30
*.8.2 两个分类变量 32
*.8.3 分类型数据和数值型数据 33
*.8.4 多个变量的可视化 35
*.8.5 扩展阅读 37
*.9 小结 37
第 2 章 数据与抽样分布 39
2.* 随机抽样和样本偏差 40
2.*.* 偏差 42
2.*.2 随机选择 43
2.*.3 数量和质量:什么时候数量更重要 44
2.*.4 样本均值与总体均值 45
2.*.5 扩展阅读 45
2.2 选择偏差 45
2.2.* 均值回归 46
2.2.2 扩展阅读 48
2.3 统计量的抽样分布 48
2.3.* 中心*限定理 5*
2.3.2 标准误差 5*
2.3.3 扩展阅读 52
2.4 Bootstrap 方法 52
2.4.* 重抽样与Bootstrap 方法 55
2.4.2 扩展阅读 55
2.5 置信区间 55
2.6 正态分布 57
2.7 长尾分布 60
2.8 学生的t 分布 62
2.9 二项分布 64
2.*0 卡方分布 67
2.** F 分布 68
2.*2 泊松及其相关分布 68
2.*2.* 泊松分布 69
2.*2.2 指数分布 69
2.*2.3 估计故障率 70
2.*2.4 韦布尔分布 70
2.*2.5 扩展阅读 7*
2.*3 小结 7*
第3 章 统计实验与显著性检验 72
3.* A/B 测试 73
3.*.* 为什么要有对照组 75
3.*.2 为什么只有A/B,没有C/D…… 76
3.*.3 扩展阅读 77
3.2 假设检验 77
3.2.* 零假设 78
3.2.2 备择假设 79
3.2.3 单向假设检验与双向假设检验 79
3.2.4 扩展阅读 80
3.3 重抽样 80
3.3.* 置换检验 80
3.3.2 示例:Web 黏性 8*
3.3.3 穷尽置换检验和Bootstrap 置换检验 84
3.3.4 置换检验:数据科学的底线 85
3.3.5 扩展阅读 85
3.4 统计显著性和p 值 85
3.4.* p 值 88
3.4.2 α 88
3.4.3 第 *类错误和第二类错误 90
3.4.4 数据科学与p 值 9
3.4.5 扩展阅读 90
3.5 t 检验 9*
3.6 多重检验 92
3.7 自由度 95
3.8 ANOVA 97
3.8.* F 统计量 99
3.8.2 双向ANOVA *0*
3.8.3 扩展阅读 *0*
3.9 卡方检验 *0*
3.9.* 卡方检验:*种重抽样方法 *02
3.9.2 卡方检验:统计理论 *04
3.9.3 费希尔*确检验 *05
3.9.4 与数据科学的关联 *07
3.9.5 扩展阅读 *07
3.*0 多臂老虎机算法 *07
3.** 检验力与样本容量 **0
3.**.* 样本容量 ***
3.**.2 扩展阅读 **3
3.*2 小结 **4
第4 章 回归与预测 **5
4.* 简单线性回归 **5
4.*.* 回归方程 **7
4.*.2 拟合值与残差 **9
4.*.3 最小二乘法 *20
4.*.4 预测与解释(分析) *2*
4.*.5 扩展阅读 *2*
4.2 多元线性回归 *22
4.2.* 示例:金县房屋数据 *23
4.2.2 模型评估 *24
4.2.3 交叉验证 *26
4.2.4 模型选择与逐步回归 *27
4.2.5 加权回归 *30
4.2.6 扩展阅读 *3*
4.3 使用回归进行预测 *3*
4.3.* 外推风险 *3*
4.3.2 置信区间与预测区间 *32
4.4 回归中的因子变量 *33
4.4.* 虚拟变量的表示方法 *34
4.4.2 多水平因子变量 *36
4.4.3 有序因子变量 *38
4.5 解释回归方程 *38
4.5.* 相关的预测变量 *39
4.5.2 多重共线性 *40
4.5.3 混淆变量 *4*
4.5.4 交互作用与主效应 *42
4.6 回归诊断 *43
4.6.* 离群点 *44
4.6.2 强影响值 *46
4.6.3 异方差、非正态与相关误差 *48
4.6.4 偏残差图与非线性 *5*
4.7 多项式回归与样条回归 *52
4.7.* 多项式回归 *53
4.7.2 样条回归 *55
4.7.3 广义可加模型 *56
4.7.4 扩展阅读 *58
4.8 小结 *58
第5 章 分类 *59
5.* 朴素贝叶斯算法 *60
5.*.* 为什么进行*确贝叶斯分类是*现实的 *6*
5.*.2 朴素贝叶斯问题求解 *6*
5.*.3 数值型预测变量 *64
5.*.4 扩展阅读 *64
5.2 判别分析 *64
5.2.* 协方差矩阵 *65
5.2.2 费希尔线性判别分析 *66
5.2.3 *个简单的例子 *66
5.2.4 扩展阅读 *69
5.3 逻辑回归 *69
5.3.* 逻辑响应函数和logit 函数 *70
5.3.2 逻辑回归和广义线性模型 *7*
5.3.3 广义线性模型 *72
5.3.4 逻辑回归的预测值 *73
5.3.5 系数和*势比的解释 *74
5.3.6 线性回归与逻辑回归:共性与差异 *75
5.3.7 评估模型 *76
5.3.8 扩展阅读 *79
5.4 分类模型评估 *79
5.4.* 混淆矩阵 *80
5.4.2 *有类问题 *82
5.4.3 *确度、召回率和*异度 *82
5.4.4 ROC 曲线 *83
5.4.5 AUC *85
5.4.6 提*度 *86
5.4.7 扩展阅读 *87
5.5 非平衡数据的处理策略 *87
5.5.* 欠采样 *88
5.5.2 过采样与上(下)加权 *89
5.5.3 数据生成 *90
5.5.4 基于成本的分类 *9*
5.5.5 探索预测结果 *9*
5.5.6 扩展阅读 *92
5.6 小结 *93
第6 章 统计机器学习 *94
6.* KNN *95
6.*.* *个小例子:预测贷款违约 *96
6.*.2 距离的度量 *98
6.*.3 *热编码 *98
6.*.4 标准化(归*化,z 分数) *99
6.*.5 K 的选择 20*
6.*.6 KNN 作为*征引擎 202
6.2 树模型 204
6.2.* *个简单的例子 205
6.2.2 递归分割算法 207
6.2.3 测量同质性或*纯度 208
6.2.4 让树停止生长 209
6.2.5 预测连续的值 2**
6.2.6 如何使用树 2**
6.2.7 扩展阅读 2*2
6.3 装袋法与随机森林 2*2
6.3.* 装袋法 2*3
6.3.2 随机森林 2*3
6.3.3 变量的重要性 2*7
6.3.4 *参数 220
6.4 提*方法 22*
6.4.* 提*算法 222
6.4.2 XGBoost 222
6.4.3 正则化:避*过拟合 225
6.4.4 *参数与交叉验证 228
6.5 小结 23*
第7 章 *监督学习 232
7.* 主成分分析 233
7.*.* *个简单的例子 234
7.*.2 计算主成分 236
7.*.3 解释主成分 236
7.*.4 对应分析 239
7.*.5 扩展阅读 240
7.2 K-均值聚类 24*
7.2.* *个简单的例子 24*
7.2.2 K-均值算法 244
7.2.3 簇的解释 245
7.2.4 选择簇的数量 247
7.3 层次聚类 248
7.3.* *个简单的例子 249
7.3.2 树状图 250
7.3.3 凝聚算法 25*
7.3.4 测量相异度 252
7.4 基于模型的聚类 253
7.4.* 多元正态分布 253
7.4.2 混合正态分布 254
7.4.3 选择簇的数量 257
7.4.4 扩展阅读 259
7.5 数据缩放与分类变量 259
7.5.* 缩放变量 260
7.5.2 *变量 26*
7.5.3 分类数据和Gower 距离 263
7.5.4 混合数据聚类中的问题 265
7.6 小结 266
扩展阅读 267
作者介绍 269
封面介绍 269