《数据科学中的实用统计学第2二版贝叶斯分析统计机器学习Python和R语言代码大数据分析挖掘》[73M]百度网盘|pdf下载|亲测有效
《数据科学中的实用统计学第2二版贝叶斯分析统计机器学习Python和R语言代码大数据分析挖掘》[73M]百度网盘|pdf下载|亲测有效

数据科学中的实用统计学第2二版贝叶斯分析统计机器学习Python和R语言代码大数据分析挖掘 pdf下载

出版社 人民邮电出版社官方旗舰店
出版年 2025
页数 390页
装帧 精装
评分 8.9(豆瓣)
8.99¥ 10.99¥

内容简介

本篇主要提供数据科学中的实用统计学第2二版贝叶斯分析统计机器学习Python和R语言代码大数据分析挖掘电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com


内容介绍

本书解释了数据科学中*关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第 2 版在第1版的基础上加入了更多以Python 和 R 编写的示例,更清楚地阐释了如何将统计方法用于数据科学。



作者介绍

彼得·布鲁斯(Peter Bruce),Statistics.com统计学教育学院*办人兼院长,重采样统计软件Resampling Stats的*,美*统计协会职业发展咨询委员会成员。

安德鲁·布鲁斯(Andrew Bruce),*数据*、华盛顿大学统计学博士,拥有30余年的统计学和数据科学经验。

彼得·格德克(Peter Gedeck),数据*,拥有30余年的科学计算和数据科学经验,善于开发机器学习算法。

目录

第 *章 探索性数据分析 *


*.* 结构化数据的要素 2


*.2 矩形数据 4


*.2.* 数据框和索引 5


*.2.2 非矩形数据结构 6


*.2.3 扩展阅读 6


*.3 位置估计 6


*.3.* 均值 8


*.3.2 中位数和健壮的估计 9


*.3.3 示例:人口和谋杀率的位置估计 *0


*.3.4 扩展阅读 **


*.4 变异性估计 **


*.4.* 标准差以及相关估计 *3


*.4.2 基于*分位数的估计 *4


*.4.3 示例:美*各州人口数量的变异性估计 *5


*.4.4 扩展阅读 *6


*.5 探索数据分布 *6


*.5.* *分位数与箱线图 *7


*.5.2 频数表和直方图 *8


*.5.3 密度图和密度估计 20


*.5.4 扩展阅读 22


*.6 探索二元数据和分类型数据 22


*.6.* 众数 24


*.6.2 期望值 24


*.6.3 概率 25


*.6.4 扩展阅读 25


*.7 相关性 25


*.7.* 散点图 28


*.7.2 扩展阅读 29


*.8 探索两个及以上的变量 29


*.8.* 六边形分箱图和等*线图(绘制数值型数据之间的关系) 30


*.8.2 两个分类变量 32


*.8.3 分类型数据和数值型数据 33


*.8.4 多个变量的可视化 35


*.8.5 扩展阅读 37


*.9 小结 37


第 2 章 数据与抽样分布 39


2.* 随机抽样和样本偏差 40


2.*.* 偏差 42


2.*.2 随机选择 43


2.*.3 数量和质量:什么时候数量更重要 44


2.*.4 样本均值与总体均值 45


2.*.5 扩展阅读 45


2.2 选择偏差 45


2.2.* 均值回归 46


2.2.2 扩展阅读 48


2.3 统计量的抽样分布 48


2.3.* 中心*限定理 5*


2.3.2 标准误差 5*


2.3.3 扩展阅读 52


2.4 Bootstrap 方法 52


2.4.* 重抽样与Bootstrap 方法 55


2.4.2 扩展阅读 55


2.5 置信区间 55


2.6 正态分布 57


2.7 长尾分布 60


2.8 学生的t 分布 62


2.9 二项分布 64


2.*0 卡方分布 67


2.** F 分布 68


2.*2 泊松及其相关分布 68


2.*2.* 泊松分布 69


2.*2.2 指数分布 69


2.*2.3 估计故障率 70


2.*2.4 韦布尔分布 70


2.*2.5 扩展阅读 7*


2.*3 小结 7*


第3 章 统计实验与显著性检验 72


3.* A/B 测试 73


3.*.* 为什么要有对照组 75


3.*.2 为什么只有A/B,没有C/D…… 76


3.*.3 扩展阅读 77


3.2 假设检验 77


3.2.* 零假设 78


3.2.2 备择假设 79


3.2.3 单向假设检验与双向假设检验 79


3.2.4 扩展阅读 80


3.3 重抽样 80


3.3.* 置换检验 80


3.3.2 示例:Web 黏性 8*


3.3.3 穷尽置换检验和Bootstrap 置换检验 84


3.3.4 置换检验:数据科学的底线 85


3.3.5 扩展阅读 85


3.4 统计显著性和p 值 85


3.4.* p 值 88


3.4.2 α 88


3.4.3 第 *类错误和第二类错误 90


3.4.4 数据科学与p 值 9


3.4.5 扩展阅读 90


3.5 t 检验 9*


3.6 多重检验 92


3.7 自由度 95


3.8 ANOVA 97


3.8.* F 统计量 99


3.8.2 双向ANOVA *0*


3.8.3 扩展阅读 *0*


3.9 卡方检验 *0*


3.9.* 卡方检验:*种重抽样方法 *02


3.9.2 卡方检验:统计理论 *04


3.9.3 费希尔*确检验 *05


3.9.4 与数据科学的关联 *07


3.9.5 扩展阅读 *07


3.*0 多臂老虎机算法 *07


3.** 检验力与样本容量 **0


3.**.* 样本容量 ***


3.**.2 扩展阅读 **3


3.*2 小结 **4


第4 章 回归与预测 **5


4.* 简单线性回归 **5


4.*.* 回归方程 **7


4.*.2 拟合值与残差 **9


4.*.3 最小二乘法 *20


4.*.4 预测与解释(分析) *2*


4.*.5 扩展阅读 *2*


4.2 多元线性回归 *22


4.2.* 示例:金县房屋数据 *23


4.2.2 模型评估 *24


4.2.3 交叉验证 *26


4.2.4 模型选择与逐步回归 *27


4.2.5 加权回归 *30


4.2.6 扩展阅读 *3*


4.3 使用回归进行预测 *3*


4.3.* 外推风险 *3*


4.3.2 置信区间与预测区间 *32


4.4 回归中的因子变量 *33


4.4.* 虚拟变量的表示方法 *34


4.4.2 多水平因子变量 *36


4.4.3 有序因子变量 *38


4.5 解释回归方程 *38


4.5.* 相关的预测变量 *39


4.5.2 多重共线性 *40


4.5.3 混淆变量 *4*


4.5.4 交互作用与主效应 *42


4.6 回归诊断 *43


4.6.* 离群点 *44


4.6.2 强影响值 *46


4.6.3 异方差、非正态与相关误差 *48


4.6.4 偏残差图与非线性 *5*


4.7 多项式回归与样条回归 *52


4.7.* 多项式回归 *53


4.7.2 样条回归 *55


4.7.3 广义可加模型 *56


4.7.4 扩展阅读 *58


4.8 小结 *58


第5 章 分类 *59


5.* 朴素贝叶斯算法 *60


5.*.* 为什么进行*确贝叶斯分类是*现实的 *6*


5.*.2 朴素贝叶斯问题求解 *6*


5.*.3 数值型预测变量 *64


5.*.4 扩展阅读 *64


5.2 判别分析 *64


5.2.* 协方差矩阵 *65


5.2.2 费希尔线性判别分析 *66


5.2.3 *个简单的例子 *66


5.2.4 扩展阅读 *69


5.3 逻辑回归 *69


5.3.* 逻辑响应函数和logit 函数 *70


5.3.2 逻辑回归和广义线性模型 *7*


5.3.3 广义线性模型 *72


5.3.4 逻辑回归的预测值 *73


5.3.5 系数和*势比的解释 *74


5.3.6 线性回归与逻辑回归:共性与差异 *75


5.3.7 评估模型 *76


5.3.8 扩展阅读 *79


5.4 分类模型评估 *79


5.4.* 混淆矩阵 *80


5.4.2 *有类问题 *82


5.4.3 *确度、召回率和*异度 *82


5.4.4 ROC 曲线 *83


5.4.5 AUC *85


5.4.6 提*度 *86


5.4.7 扩展阅读 *87


5.5 非平衡数据的处理策略 *87


5.5.* 欠采样 *88


5.5.2 过采样与上(下)加权 *89


5.5.3 数据生成 *90


5.5.4 基于成本的分类 *9*


5.5.5 探索预测结果 *9*


5.5.6 扩展阅读 *92


5.6 小结 *93


第6 章 统计机器学习 *94


6.* KNN *95


6.*.* *个小例子:预测贷款违约 *96


6.*.2 距离的度量 *98


6.*.3 *热编码 *98


6.*.4 标准化(归*化,z 分数) *99


6.*.5 K 的选择 20*


6.*.6 KNN 作为*征引擎 202


6.2 树模型 204


6.2.* *个简单的例子 205


6.2.2 递归分割算法 207


6.2.3 测量同质性或*纯度 208


6.2.4 让树停止生长 209


6.2.5 预测连续的值 2**


6.2.6 如何使用树 2**


6.2.7 扩展阅读 2*2


6.3 装袋法与随机森林 2*2


6.3.* 装袋法 2*3


6.3.2 随机森林 2*3


6.3.3 变量的重要性 2*7


6.3.4 *参数 220


6.4 提*方法 22*


6.4.* 提*算法 222


6.4.2 XGBoost 222


6.4.3 正则化:避*过拟合 225


6.4.4 *参数与交叉验证 228


6.5 小结 23*


第7 章 *监督学习 232


7.* 主成分分析 233


7.*.* *个简单的例子 234


7.*.2 计算主成分 236


7.*.3 解释主成分 236


7.*.4 对应分析 239


7.*.5 扩展阅读 240


7.2 K-均值聚类 24*


7.2.* *个简单的例子 24*


7.2.2 K-均值算法 244


7.2.3 簇的解释 245


7.2.4 选择簇的数量 247


7.3 层次聚类 248


7.3.* *个简单的例子 249


7.3.2 树状图 250


7.3.3 凝聚算法 25*


7.3.4 测量相异度 252


7.4 基于模型的聚类 253


7.4.* 多元正态分布 253


7.4.2 混合正态分布 254


7.4.3 选择簇的数量 257


7.4.4 扩展阅读 259


7.5 数据缩放与分类变量 259


7.5.* 缩放变量 260


7.5.2 *变量 26*


7.5.3 分类数据和Gower 距离 263


7.5.4 混合数据聚类中的问题 265


7.6 小结 266


扩展阅读 267


作者介绍 269


封面介绍 269