本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
本书是一本机器学习算法方面的理论+实践读物,主要包含机器学习基础理论、回归模型、分类模型、聚类模型、降维模型和深度学习模型六大部分。机器学习基础理论部分包含 、2章,主要介绍机器学习的理论基础和工程实践基础。第3章是回归模型部分,主要包括模型的建立、学习策略的确定和优化算法的求解过程, 结合三种常见的线性回归模型实现了一个房价预测的案例。第4至11章详细介绍了几种常见的分类模型,包括朴素贝叶斯模型、K近邻模型、决策树模型、Logistic回归模型、支持向量机模型、随机森林模型、AdaBoost模型和提升树模型,每一个模型都给出了较为详细的推导过程和实际应用案例。 2章系统介绍了五种常见的聚类模型,包括K-Means聚类、层次聚类、密度聚类、谱聚类和高斯混合聚类,每一个模型的原理、优缺点和工程应用实践都给出了较为详细的说明。 3章系统介绍了四种常用的降维方式,包括奇异值分解、主成分分析、线性判别分析和局部线性嵌入,同样给出了详细的理论推导和分析。 两章分别是词向量模型和深度神经网络模型,其中,词向量模型详细介绍了Word2Vec和Doc2Vec模型的原理推导和应用;深度神经网络模型系统介绍了深度学习相关的各类基础知识。本书适合对人工智能和机器学习感兴趣的学生、求职者和已工作人士,以及想要使用机器学习这一工具的跨行业者(有 基本的高等数学、线性代数、概率基础即可),具体判别方法建议您阅读本书的前言。
胡欢武,毕业于上海交通大学电子与通信工程专业,研究机器学习和数据挖掘方面近4年。运营有数据科学方面的知乎专栏和微信公众号,在过去3个月期间累计关注者已经超过3000人。现就职于阿里巴巴。
第1章 机器学习概述1
1.1 机器学习介绍1
1.1.1 机器学习的特点1
1.1.2 机器学习的对象2
1.1.3 机器学习的应用4
1.2 机器学习分类5
1.2.1 按任务类型分类5
1.2.2 按学习方式分类7
1.2.3 生成模型与判别模型9
1.3 机器学习方法三要素11
1.3.1 模型11
1.3.2 策略13
1.3.3 算法14
1.3.4 小结23
第2章 机器学习工程实践24
2.1 模型评估指标24
2.1.1 回归模型的评估指标24
2.1.2 分类模型的评估指标25
2.1.3 聚类模型的评估指标33
2.1.4 常用距离公式37
2.2 模型复杂度度量40
2.2.1 偏差与方差40
2.2.2 过拟合与正则化42
2.3 特征工程与模型调优47
2.3.1 数据挖掘项目流程47
2.3.2 特征工程50
2.3.3 模型选择与模型调优57
第3章 线性回归63
3.1 问题引入63
3.2 线性回归模型64
3.2.1 模型建立64
3.2.2 策略确定65
3.2.3 算法求解66
3.2.4 线性回归模型流程67
3.3 线性回归的scikit-learn实现67
3.3.1 普通线性回归68
3.3.2 Lasso回归69
3.3.3 岭回归70
3.3.4 ElasticNet回归71
3.4 线性回归实例73
3.5 小结75
第4章 朴素贝叶斯77
4.1 概述77
4.2 相关原理77
4.2.1 朴素贝叶斯基本原理77
4.2.2 原理的进一步阐述79
4.2.3 后验概率 化的含义82
4.2.4 拉普拉斯平滑83
4.3 朴素贝叶斯的三种形式及scikit-learn实现84
4.3.1 高斯型84
4.3.2 多项式型85
4.3.3 伯努利型86
4.4 中文文本分类项目87
4.4.1 项目简介87
4.4.2 项目过程87
4.4.3 完整程序实现94
4.5 小结100
第5章 K近邻102
5.1 概述102
5.2 K近邻分类原理102
5.2.1 K值的选择103
5.2.2 距离度量103
5.2.3 分类决策规则104
5.2.4 K近邻分类算法过程105
5.3 K近邻回归原理106
5.3.1 回归决策规则106
5.3.2 K近邻回归算法过程106
5.4 搜索优化――KD树107
5.4.1 构造KD树107
5.4.2 搜 D树108
5.5 K近邻的scikit-learn实现110
5.5.1 K近邻分类110
5.5.2 K近邻回归112
5.6 K近邻应用实例112
5.7 小结115
第6章 决策树117
6.1 概述117
6.2 特征选择119
6.2.1 信息增益119
6.2.2 信息增益比122
6.2.3 基尼指数123
6.3 决策树生成124
6.3.1 ID3决策树124
6.3.2 C4.5决策树125
6.3.3 CART决策树126
6.4 决策树剪枝131
6.5 决策树的scikit-learn实现133
6.6 决策树应用于文本分类135
6.7 小结138
第7章 Logistic回归140
7.1 Logistic回归概述140
7.2 Logistic回归原理140
7.2.1 Logistic回归模型140
7.2.2 Logistic回归学习策略141
7.2.3 Logistic回归优化算法142
7.3 多项Logistic回归144
7.4 Logistic回归的scikit-learn实现144
7.5 Logistic回归实例146
7.6 小结153
第8章 支持向量机155
8.1 感知机155
8.1.1 感知机模型155
8.1.2 感知机学习策略157
8.1.3 感知机优化算法159
8.1.4 感知机模型整体流程159
8.1.5 小结160
8.2 硬间隔支持向量机160
8.2.1 引入160
8.2.2 推导161
8.3 软间隔支持向量机169
8.4 合页损失函数176
8.5 非线性支持向量机177
8.6 SVM的scikit-learn实现180
8.6.1 线性SVM180
8.6.2 非线性SVM181
8.7 SVM实例182
8.8 小结184
第9章 随机森林186
9.1 Bagging186
9.2 随机森林概念188
9.3 RF的推广――extra trees188
9.4 RF的scikit-learn实现189
9.5 RF的scikit-learn使用实例192
9.5.1 程序193
9.5.2 结果及分析195
9.5.3 扩展198
9.6 小结200
0章 AdaBoost202
10.1 AdaBoost的结构202
10.1.1 AdaBoost的工作过程203
10.1.2 AdaBoost多分类问题204
10.1.3 AdaBoost回归问题208
10.2 AdaBoost的原理210
10.3 AdaBoost的scikit-learn实现212
10.4 AdaBoost应用实例214
10.5 AdaBoost模型的优缺点217
1章 提升树218
11.1 提升树的定义218
11.2 梯度提升树223
11.2.1 梯度提升树的原理推导224
11.2.2 GBDT和GBRT模型的处理过程226
11.2.3 梯度提升模型的scikit-learn实现227
11.2.4 梯度提升模型的scikit-learn使用实例230
11.2.5 GBDT模型的优缺点236
11.3 XGBoost236
11.3.1 XGBoost的原理236
11.3.2 XGBoost调参239
11.3.3 XGBoost与GBDT的比较241
2章 聚类243
12.1 聚类问题介绍243
12.2 K-Means聚类244
12.2.1 K-Means聚类过程和原理244
12.2.2 K-Means算法优化247
12.2.3 小结248
12.2.4 K-Means应用实例248
12.3 层次聚类252
12.3.1 层次聚类的过程和原理252
12.3.2 小结254
12.3.3 层次聚类应用实例254
12.4 密度聚类算法256
12.4.1 密度聚类算法过程和原理256
12.4.2 密度聚类小结258
12.4.3 密度聚类应用实例259
12.5 谱聚类262
12.5.1 谱聚类的过程和原理262
12.5.2 谱聚类小结269
12.5.3 谱聚类应用实例270
12.6 高斯混合模型272
12.6.1 高斯混合聚类过程和原理272
12.6.2 EM算法274
12.6.3 小结279
12.6.4 GMM应用实例279
3章 降维282
13.1 奇异值分解282
13.1.1 矩阵的特征分解282
13.1.2 奇异值分解283
13.2 主成分分析286
13.2.1 PCA原理推导287
13.2.2 核化PCA293
13.2.3 PCA/KPCA的scikit-learn实现293
13.3 线性判别分析300
13.3.1 LDA原理推导300
13.3.2 LDA与PCA的比较305
13.3.3 LDA应用实例306
13.4 局部线性嵌入309
13.4.1 局部线性嵌入介绍309
13.4.2 局部线性嵌入过程和原理309
13.4.3 LLE应用实例314
4章 Word2Vec和Doc2Vec词向量模型317
14.1 Word2Vec317
14.1.1 Word2Vec概述317
14.1.2 基于Hierarchical Softmax方法的CBOW模型318
14.1.3 基于Hierarchical Softmax方法的Skip-Gram模型322
14.1.4 基于Negative Sampling方法的CBOW模型323
14.1.5 基于Negative Sampling方法的Skip-Gram模型326
14.1.6 Word2Vec应用实例327
14.2 Doc2Vec模型329
14.2.1 Doc2Vec模型原理329
14.2.2 Doc2Vec应用实例331
5章 深度神经网络335
15.1 深度学习335
15.1.1 概述335
15.1.2 深度学习发展历史336
15.2 神经网络原理341
15.2.1 前向传播341
15.2.2 反向传播343
15.2.3 实例347
15.2.4 几种常用激活函数354
15.2.5 梯度消失与梯度 357
15.2.6 几种常用的优化算法358
15.3 神经网络应用实例363
15.4 小结366