本篇主要提供官网Python自然语言处理实战核心技术与算法涂铭刘祥刘树春NLP机器学习深度学习电子书的pdf版本下载,本电子书下载方式为百度网盘方式,点击以上按钮下单完成后即会通过邮件和网页的方式发货,有问题请联系邮箱ebook666@outlook.com
、前明略数据和七牛云的专家和科学家撰写,零基础掌握NLP的核心技术、方法论和经典算法
商品基本信息 | |
![]() | |
商品名称: | Python自然语言处理实战:核心技术与算法 |
作者: | 涂铭 刘祥 刘树春 |
市场价: | 69.00 |
ISBN号: | 9787111597674 |
版次: | 1-1 |
出版日期: | |
页数: | 281 |
字数: | 200 |
出版社: | 机械工业出版社 |
目录 | |
目 录 序一 序二 前言 第1章 NLP基础 1 1.1 什么是NLP 1 1.1.1 NLP的概念 1 1.1.2 NLP的研究任务 3 1.2 NLP的发展历程 5 1.3 NLP相关知识的构成 7 1.3.1 基本术语 7 1.3.2 知识结构 9 1.4 语料库 10 1.5 探讨NLP的几个层面 11 1.6 NLP与人工智能 13 1.7 本章小结 15 第2章 NLP前置技术解析 16 2.1 搭建Python开发环境 16 2.1.1 Python的科学计算发行版——Anaconda 17 2.1.2 Anaconda的下载与安装 19 2.2 正则表达式在NLP的基本应用 21 2.2.1 匹配字符串 22 2.2.2 使用转义符 26 2.2.3 抽取文本中的数字 26 2.3 Numpy使用详解 27 2.3.1 创建数组 28 2.3.2 获取Numpy中数组的维度 30 2.3.3 获取本地数据 31 2.3.4 正确读取数据 32 2.3.5 Numpy数组索引 32 2.3.6 切片 33 2.3.7 数组比较 33 2.3.8 替代值 34 2.3.9 数据类型转换 36 2.3.10 Numpy的统计计算方法 36 2.4 本章小结 37 第3章 中文分词技术 38 3.1 中文分词简介 38 3.2 规则分词 39 3.2.1 正向大匹配法 39 3.2.2 逆向大匹配法 40 3.2.3 双向大匹配法 41 3.3 统计分词 42 3.3.1 语言模型 43 3.3.2 HMM模型 44 3.3.3 其他统计分词算法 52 3.4 混合分词 52 3.5 中文分词工具——Jieba 53 3.5.1 Jieba的三种分词模式 54 3.5.2 实战之高频词提取 55 3.6 本章小结 58 第4章 词性标注与命名实体识别 59 4.1 词性标注 59 4.1.1 词性标注简介 59 4.1.2 词性标注规范 60 4.1.3 Jieba分词中的词性标注 61 4.2 命名实体识别 63 4.2.1 命名实体识别简介 63 4.2.2 基于条件随机场的命名实体识别 65 4.2.3 实战一:日期识别 69 4.2.4 实战二:地名识别 75 4.3 总结 84 第5章 关键词提取算法 85 5.1 关键词提取技术概述 85 5.2 关键词提取算法TF/IDF算法 86 5.3 TextRank算法 88 5.4 LSA/LSI/LDA算法 91 5.4.1 LSA/LSI算法 93 5.4.2 LDA算法 94 5.5 实战提取文本关键词 95 5.6 本章小结 105 第6章 句法分析 106 6.1 句法分析概述 106 6.2 句法分析的数据集与评测方法 107 6.2.1 句法分析的数据集 108 6.2.2 句法分析的评测方法 109 6.3 句法分析的常用方法 109 6.3.1 基于PCFG的句法分析 110 6.3.2 基于大间隔马尔可夫网络的句法分析 112 6.3.3 基于CRF的句法分析 113 6.3.4 基于移进–归约的句法分析模型 113 6.4 使用Stanford Parser的PCFG算法进行句法分析 115 6.4.1 Stanford Parser 115 6.4.2 基于PCFG的中文句法分析实战 116 6.5 本章小结 119 第7章 文本向量化 120 7.1 文本向量化概述 120 7.2 向量化算法word2vec 121 7.2.1 神经网络语言模型 122 7.2.2 C&W模型 124 7.2.3 CBOW模型和Skip-gram模型 125 7.3 向量化算法doc2vec/str2vec 127 7.4 案例:将网页文本向量化 129 7.4.1 词向量的训练 129 7.4.2 段落向量的训练 133 7.4.3 利用word2vec和doc2vec计算网页相似度 134 7.5 本章小结 139 第8章 情感分析技术 140 8.1 情感分析的应用 141 8.2 情感分析的基本方法 142 8.2.1 词法分析 143 8.2.2 机器学习方法 144 8.2.3 混合分析 144 8.3 实战电影评论情感分析 145 8.3.1 卷积神经网络 146 8.3.2 循环神经网络 147 8.3.3 长短时记忆网络 148 8.3.4 载入数据 150 8.3.5 辅助函数 154 8.3.6 模型设置 155 8.3.7 调参配置 158 8.3.8 训练过程 159 8.4 本章小结 159 第9章 NLP中用到的机器学习算法 160 9.1 简介 160 9.1.1 机器学习训练的要素 161 9.1.2 机器学习的组成部分 162 9.2 几种常用的机器学习方法 166 9.2.1 文本分类 166 9.2.2 特征提取 168 9.2.3 标注 169 9.2.4 搜索与排序 170 9.2.5 170 9.2.6 序列学习 172 9.3 分类器方法 173 9.3.1 朴素贝叶斯Naive Bayesian 173 9.3.2 逻辑回归 174 9.3.3 支持向量机 175 9.4 无监督学习的文本聚类 177 9.5 文本分类实战:中文垃圾邮件分类 180 9.5.1 实现代码 180 9.5.2 评价指标 187 9.6 文本聚类实战:用K-means对豆瓣读书数据聚类 190 9.7 本章小结 194 第10章 基于深度学习的NLP算法 195 10.1 深度学习概述 195 10.1.1 神经元模型 196 10.1.2 激活函数 197 10.1.3 感知机与多层网络 198 10.2 神经网络模型 201 10.3 多输出层模型 203 10.4 反向传播算法 204 10.5优化算法 208 10.5.1 梯度下降 208 10.5.2 随机梯度下降 209 10.5.3 批量梯度下降 210 10.6 丢弃法 211 10.7 激活函数 211 10.7.1 tanh函数 212 10.7.2 ReLU函数 212 10.8 实现BP算法 213 10.9 词嵌入算法 216 10.9.1 词向量 217 10.9.2 word2vec简介 217 10.9.3 词向量模型 220 10.9.4 CBOW和Skip-gram模型 222 10.10 训练词向量实践 224 10.11 朴素Vanilla-RNN 227 10.12 LSTM网络 230 10.12.1 LSTM基本结构 230 10.12.2 其他LSTM变种形式 234 10.13 Attention机制 236 10.13.1 文本翻译 237 10.13.2 图说模型 237 10.13.3 语音识别 239 10.13.4 文本摘要 239 10.14 Seq2Seq模型 240 10.15 图说模型 242 10.16 深度学习平台 244 10.16.1 Tensorflow 245 10.16.2 Mxnet 246 10.16.3 PyTorch 246 10.16.4 Caffe 247 10.16.5 Theano 247 10.17 实战Seq2Seq问答机器人 248 10.18 本章小结 254 第11章 Solr搜索引擎 256 11.1 全文检索的原理 257 11.2 Solr简介与部署 258 11.3 Solr后台管理描述 263 11.4 配置schema 267 11.5 Solr管理索引库 270 11.5.1 创建索引 270 11.5.2 查询索引 276 11.5.3 删除文档 279 11.6 本章小结 281 |
内容简介 | |
这是一本自然语言处理理论和实践结合的教材。读者在了解自然语言处理全貌的同时,可以根据本书的一些实践案例快速上手并应用于自己的项目中。作者结合自己的实践经验,重点介绍了真实场景下快速构建一些自然语言处理项目所需的技能,并提供了一些工具或算法实现。本书着眼于实际应用场景,主要介绍了分词、词性标注和名实体识别、句法分析等基本技术,并通过剖析近年来在自然语言处理领域大放光彩的深度学习技术,力求快速地带领读者入门自然语言处理。作者在后还通过在大数据平台上的实战项目,完整呈现了真实场景下自然语言处理项目的整个环节,以供读者参考。 |