作 者:贺思聪 著
定 价:69
出 版 社:电子工业出版社
出版日期:2019年03月01日
页 数:244
装 帧:简装
ISBN:9787121355080
●第1章 基础知识1
1.1 什么是爬虫1
1.2 数据获取渠道2
1.3 抓包分析工具4
1.4 爬虫和反爬虫的斗争5
1.5 数据处理、分析和可视化20
1.6 延深阅读21
第2章 基于位置信息的爬虫Ⅰ23
2.1 背景及目标23
2.2 爬虫原理24
2.3 数据来源分析26
2.4 简单的矩形区域爬取方式38
2.5 高级区域爬取方式46
2.6 坐标转换49
2.7 存储数据的方式49
2.8 数据导入51
2.9 基本数据分析52
2.10 地图可视化56
2.11 轨迹可视化58
2.12 总结60
第3章 基于位置信息的爬虫Ⅱ62
3.1 背景及目标62
3.2 爬虫原理62
3.3 优化方案一71
3.4 优化方案二75
3.5 优化方案三82
3.6 导入数据到数据库97
3.7 基本数据分析及可视化100
3.8 总结117
第4章 网站信息爬取及可视化118
4.1 背景及目标118
4.2 网站API分析118
4.3 数据爬取122
4.4 数据导入129
4.5 数据分析及可视化133
4.6 总结173
第5章 基于逆向分析小程序的爬虫174
5.1 背景及目标174
5.2 数据来源分析176
5.3 数据爬取方案177
5.4 转换数据格式195
5.5 总结196
第6章 从数据到产品197
6.1 从一张机票说起197
6.2 从价值探索到交付落地201
6.3 数据爬取203
6.4 爬虫架构设计203
6.5 发现数据的价值211
6.6 创新的不确定性223
6.7 产品设计226
6.8 产品交付235
6.9 总结236
本书从多个数据项目实例出发,介绍爬虫、反爬虫的各种案例,使读者了解到数据抓取和分析的完整过程。书中案例的难度由浅入深,以作者原创的代码为主,不借助现成的框架,强调在数据采集过程中的发散思维,总结攻克反爬虫的思维模式,实现以低成本的方式得到想要的数据的愿望。最后,用一个“爱飞狗”的例子,为读者展示如何从0到1地开发一个大数据产品。
贺思聪 著
贺思聪,毕业于电子科技大学,在ThoughtWorks任高级咨询师,担任海外交付团队技术负责人、架构师。
具有十余年产品研发经验,涉及澳洲矿业相关数字产品研发、保险业网站技术架构、光网络设备软件研发、医疗AR/VR、机械控制、加工仿真模拟等领域。
精通大规模重构实践、测试驱动开发,熟悉微服务架构及架构实践,熟悉敏捷项目开发管理流程和相关实践,具有丰富的敏捷团队管理经验。
"前 言
智能设备(如智能手环、百度音箱、扫地机器人等)的普及使收集个人数据变得非常容易。机器性能的提高使得分析、使用数据变得更加自动化。大量的数据结合强大的计算性能使数据从量变到质变的过程极短,我们的导航早已不再是傻傻地按照既有的策略规划行驶路线,而是一直在向“老司机”学习,不断更新算法,从而带来更精准的预测。
在这个时代,数据就是新一代的资源。我们的身边充满了数据流。我们既是数据流的生产者,也是数据流的消费者。对个人而言,如果我们能够合理地识别、收集、分析、利用这些数据,就能够在我们做决策时给出一些新的想法。例如,在GitHub上一个非常有效的比特币高频交易的源代码,其作者在2016年年底到2017年1月这段时期内,用6000元的初始资金赚到了25万元。他所利用的就是对比特币这种新交易手段的交易数据的洞察,利用机器自动收集分析行情并进行自动化交易。为了解决“什么时候买机票等