本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正
图书基本信息 | |||
图书名称 | 自己动手写网络爬虫(修订版 配光盘) | 作者 | [中国]罗刚 |
定价 | 49元 | 出版社 | 清华大学出版社 |
ISBN | 9787302442646 | 出版日期 | 2016-09-01 |
字数 | 535000 | 页码 | 352 |
版次 | 装帧 | 平装 | |
开本 | 16开 | 商品重量 |
内容提要 | |
本书介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有Java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教程。 |
目录 | |
篇 自己动手抓取数据 章 全面剖析网络爬虫 3 1.1 抓取网页 4 1.1.1 深入理解URL 4 1.1.2 通过指定的URL抓取 网页内容 6 1.1.3 Java网页抓取示例 8 1.1.4 处理状态码 10 1.2 宽度优先爬虫和带偏好的爬虫 12 1.2.1 图的宽度优先遍历 12 1.2.2 宽度优先遍历互联网 13 1.2.3 Java宽度优先爬虫示例 15 1.2.4 带偏好的爬虫 22 1.2.5 Java带偏好的爬虫示例 23 |
作者介绍 | |
罗刚,计算机软件硕士,毕业于吉林工业大学。2005年创立北京盈智星科技发展有限公司,2008年联合创立上海数聚软件公司。猎兔搜索创始人,当前猎兔搜索在北京、上海以及石家庄均设有研发部。他带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统,智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测,其开发的搜索软件日用户访问量万次以上。 |
编辑推荐 | |
大多数网络爬虫的开发原理与技巧在专业的公司内部都秘而不宣,至今仍然缺少理论与实践相结合的专门介绍网络爬虫的书籍。本书尝试理论与实践相结合,深入透彻地讲解网络爬虫的原理并且辅以相关代码作为参考。 |