当当云阅读 > 科技 > 计算机/网络 > 程序设计 > Python网络爬虫从入门到实践

| | 手机阅读

扫描下载当当云阅读App

Python网络爬虫从入门到实践电子书

Array

售价：¥

纸质售价：¥36.70购买纸书

92人正在读 | 0人评论

6.5

作者：唐松,陈智铨

出版社：机械工业出版社

出版时间：2017-09-01

字数：10.2万

所属分类：科技 > 计算机/网络 > 程序设计

温馨提示：数字商品不支持退换货，不提供源文件，不支持导出打印

为你推荐

读书简介
目录
累计评论(5条)

读书简介
目录
累计评论(5条)

本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。本书包括三部分内容：基础部分、阶部分和项目实践。基础部分（第1~6章）主要介绍爬虫的三个步骤（获取网页、解析网页和存储数据），并通过诸多示例的讲解，让读者从基础内容始系统性地学习爬虫技术，并在实践中提升Python爬虫水平。阶部分（第7~12章）包括多线程的并发和并行爬虫、分布式爬虫、更换IP等，帮助读者一步提升爬虫水平。项目实践部分（第13~16章）使用本书介绍的爬虫技术对几个真实的网站行抓取，让读者能在读完本书后根据自己的需求写出爬虫程序。无论是否有编程基础，只要是对爬虫技术感兴趣的读者，本书就能带领读者从门到阶，再到实战，一步步了解爬虫，终写出自己的爬虫程序。<br/>【推荐语】<br/>Array<br/>

目录展开

推荐序一

推荐序二

前言一

动其心者，当具有大本大源

数据共享

自强不息

前言二

第1章网络爬虫入门

1.1 为什么要学网络爬虫

1.1.1 网络爬虫能带来什么好处

1.1.2 能从网络上爬取什么数据

1.1.3 应不应该学爬虫

1.2 网络爬虫是否合法

1.2.1 Robots协议

1.2.2 网络爬虫的约束

1.3 网络爬虫的基本议题

1.3.1 Python爬虫的流程

1.3.2 三个流程的技术实现

1.获取网页

2.解析网页

3.存储数据

第2章编写第一个网络爬虫

2.1 搭建Python平台

2.1.1 Python的安装

2.1.2 使用pip安装第三方库

2.1.3 使用编译器Jupyter编程

2.2 Python使用入门

2.2.1 基本命令

2.2.2 数据类型

1.字符串（string）

2.数字（Number）

3.列表（list）

4.字典（Dictionaries）

2.2.3 条件语句和循环语句

2.2.4 函数

2.2.5 面向对象编程

1.封装

2.继承

2.3 编写第一个简单的爬虫

2.3.1 第一步：获取页面

2.3.2 第二步：提取需要的数据

2.3.3 第三步：存储数据

2.4 Python实践：基础巩固

2.4.1 Python基础试题

2.4.2 参考答案

2.4.3 自我实践题

第3章静态网页抓取

3.1 安装Requests

3.2 获取响应内容

3.3 定制Requests

3.3.1 传递URL参数

3.3.2 定制请求头

3.3.3 发送POST请求

3.3.4 超时

3.4 Requests爬虫实践：TOP250电影数据

3.4.1 网站分析

3.4.2 项目实践

3.4.3 自我实践题

第4章动态网页抓取

4.1 动态抓取的实例

4.2 解析真实地址抓取

4.3 通过Selenium模拟浏览器抓取

4.3.1 Selenium的安装与基本介绍

4.3.2 Selenium的实践案例

4.3.3 Selenium获取文章的所有评论

4.3.4 Selenium的高级操作

4.4 Selenium爬虫实践：深圳短租数据

4.4.1 网站分析

4.4.2 项目实践

4.4.3 自我实践题

第5章解析网页

5.1 使用正则表达式解析网页

5.1.1 re.match方法

5.1.2 re.search方法

5.1.3 re.findall方法

5.2 使用BeautifulSoup解析网页

5.2.1 BeautifulSoup的安装

5.2.2 使用BeautifulSoup获取博客标题

5.2.3 BeautifulSoup的其他功能

1.遍历文档树

2.搜索文档树

3.CSS选择器

5.3 使用lxml解析网页

5.3.1 lxml的安装

5.3.2 使用lxml获取博客标题

5.3.3 XPath的选取方法

5.4 总结

5.5 BeautifulSoup爬虫实践：房屋价格数据

5.5.1 网站分析

5.5.2 项目实践

5.5.3 自我实践题

第6章数据存储

6.1 基本存储：存储至TXT或CSV

6.1.1 把数据存储至TXT

6.1.2 把数据存储至CSV

6.2 存储至MySQL数据库

6.2.1 下载安装MySQL

6.2.2 MySQL的基本操作

1.创建数据库

2.创建数据表

3.在数据表中插入数据

4.从数据表中提取数据

5.删除数据

6.修改数据

6.2.3 Python操作MySQL数据库

6.3 存储至MongoDB数据库

6.3.1 下载安装MongoDB

6.3.2 MongoDB的基本概念

6.3.3 Python操作MongoDB数据库

6.3.4 RoboMongo的安装与使用

6.4 总结

6.5 MongoDB爬虫实践：虎扑论坛

6.5.1 网站分析

6.5.2 项目实践

6.5.3 自我实践题

第7章提升爬虫的速度

7.1 并发和并行，同步和异步

7.1.1 并发和并行

7.1.2 同步和异步

7.2 多线程爬虫

7.2.1 简单单线程爬虫

7.2.2 学习Python多线程

7.2.3 简单的多线程爬虫

7.2.4 使用Queue的多线程爬虫

7.3 多进程爬虫

7.3.1 使用multiprocessing的多进程爬虫

7.3.2 使用Pool+Queue的多进程爬虫

7.4 多协程爬虫

7.5 总结

7.5.1 回顾多线程、多进程、多协程

7.5.2 性能对比

第8章反爬虫问题

8.1 为什么会被反爬虫

8.2 反爬虫的方式有哪些

8.2.1 不返回网页

8.2.2 返回非目标网页

8.2.3 获取数据变难

8.3 如何“反反爬虫”

8.3.1 修改请求头

8.3.2 修改爬虫的间隔时间

8.3.3 使用代理

8.4 总结

第9章解决中文乱码

9.1 什么是字符编码

9.2 Python的字符编码

encode和decode

9.3 解决中文编码问题

9.3.1 问题1：获取网站的中文显示乱码

9.3.2 问题2：非法字符抛出异常

9.3.3 问题3：网页使用gzip压缩

9.3.4 问题4：读写文件的中文乱码

9.4 总结

第10章登录与验证码处理

10.1 处理登录表单

10.1.1 处理登录表单

10.1.2 处理cookies，让网页记住你的登录

10.1.3 完整的登录代码

10.2 验证码的处理

10.2.1 如何使用验证码验证

10.2.2 人工方法处理验证码

10.2.3 OCR处理验证码

10.3 总结

第11章服务器采集

11.1 为什么使用服务器采集

11.1.1 大规模爬虫的需要

11.1.2 防止IP地址被封杀

11.2 使用动态IP拨号服务器

11.2.1 购买拨号服务器

11.2.2 登录服务器

11.2.3 使用Python更换IP

11.2.4 结合爬虫和更换IP功能

11.3 使用Tor代理服务器

11.3.1 Tor的安装

11.3.2 Tor的使用

第12章分布式爬虫

12.1 安装Redis

12.2 修改Redis配置

12.2.1 修改Redis密码

12.2.2 让Redis服务器被远程访问

12.2.3 使用Redis Desktop Manager管理

12.3 Redis分布式爬虫实践

12.3.1 安装Redis库

12.3.2 加入任务队列

12.3.3 读取任务队列并下载图片

12.3.4 分布式爬虫代码

12.4 总结

第13章爬虫实践一：维基百科

13.1 项目描述

13.1.1 项目目标

13.1.2 项目描述

13.1.3 深度优先和广度优先

13.2 网站分析

13.3 项目实施：深度优先的递归爬虫

13.4 项目进阶：广度优先的多线程爬虫

13.5 总结

第14章爬虫实践二：知乎Live

14.1 项目描述

14.2 网站分析

14.3 项目实施

14.3.1 获取所有Live

14.3.2 获取Live的听众

14.4 总结

第15章爬虫实践三：百度地图API

15.1 项目描述

15.2 获取API秘钥

15.3 项目实施

15.3.1 获取所有拥有公园的城市

15.3.2 获取所有城市的公园数据

15.3.3 获取所有公园的详细信息

15.4 总结

第16章爬虫实践四：餐厅点评

16.1 项目描述

16.2 网站分析

16.3 项目实施

16.3.1 获取深圳的餐厅列表

16.3.2 获取餐厅的详细信息

16.4 总结

累计评论(5条) 7个书友正在讨论这本书 发表评论

发表评论

发表评论，分享你的想法吧！

发表评论

买过这本书的人还买过

读了这本书的人还在读

支持设备

Python办公效率手册￥38.27

麦叔著

￥38.27

Python网络爬虫:从入门到精通(附微课) ￥31.90

吕云翔主编

￥31.90

算法详解(卷4)——NP-Hard问题算法￥51.07

蒂姆·拉夫加登(Tim Roughgarden) 著

￥51.07

Python数据科学实战￥44.67

尤利•瓦西列夫(Yuli Vasiliev) 著

￥44.67

Python 3.8从零开始学￥27.93

刘艳,刘宇宙

￥27.93

深度学习的数学——使用Python语言￥57.47

[美]罗纳德·T·纽塞尔(Ronald T· Kneusel) 著

￥57.47

从零开始大模型开发与微调:基于PyTorch与ChatGLM ￥62.30

王晓华

￥62.30

算法详解(卷3)——贪心算法和动态规划￥44.67

蒂姆·拉夫加登(Tim Roughgarden) 著

￥44.67

递归算法与项目实战￥63.87

阿尔•斯维加特(Al Sweigart) 著

￥63.87

面向对象是怎样工作的(第3版) ￥34.90

[日]平泽章著

￥34.90

更多同类图书 >

Python网络爬虫从入门到实践电子书

支持设备

Python办公效率手册 ￥38.27

Python网络爬虫:从入门到精通(附微课) ￥31.90

算法详解(卷4)——NP-Hard问题算法 ￥51.07

Python数据科学实战 ￥44.67

Python 3.8从零开始学 ￥27.93

深度学习的数学——使用Python语言 ￥57.47