爬虫概述

发表于 2020-03-21 更新于 2025-02-05 分类于爬虫

简要说一下关于爬虫的东西。通俗来讲，爬虫就是通过编写程序，模拟我们使用浏览器上网，在互联网中抓取我们想要的数据的过程。

简要说一下关于爬虫的东西。

爬虫的别名很多，网络爬虫，网络蜘蛛之类的大家都知道就不说了。

通俗来讲，爬虫就是通过编写程序，模拟我们使用浏览器上网，在互联网中抓取我们想要的数据的过程。

这里有两个关键词：模拟和抓取

模拟，也就是通过代码来进行操作，不需要人直接参与访问网页的过程。不过其实从广义上讲，我们使用浏览器也可以看作是一个爬虫的过程。浏览器就是一个纯天然最原始的一个爬虫工具。只不过我们的效率太低，这种工作太无聊，所以交给计算机去做了而已
抓取，又涉及到两个方面的含义：抓取一整张的页面源码数据和抓取一整张页面中的局部数据。显而易见，要抓取到页面的局部数据，首先还是要抓取到一整张页面的完整源码数据。

依据抓取的内容和使用的方式不同，大致可以将爬虫分为四个类别：通用爬虫、聚焦爬虫、增量式爬虫和分布式爬虫。

robots 协议：防君子不防小人
- 是一个纯文本的协议，协议中规定了该网站中哪些数据可以被哪些爬虫爬取，哪些不可以被爬取。
- 一般在网站的门户页面后面加上 /robots.txt 即可查看该网站的 robots 协议，比如京东的：
破解：
- 你自己主观性地不遵从该协议即可。

我们要学到的爬虫模块又下面两个：requests 和 scrapy。

requests 模块

scrapy 框架