刘硕的技术查阅手册

Python 全栈开发学习笔记

CrawlSpider 是 Spider 的一个子类。Spider 是爬虫文件中爬虫类的父类。一般来讲,子类的功能要比父类多,所以 CrawlSpider 的功能是比 Spider 更完善更强大的。CrawlSpider 的作用:常被用作于专业实现全站数据爬取,也就是将一个页面下所有页码对应的数据进行爬取。

阅读全文 »

selenium 是一款基于浏览器的自动化爬虫工具,可以给我们的测试开发提供极大的便利。这里介绍了一些 selenium 常用的使用方法。

阅读全文 »

在信息工程中,Feed 其实是一个信息单元,比如一条朋友圈状态、一条微博、一条咨询或一条短视频等。Feed 流就是不停更新的信息单元,只要关注某些发布者就能获取到源源不断的新鲜信息,我们的用户也就可以在移动设备上逐条去浏览这些信息单元。当前最流行的 Feed 流产品有微博、微信朋友圈、头条的资讯推荐、快手抖音的视频推荐等。还有一些变种,比如私信、通知等,这些系统都是 Feed 流系统。接下来我们将介绍如何设计一个 Feed 流系统架构。

阅读全文 »

Redis 是一种内存型(数据存放在内存中)的非关系型(NOSQL)key-value(键值存储)数据库,支持数据的持久化(注:数据持久化时将数据存放到文件中,每次启动 Redis 之后会先将文件中数据加载到内存),经常用做缓存(用来缓存一些经常用到的数据,提高读写速度)。

阅读全文 »

Redis 是一款高性能,内存数据存储的非关系型数据库。通常用来进行数据缓存,也就是存放一些需要经常读取的数据。这里介绍各个系统下 Redis 的安装和配置方法。

阅读全文 »

Python 有很多的模块都可以实现对 Redis 的操作,常用有 redis 和 pyredis,这两个模块的使用操作是类似的。这里我们使用 redis 模块来进行演示。

阅读全文 »

广度优先搜索让我们能够找出两样东西之间的最短距离。广度优先搜索是一种用于图的查找算法,可帮助回答两类问题:1. 从节点 A 出发,有前往节点 B 的路径吗?2. 从节点 A 出发,前往节点 B 的哪条路径最短?

阅读全文 »

异步爬虫的作用很显而易见,就是为了提高我们爬虫的效率。因为网络请求通常会消耗一点时间,普通的爬虫在网络请求这段时间会诸塞住,CPU 的资源是浪费掉了。使用异步爬虫,就是在一个任务请求数据的时候,把 CPU 让出来,处理其他任务,从而提高爬虫的效率。

阅读全文 »
0%