刘硕的技术查阅手册

CrawlSpider 的基本使用

发表于 2020-04-01 更新于 2025-02-05 分类于爬虫

CrawlSpider 是 Spider 的一个子类。Spider 是爬虫文件中爬虫类的父类。一般来讲，子类的功能要比父类多，所以 CrawlSpider 的功能是比 Spider 更完善更强大的。CrawlSpider 的作用：常被用作于专业实现全站数据爬取，也就是将一个页面下所有页码对应的数据进行爬取。

阅读全文 »

selenium 模块的安装和配置

发表于 2020-03-30 更新于 2025-02-05 分类于测试

包括 selenium IDE 的安装何使用、selenium 的安装和浏览器驱动的下载配置。只有配置好，才能正常使用 selenium 爬取数据。

阅读全文 »

selenium 的基本操作

发表于 2020-03-30 更新于 2025-02-05 分类于测试

selenium 是一款基于浏览器的自动化爬虫工具，可以给我们的测试开发提供极大的便利。这里介绍了一些 selenium 常用的使用方法。

阅读全文 »

Django 操作阿里云表格存储 Tablestore

发表于 2020-03-30 更新于 2025-02-05 分类于综合项目

Tablestore 目前只支持四种数据类型：INTEGER、STRING、DOUBLE 和 BOOLEAN。其中 DOUBLE 类型不能做主键类型，BOOLEAN 不可以做主键的第一列（分区键）。

阅读全文 »

在信息工程中，Feed 其实是一个信息单元，比如一条朋友圈状态、一条微博、一条咨询或一条短视频等。Feed 流就是不停更新的信息单元，只要关注某些发布者就能获取到源源不断的新鲜信息，我们的用户也就可以在移动设备上逐条去浏览这些信息单元。当前最流行的 Feed 流产品有微博、微信朋友圈、头条的资讯推荐、快手抖音的视频推荐等。还有一些变种，比如私信、通知等，这些系统都是 Feed 流系统。接下来我们将介绍如何设计一个 Feed 流系统架构。

阅读全文 »

Redis 的基本使用

发表于 2020-03-30 更新于 2025-02-05 分类于数据库

Redis 是一种内存型（数据存放在内存中）的非关系型（NOSQL）key-value（键值存储）数据库，支持数据的持久化（注：数据持久化时将数据存放到文件中，每次启动 Redis 之后会先将文件中数据加载到内存），经常用做缓存（用来缓存一些经常用到的数据，提高读写速度）。

阅读全文 »

Redis 的安装和配置

发表于 2020-03-30 更新于 2025-02-05 分类于数据库

Redis 是一款高性能，内存数据存储的非关系型数据库。通常用来进行数据缓存，也就是存放一些需要经常读取的数据。这里介绍各个系统下 Redis 的安装和配置方法。

阅读全文 »

Python 操作 Redis

发表于 2020-03-30 更新于 2025-02-05 分类于数据库

Python 有很多的模块都可以实现对 Redis 的操作，常用有 redis 和 pyredis，这两个模块的使用操作是类似的。这里我们使用 redis 模块来进行演示。

阅读全文 »

广度优先搜索

发表于 2020-03-30 更新于 2025-02-05 分类于学习实践笔记

广度优先搜索让我们能够找出两样东西之间的最短距离。广度优先搜索是一种用于图的查找算法，可帮助回答两类问题：1. 从节点 A 出发，有前往节点 B 的路径吗？2. 从节点 A 出发，前往节点 B 的哪条路径最短？

阅读全文 »

异步爬虫

发表于 2020-03-30 更新于 2025-02-05 分类于爬虫

异步爬虫的作用很显而易见，就是为了提高我们爬虫的效率。因为网络请求通常会消耗一点时间，普通的爬虫在网络请求这段时间会诸塞住，CPU 的资源是浪费掉了。使用异步爬虫，就是在一个任务请求数据的时候，把 CPU 让出来，处理其他任务，从而提高爬虫的效率。

阅读全文 »