刘硕的技术查阅手册

基于 Pandas 的数据清洗

发表于 2020-04-04 更新于 2025-02-05 分类于数据分析

我们进行数据分析时，得到的原始数据往往会有一些不合理的地方。比如，因为取样原因可能出现一些空值，重复取样可能会有重复数据，取样错误可能会有异常数据，等等。这些不合理的数据是会影响我们数据分析的准确性的。而明显不合理的数据往往占少数，所以一般我们对其处理的方式是直接删除。

阅读全文 »

DataFrame 基础操作巩固 - 股票分析

发表于 2020-04-03 更新于 2025-02-05 分类于数据分析

DataFrame 是一个十分强大的数据分析工具，功能很多，一时半会儿学不完。与其枯燥地学习每一个方法，不如结合实际项目应用，一边解决问题，一边学习方法。这样能加深理解，也不至于太乏味。数据分析的一个很重要的应用领域，就是金融量化。我们今天以金融量化中的一种方法，双均值法，来学习 DataFrame 的操作。

阅读全文 »

Pandas 的基础操作

发表于 2020-04-02 更新于 2025-02-05 分类于数据分析

NumPy 主要用来帮助我们处理的是数值型的数据，当然在数据分析中除了数值型的数据还有好多其他类型的数据（字符串，时间序列）， Pandas 就可以帮我们很好地处理除了数值型的其他数据！

阅读全文 »

NumPy 的基本使用

发表于 2020-04-02 更新于 2025-02-05 分类于数据分析

NumPy（Numerical Python）是 Python 语言中做科学计算的基础库。重在于数值计算，也是大部分 Python 科学计算库的基础，多用于在大型、多维数组上执行的数值运算。

阅读全文 »

数据分析基本概念

发表于 2020-04-02 更新于 2025-02-05 分类于数据分析

我们爬虫可以爬取到大量的数据，公司日常运营，也会产生很多数据。这些数据单独放在那里，并没有什么作用。我们需要对这些数据进行整理归纳和分析，从数据中提取到我们想要的信息，这样才能让这些数据体现出它们应有的价值来。

阅读全文 »

狄克斯特拉算法

发表于 2020-04-01 更新于 2025-02-05 分类于学习实践笔记

狄克斯特拉算法用来找到加权图中的最短路径。广度优先搜索可以找到段数最少的路径，但是如果我们要找到用时最少的路径，就要使用狄克斯特拉算法（Dijkstra's Algorithm）。

阅读全文 »

一直以来，我们都是直接使用 scrapy 框架的 Request 模块进行网页数据的请求。但是如果网页中有动态加载的数据，这种方式就不容易实现了。其实 scrapy 更多的处理的还是没有动态加载数据的页面。对于动态加载的页面，我们还是比较倾向于使用 requests。但是如果真的有这么个需求，需要我们使用 scrapy 爬取动态页面的话，通过 selenium 发送请求获取数据，将会是一个不错的选择。

阅读全文 »

增量式

发表于 2020-04-01 更新于 2025-02-05 分类于爬虫

对于我们前面的那些爬虫方法，如果我们之前爬取过某个网站，下次再启动工程，还是会从头爬取。即便我们之前爬取过这个网站的很多数据，但是我们还是会对这些爬取过的数据重复爬取。为了减少这种重复爬取的操作，让程序更加集中运行在我们没有爬取过的，新出现的网页中，从而提高爬取效率。

阅读全文 »

分布式

发表于 2020-04-01 更新于 2025-02-05 分类于爬虫

分布式爬虫，是一种能够将爬虫效率发挥到极致的爬虫方法。实现方式：scrapy + redis（完整说法是 scrapy 结合着 scrapy-redis 组件）。scrapy-redis 组件的作用是，可以给原生的 scrapy 框架提供共享的管道和调度器。

阅读全文 »

scrapy 高级用法

发表于 2020-04-01 更新于 2025-02-05 分类于爬虫

scrapy 的高级用法，包括：scrapy 的五大核心组件的概念和 scrappy 的运行机制；请求传参实现深度爬取，也就是获取详情页的数据；scrapy 的中间件，跟 Django 的中间件很相似；大文件（图片视频等）下载，这是爬虫很重要的应用；settings.py 中的常用配置，一些比较重要的配置方法。

阅读全文 »