刘硕的技术查阅手册

Python 全栈开发学习笔记

我们进行数据分析时,得到的原始数据往往会有一些不合理的地方。比如,因为取样原因可能出现一些空值,重复取样可能会有重复数据,取样错误可能会有异常数据,等等。这些不合理的数据是会影响我们数据分析的准确性的。而明显不合理的数据往往占少数,所以一般我们对其处理的方式是直接删除。

阅读全文 »

DataFrame 是一个十分强大的数据分析工具,功能很多,一时半会儿学不完。与其枯燥地学习每一个方法,不如结合实际项目应用,一边解决问题,一边学习方法。这样能加深理解,也不至于太乏味。数据分析的一个很重要的应用领域,就是金融量化。我们今天以金融量化中的一种方法,双均值法,来学习 DataFrame 的操作。

阅读全文 »

NumPy 主要用来帮助我们处理的是数值型的数据,当然在数据分析中除了数值型的数据还有好多其他类型的数据(字符串,时间序列), Pandas 就可以帮我们很好地处理除了数值型的其他数据!

阅读全文 »

NumPy(Numerical Python)是 Python 语言中做科学计算的基础库。重在于数值计算,也是大部分 Python 科学计算库的基础,多用于在大型、多维数组上执行的数值运算。

阅读全文 »

我们爬虫可以爬取到大量的数据,公司日常运营,也会产生很多数据。这些数据单独放在那里,并没有什么作用。我们需要对这些数据进行整理归纳和分析,从数据中提取到我们想要的信息,这样才能让这些数据体现出它们应有的价值来。

阅读全文 »

狄克斯特拉算法用来找到加权图中的最短路径。 广度优先搜索可以找到段数最少的路径,但是如果我们要找到用时最少的路径,就要使用狄克斯特拉算法(Dijkstra's Algorithm)。

阅读全文 »

一直以来,我们都是直接使用 scrapy 框架的 Request 模块进行网页数据的请求。但是如果网页中有动态加载的数据,这种方式就不容易实现了。其实 scrapy 更多的处理的还是没有动态加载数据的页面。对于动态加载的页面,我们还是比较倾向于使用 requests。但是如果真的有这么个需求,需要我们使用 scrapy 爬取动态页面的话,通过 selenium 发送请求获取数据,将会是一个不错的选择。

阅读全文 »

对于我们前面的那些爬虫方法,如果我们之前爬取过某个网站,下次再启动工程,还是会从头爬取。即便我们之前爬取过这个网站的很多数据,但是我们还是会对这些爬取过的数据重复爬取。为了减少这种重复爬取的操作,让程序更加集中运行在我们没有爬取过的,新出现的网页中,从而提高爬取效率。

阅读全文 »

分布式爬虫,是一种能够将爬虫效率发挥到极致的爬虫方法。实现方式:scrapy + redis(完整说法是 scrapy 结合着 scrapy-redis 组件)。scrapy-redis 组件的作用是,可以给原生的 scrapy 框架提供共享的管道和调度器。

阅读全文 »

scrapy 的高级用法,包括:scrapy 的五大核心组件的概念和 scrappy 的运行机制;请求传参实现深度爬取,也就是获取详情页的数据;scrapy 的中间件,跟 Django 的中间件很相似;大文件(图片视频等)下载,这是爬虫很重要的应用;settings.py 中的常用配置,一些比较重要的配置方法。

阅读全文 »
0%