requests 高级用法之获取 Cookie、使用代理和识别验证码
道高一尺,魔高一丈,有些网站设置了门槛很高的反爬机制。这时候,我们就需要使用 requests 模块更高级的用法了。比如,加上 cookie,使用代理,识别验证码等。
道高一尺,魔高一丈,有些网站设置了门槛很高的反爬机制。这时候,我们就需要使用 requests 模块更高级的用法了。比如,加上 cookie,使用代理,识别验证码等。
百度 AI 有很多有趣的功能,在爬虫过程中或许会用到。比如,我们常用的基于百度AI实现的爬虫功能有:图像识别、语音识别&合成、自然语言处理
我们做开发的时候,写程序,可能会有多个人一起开发,或者你自己有多个电脑,家里一个电脑,办公室一个电脑。但是你如果刚开始的代码都是在家里的电脑写的,然后你到了公司,你想继续开发你的程序,那么就需要你自己来回的拷贝自己的代码,并随身携带,非常麻烦。于是就出现了代码网络托管站(就类似于行李托管站一样),可以帮你保存你的代码,以及各个版本的代码和所有分支。
Git 的诞生之初,是为了像 Linux 这样的开源项目管理代码版本更加方便。很多开源项目都会使用 Git 进行版本控制,并把代码放到 GitHub 之类的代码托管平台。我们可以通过发起 pull request 给开源项目贡献代码。
随着开发的进行,分支的增多,合并代码时不可避免会产生一些冲突。解决冲突总是很不容易的。通过使用 beyond compare 软件,可以可视化地解决这些冲突。
配置文件是我们使用命令时,默认使用的一些参数。通过设置这些参数,可以节省我们一些操作。git 的配置文件分三个:项目配置文件、全局配置文件和系统配置文件。
很多时候,尤其是在公司工作,我们往往不是一个人战斗,而是会和几个同事合作开发。这就是 GitHub 创建组织实现多人协作的目的。
之前的 git 版本在我们进行 push 的时候,每次都需要输入用户名和密码,很麻烦。好在出现了免密登陆的形式,可以让提交代码更方便。下面我们介绍三种免密登陆的形式。
爬虫 Bug 宝典之爬虫学习过程中的小经验小技巧总结