爬虫模拟登录之一般性解决方法(Cookie)

前言前几周写了一篇文章,介绍了如何利用 post 方法来验证登录的问题,我也是一直在使用此方法登录豆瓣爬取一些信息,可是前两天突然就不能用了。我也再次查看了豆瓣的源代码,确认了豆瓣的验证信息并没有发生改变,但就是一直登录不上去,我猜想到可能是这个方法行不通了,于是我就换了一个思路:之前的思路是需要将 post 提交的表单数据保存在一个 session 的实例中,然后调用这个 session 实例的 get 方法就可以使用之前保存的数据。 而现在这一方法失效了,我猜想就是 post 方法提交数据这一步出了问题。那么就换一个思路,直接将服务器返回的数据存入 session,那么这个数据具体是什么?从哪儿来呢?这就是这篇文章所要谈到的。     阅读全文
WincerChan's avatar
WincerChan 8月 31, 2017

爬虫模拟登录

前言 有时候就在想,要是所有的网站对爬虫友好该多好。 当然这是不可能的:网站重要的数据往往就是一个产品的价值所在,如果被我们轻松的获取,这自然对网站经营者来说是一种损失,所以就有了以下各种策略去阻碍爬虫: User-Agent 检测 帐号及 Cookie 验证 验证码 限制 IP 次数或频率 这篇文章主要来说说如何解决验证码问题。     阅读全文
WincerChan's avatar
WincerChan 8月 13, 2017