爬虫模拟登录之一般性解决方法(Cookie)

前言前几周写了一篇文章,介绍了如何利用 post 方法来验证登录的问题,我也是一直在使用此方法登录豆瓣爬取一些信息,可是前两天突然就不能用了。我也再次查看了豆瓣的源代码,确认了豆瓣的验证信息并没有发生改变,但就是一直登录不上去,我猜想到可能是这个方法行不通了,于是我就换了一个思路:之前的思路是需要将 post 提交的表单数据保存在一个 session 的实例中,然后调用这个 session 实例的 get 方法就可以使用之前保存的数据。 而现在这一方法失效了,我猜想就是 post 方法提交数据这一步出了问题。那么就换一个思路,直接将服务器返回的数据存入 session,那么这个数据具体是什么?从哪儿来呢?这就是这篇文章所要谈到的。     阅读全文
WincerChan's avatar
WincerChan 8月 31, 2017

写给 20 岁的自己

凡心所向,素履所往,生如逆旅,一苇以航。 一直很喜欢海子对于时间的说法——“打马而过”。就像我还没来得及细数,20 个年头匆匆已逝。没有那么多时间细想,这一天就这么来临了,来不及回忆过去,也来不及憧憬未来,一眨眼,就发现自己已经 20 岁了。 在许久之前,我便对自己的 20 岁有过憧憬,想着,20 岁的我会在哪里,做着什么事情。是有了一项划时代的发明,成为震惊世界的奇才;还是偏居一隅,发出「天地与我并生 万物与我为一」的感慨。是的,我希望自己能真实的活着,不像那些忙忙碌碌一辈子不知道为谁而活的人那样。不在意别人的眼光,不为了生存而活。     阅读全文
WincerChan's avatar
WincerChan 8月 29, 2017

爬虫模拟登录

前言 有时候就在想,要是所有的网站对爬虫友好该多好。 当然这是不可能的:网站重要的数据往往就是一个产品的价值所在,如果被我们轻松的获取,这自然对网站经营者来说是一种损失,所以就有了以下各种策略去阻碍爬虫: User-Agent 检测 帐号及 Cookie 验证 验证码 限制 IP 次数或频率 这篇文章主要来说说如何解决验证码问题。     阅读全文
WincerChan's avatar
WincerChan 8月 13, 2017

再见 LiveRe,拥抱 Disqus

没错,我又双叒叕换评论系统了,从最初的网易云跟帖,到后来的 LiveRe,再到现在的 Disqus,两个多月就换了好了三四次(中间从 LiveRe 切换过一次 Disqus,后来又换回来了)了,仿佛我在折腾这些非博客主体的路上越走越远,也幸好我的博客才建成,没啥人留言,不然就得不偿失了。     阅读全文
WincerChan's avatar
WincerChan 7月 29, 2017

使用 Service Worker 优化网站

静态博客的内容是很适合用缓存来加速访问的,除了采用常见的 CDN 加速和压缩博文等方法,通过客户端也可以实现加速访问,本文介绍的是「服务工作线程—— Service Worker」。关于 Service Worker 的具体介绍见这里。本文主要需要的是它的离线加载的特性。 启用 Service Worker添加注册代码位置需要在网站的根目录添加,这样才能保证接管整个网站的全部资源。     阅读全文
WincerChan's avatar
WincerChan 7月 25, 2017

Python 实现多线程下载器

前言我为什么会想到要写一个下载器呢,实在是被百度云给逼的没招了,之前用 Axel 配合直链在百度云下载视频能达到满速,结果最近两天 Axel 忽然不能用了,于是我就想着要不干脆自己写一个吧,就开始四处查询资料,这就有了这篇博客。 我假设阅读这篇博客的你已经对以下知识有所了解: Python 的文件操作 Python 的多线程 Python 的线程池 Python 的 requests 库 HTTP 报文的首部信息     阅读全文
WincerChan's avatar
WincerChan 7月 19, 2017