网络上有形形×××的网站,不同类型的网站爬虫策略不同,难易程度也不一样.从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影.东方财富网等.有一些网站需要先登陆才能爬,比如知乎.微信等.这类网站在模拟登陆时需要处理验证码.js 加密参数这些问题,爬取难度会大很多.费很大力气登陆进去后才能爬取想要的内容,很花时间. 是不是一定要自己动手去实现每一个网站的模拟登陆方法呢,从效率上来讲,其实大可不必,已经有前人替我们造好轮子了. 最近发现一个神库,汇总了数十个主流网站的模拟