Python爬虫小偏方:突破登录和访问频率限制,多研究对方不同终端产品

其实在抓取数据时,如果有大量的离散账号和离散IP的话,抓取数据就问题不大了。但是老猿相信大部分的爬虫选手们都没有这么多的资源,所以就会绞尽脑汁研究和各种尝试对方的访问控制策略,如果始终无法破局,这时就要跳出来想下其他办法,比如多使用一下对方的产品,包括APP,网站,微信等,抓包看看他们之间的URL有没有关联,访问控制策略是否一致等,有时你会找到新的突破口。

Python学习交流群【 784758214 】内有安装包和学习视频资料,零基础,进阶,解答疑问。希望可以帮助你快速了解Python、学习python

曾经我想要某职业社交APP里的一些用户详细页的信息用来做分析,但是面临如下问题:

  • 该APP必须登陆才能访问所有页面。
  • 你的账号如果没有关注对方,对方的详细介绍页面的很多信息就被隐藏了。
  • APP的用户详细页面一个账号大概只能访问100次/天(有点记不清具体数字了)就不能访问了。

就注册了10个该APP账号,模拟登录后一天只能抓1000千多个,还有好些数据不全(因为没有关注对方), 实在离俺想要的数据量相差较远。
总结上面的问题就是没有足够多的账号,就算账号足够多,每个账号和每个ip也有抓取限制。

于是就把该产品的APP,微信,网页里里外外都翻了一遍,能点的地方都去点一下看看。

有了新的发现:

  • 该APP的用户详细页分享到微信后,通过微信打开可以直接访问,不需要登录,也不需要微信授权,用户详细页信息都是全的(解决了需要关注才能查看全面信息问题)。
  • 通过APP获取分享到微信的url的接口访问频率控制放得很宽松。
  • 虽然在微信上不用登录访问,没有账号限制了,但是还是有单个IP的访问频率控制。

分析完后,老猿舒缓了很多,得出新的抓取思路,就是:

使用10个账号按一定频次通过APP不停的获取每个用户详细页分享到微信的URL,让另外一个程序模仿微信的user-agent不停的访问这些分享到微信的URL(要使用adsl拨号来解决单个IP访问频率控制问题)。
这样通过app加微信的方式解决了对账号的限制问题,实现了曲线救国。

后来就发现好些抓取问题都有这种解决思路,跟我们在网络爬虫小偏方之一里讲的,有的网站为了SEO流量,而把referer来自百度的访问控制放宽了一样。

有的产品为了微信的流量(分享到微信里的页面可以直接打开,点击其他页面时再提示要注册登录),而对来自微信点击访问控制放宽了。

原文地址:https://blog.51cto.com/14318113/2390633

时间: 2024-08-02 19:37:03

Python爬虫小偏方:突破登录和访问频率限制,多研究对方不同终端产品的相关文章

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(2)

操作环境:python3 在上一文中python爬虫scrapy框架--人工识别登录知乎倒立文字验证码和数字英文验证码(1)我们已经介绍了用Requests库来登录知乎,本文如果看不懂可以先看之前的文章便于理解 本文将介绍如何用scrapy来登录知乎. 不多说,直接上代码: import scrapy import re import json class ZhihuSpider(scrapy.Spider): name = 'zhihu' allowed_domains = ['www.zhi

一个python爬虫小程序

起因 深夜忽然想下载一点电子书来扩充一下kindle,就想起来python学得太浅,什么“装饰器”啊.“多线程”啊都没有学到. 想到廖雪峰大神的python教程很经典.很著名.就想找找有木有pdf版的下载,结果居然没找到!!CSDN有个不完整的还骗走了我一个积分!!尼玛!! 怒了,准备写个程序直接去爬廖雪峰的教程,然后再html转成电子书. 过程 过程很有趣呢,用浅薄的python知识,写python程序,去爬python教程,来学习python.想想有点小激动…… 果然python很是方便,5

[Python爬虫] Selenium实现自动登录163邮箱和Locating Elements介绍

目录(?)[+] 前三篇文章介绍了安装过程和通过Selenium实现访问Firefox浏览器并自动搜索"Eastmount"关键字及截图的功能.而这篇文章主要简单介绍如何实现自动登录163邮箱,同时继续介绍Selenium+Python官网Locating Elements部分内容.        希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~        [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)        

Python爬虫,京东自动登录,在线抢购商品

京东抢购Python爬虫,自动登录京东网站,查询商品库存,价格,显示购物车详情等.可以指定抢购商品,自动购买下单,然后手动去京东付款就行. chang log2017-03-30 实现二维码扫码登陆 2017-06-27 Golang版JD_AutoBuy 运行环境Python 2.7 第三方库Requests: 简单好用,功能强大的Http请求库 beautifulsoup4: HTML文档格式化及便签选择器 环境配置 1 pip install requests 2 pip install

python爬虫简单的添加代理进行访问

在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑User-Agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的IP地址,代码如下: 1 import requests 2 from lxml import etree 3 url = "https://www.ip.cn" 4 headers = {"User-Agent": "Mozilla/5

python爬虫之:模拟12306登录

试了好久登录的时候总是显示:系统忙,请刷新,,,太折磨人了,搞了半天才想到是请求头部的问题..... 验证码还是要人工识图.. #!/bin/env python # -*- coding=utf-8 -*- import ssl import sys import urllib2 import random import httplib import json from cookielib import LWPCookieJar import urllib import re import g

Python爬虫之用脚本登录Github并查看信息

前言分析目标网站的登录方式 目标地址:https://github.com/login     登录方式做出分析: 第一,用form表单方式提交信息, 第二,有csrf_token, 第三 ,是以post请求发送用户名和密码时,需要第一次get请求的cookie 第四,登录成功以后,请求其他页面是只需要带第一次登录成功以后返回的cookie就可以. 以get发送的请求获取我们想要的token和cookie 代码: import requests from bs4 import Beautiful

python爬虫小项目实战

Python爬虫爬取知乎小结

博客首发至Marcovaldo's blog (http://marcovaldong.github.io/) 最近学习了一点网络爬虫,并实现了使用python来爬取知乎的一些功能,这里做一个小的总结.网络爬虫是指通过一定的规则自动的从网上抓取一些信息的程序或脚本.我们知道机器学习和数据挖掘等都是从大量的数据出发,找到一些有价值有规律的东西,而爬虫则可以帮助我们解决获取数据难的问题,因此网络爬虫是我们应该掌握的一个技巧. python有很多开源工具包供我们使用,我这里使用了requests.Be