哪种代理适合用于Web数据采集

在Web数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于Web数据采集。下面是鲲鹏数据的技术人员给出的说明。

根据HTTP代理的匿名性可以将其分为以下几种:

1. 透明代理(Transparent Proxies)

目标服务器能够检测到真实的源IP。

目标服务器根据HTTP请求头进行检测,判断依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 真实源IP(不用代理时,无此头或值为空)

PS:该类型代理不适合用于Web数据采集。

2. (普通)匿名代理(Anonymous Proxies)

目标服务器无法检测到真实的源IP,但能够检测到使用了代理。

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 通常为代理服务器 IP(或代理软件名称,也可能无此头)

HTTP_X_FORWARDED_FOR = 代理服务器 IP(知道你使用了代理,但无法得知真实源IP)

PS:该类型代理可以用于Web数据采集,但有被检测到的风险。

3. 高匿名代理(High Anonymity Proxies -Elite proxies

目标服务器无法检测到你在是使用代理。

检测依据:

REMOTE_ADDR = 代理服务器 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

PS:该类型的代理非常适合用户Web数据采集。鲲鹏数据的付费代理方案提供的全部为高匿名类型的代理。

另外,不使用代理时发出的头:

REMOTE_ADDR =真实源 IP

HTTP_VIA = 值为空或无此头

HTTP_X_FORWARDED_FOR = 没数值或无此头

不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理。

我们提供了一个代理类型检测接口,在浏览器中访问该接口即可显示出你当前使用的代理类型(如下图):

http://proxies.site-digger.com/proxy-detect/

哪种代理适合用于Web数据采集,布布扣,bubuko.com

时间: 2024-11-12 08:50:42

哪种代理适合用于Web数据采集的相关文章

nginx做反向代理和后端web服务器之间的交互

1.Nginx是什么? Nginx就是反向代理服务器. 首先我们先来看看什么是代理服务器,代理服务器一般是指局域网内部的机器通过代理服务发送请求到互联网上的服务器,代理服务器一般作用于客户端.比如GoAgent,翻墙神器. 一个完整的代理请求过程为:客户端首先与代理服务器创建连接,然后根据代理服务器所使用的代理协议,请求对目标服务器创建连接.或则获得目标服务器的指定资源.Web代理服务器是网络的中间实体.代理位于Web客户端和Web服务器之间,扮演"中间人"的角色. HTTP的代理服务

女孩子适合学web前端还是Java编程?

近几年随着互联网的快速发展,对于Web前端开发的人才需求越来越大,就业薪资也不断的上升,随着行业的火爆,高薪回报吸引了很多有志青年投身互联网行业.女孩子适合学Web前端还是Java? 纵观现阶段互联网Web前端开发工程师的就业人员,女孩子从事这个行业的比例不大,由于这种现象的存在,当有女孩说想要学Web前端开发,很多不一样的声音就出来了,说女生不适合做程序员,其实不然,没有什么东西是你天生做不了的,干不了,只能说明你还不够努力. 虽然少,不是照样有女孩子在做么?而且由于男女比例不协调,所以女生做

Java的三种代理模式简述

本文着重讲述三种代理模式在java代码中如何写出,为保证文章的针对性,暂且不讨论底层实现原理,具体的原理将在下一篇博文中讲述. 代理模式是什么 代理模式是一种设计模式,简单说即是在不改变源码的情况下,实现对目标对象的功能扩展. 比如有个歌手对象叫Singer,这个对象有一个唱歌方法叫sing(). 1 public class Singer{ 2 public void sing(){ 3 System.out.println("唱一首歌"); 4 } 5 } 假如你希望,通过你的某种

10个用于Web开发的最好 Python 框架

Python 是一门动态.面向对象语言.其最初就是作为一门面向对象语言设计的,并且在后期又加入了一些更高级的特性.除了语言本身的设计目的之外,Python标准 库也是值得大家称赞的,Python甚至还自带服务器.其它方面,Python拥有足够多的免费数据函数库.免费的Web网页模板系统.还有与Web服务 器进行交互的库.这些都可以设计到你的Web应用程序里面.在这篇文章里,我们将为Python Web开发者介绍基于Python的10大Web应用框架. CubicWeb CubicWeb的最重要的

用于Web脚本语言的图表控件FusionWidgets

FusionWidgets是一款功能强大的图表控件,同时支持Flash和JavaScript(HTML5),可用于PCs, Macs, iPads, iPhones 等,包含一系列实时仪表和自动更新图表以及金融图表,甘特图.funnel/pyramid图表.bullet图表.sparklines图表等.完全适合于动态Web应用程序,可用于任何Web脚本语言像HTML.ASP.NET.ASP.JSP.PHP.ColdFusion等,控件使用XML数据接口. 具体功能: 支持在服务器端或者客户端导出

6,代理模式(Proxy Pattern)就是为其他对象提供一种代理以控制对这个对象的访问。 比如: 智能指针 为别人做嫁衣

所谓代理,是指具有与代理元(被代理的对象)具有相同的接口的类,客户端必须通过代理与被代理的目标类交互,而代理一般在交互的过程中(交互前后),进行某些特别的处理. 概述 作为C++工程师,免不了要管理内存,内存管理也是C++中的难点,而智能指针采用引用计数的办法很方便的帮我们管理了内存的使用,极大方便了我们的工作效率.而智能指针的这种用法其实就是代理模式的一种,他帮我们控制了该对象的内存使用. 代理模式就是为其他对象提供一种代理来控制对这个对象的访问. subject(抽象主题角色):真实主题与代

基于redis的分布式锁(不适合用于生产环境)

基于redis的分布式锁 1 介绍 这篇博文讲介绍如何一步步构建一个基于Redis的分布式锁.会从最原始的版本开始,然后根据问题进行调整,最后完成一个较为合理的分布式锁. 本篇文章会将分布式锁的实现分为两部分,一个是单机环境,另一个是集群环境下的Redis锁实现.在介绍分布式锁的实现之前,先来了解下分布式锁的一些信息. 2 分布式锁 2.1 什么是分布式锁? 分布式锁是控制分布式系统或不同系统之间共同访问共享资源的一种锁实现,如果不同的系统或同一个系统的不同主机之间共享了某个资源时,往往需要互斥

HTTP代理IP的两种代理模式

市面上现在有很多代理IP的产品,可以解决很多由于IP限制问题的工作.代理IP软件就是通过更换各地IP的方法,来隐藏真实IP,保证工作的正常进行,及用户的个人信息安全.HTTP代理IP的两种代理模式一种是动态代理模式,也是爬虫模式,当每次请求网页的时候,都会自动更换一个IP,这种模式适合数据资料采集.另一种是经典代理模式,可以自主切换IP,每间隔一段时间,就会自动将IP变更,用户也可以通过命令请求自己切换IP.以上是HTTP代理IP的两种模式,用户可以根据自己实际用途,来选择不同模式的代理.闪云代

大数据应用于web

python可以应用于web开发,但是与web后端语言不同的是python开发web的话需要自己编写web服务器. 我从网上找了一个例子 import os #Python的标准库中的os模块包含普遍的操作系统功能 import re #引入正则表达式对象 import urllib #用于对URL进行编解码 from BaseHTTPServer import HTTPServer, BaseHTTPRequestHandler #导入HTTP处理相关的模块 #自定义处理程序,用于处理HTTP