爬虫使用代理+头信息

#coding:utf-8
import urllib2

def url_user_agent(url):
    proxy = {‘http‘:‘127.0.0.1:8080‘}
    proxy_support = urllib2.ProxyHandler(proxy)
    # opener = urllib2.build_opener(proxy_support,urllib2.HTTPHandler(debuglevel=1))
    opener = urllib2.build_opener(proxy_support)
    urllib2.install_opener(opener)

    converted = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1)‘,
                 ‘X-Forward-For‘:‘127.0.0.1‘}
    req = urllib2.Request(url,headers=converted)
    html = urllib2.urlopen(req)
    if url == html.geturl():
        doc = html.read()
        return doc
    return

url = ‘http://www.baidu.com‘
doc = url_user_agent(url)
print doc

时间： 2024-10-12 19:02:31

爬虫使用代理+头信息的相关文章

HTTP头信息(转)--1

转自:http://www.cnblogs.com/9988/archive/2012/03/21/2409086.html 我用抓包软件抓了http的包,发现accept大多数有两种情况. 第一种:Accept: image/gif, image/x-xbitmap, image/jpeg, image/pjpeg, application/x-shockwave-flash, application/vnd.ms-excel, application/vnd.ms-powerpoint, a

HTTP响应头和请求头信息对照表

HTTP请求头提供了关于请求,响应或者其他的发送实体的信息.HTTP的头信息包括通用头.请求头.响应头和实体头四个部分.每个头域由一个域名,冒号(:)和域值三部分组成. 通用头标:即可用于请求,也可用于响应,是作为一个整体而不是特定资源与事务相关联. 请求头标:允许客户端传递关于自身的信息和希望的响应形式. 响应头标:服务器和于传递自身信息的响应. 实体头标:定义被传送资源的信息.即可用于请求,也可用于响应. 根据以上分类的HTTP请求头介绍可以参考此文,本工具根据请求和输出分为Request和

HTTP头信息解读

Http协议定义了很多与服务器交互的方法,最基本的有4种,分别是GET.POST.PUT.DELETE.一个URL地址用于描述一个网络上的资源,而HTTP中的GET.POST.PUT. DELETE就对应着对这个资源的查.改.增.删4个操作,我们最常见的就是GET和POST了.GET一般用于获取/查询资源信息,而POST一般用于更新资源信息. HTTP头信息解读 HTTP的头域包括通用头.请求头.响应头和实体头四个部分.每个头域由一个域名,冒号(:)和域值三部分组成. 通用头部是客户端和服务器都

http请求头信息

1.HTTP Request Header 请求头信息对照表 Header 解释示例 Accept 指定客户端能够接收的内容类型 Accept: text/plain, text/html Accept-Charset 浏览器可以接受的字符编码集. Accept-Charset: iso-8859-5 Accept-Encoding 指定浏览器可以支持的web服务器返回内容压缩编码类型. Accept-Encoding: compress, gzip Accept-Language 浏览器可接

python爬虫之User-Agent用户信息

python爬虫之User-Agent用户信息爬虫是自动的爬取网站信息,实质上我们也只是一段代码,并不是真正的浏览器用户,加上User-Agent(用户代理,简称UA)信息,只是让我们伪装成一个浏览器用户去访问网站,然而一个用户频繁的访问一个网站很容易被察觉,既然我们可以伪装成浏览器,那么也同样可以通过UA信息来变换我们的身份. 整理部分UA信息 OperaMozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like G

WSDL项目---添加头信息和附件

用于底层协议的SOAP请求是HTTP,可以添加两个自定义HTTP头(例如用于身份验证或会话)和附件. 让我们看一下这两个. 1. 自定义HTTP标头直接添加自定义HTTP头: 我们已经添加了自定义内容类型头将覆盖标准的内容类型用于SOAP请求(“text / xml;charset = utf - 8”). 发送请求,查看器显示原始的请求当然你可以根据需要添加任意数量的头信息,可以包含扩展属性值. 相应的响应标签显示了所有HTTP头信息: 2. 附件和内联文件 SoapUI支持以下技术处理文

Spring配置文件xml头信息解析一

我们在使用Spring框架的时候首先要配置其xml文件,大量的头信息到底代表了什么呢,在这里总结下自己的理解... 这里是创建web工程时自带的xml文件头内容: <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://xmlns.jcp.org

Windows2008 r2“Web服务器HTTP头信息泄露”漏洞修复

一.漏洞名称漏洞名称漏洞摘要修复建议 Web服务器HTTP头信息泄露远程Web服务器通过HTTP头公开信息. 修改Web服务器的HTTP头以不公开有关底层Web服务器的详细信息. 二.安装IIS 6 管理兼容性右击[角色][Web服务器(IIS)],点击[添加角色服务],勾选"IIS 6 管理兼容性",点击下一步安装. 三.安装urlscan_v31_x64 1.安装urlscan3.1 2.安装UrlScan3.1,利用UrlScan 3.1的特性,修改配置文件C:\Win

LoadRunner获取WEB请求头信息的方法：REQUEST、RESPONSE（引）

今天发现LoadRunner两个"内置变量": 1.REQUEST,用于提取完整的请求头信息. 2.RESPONSE,用于提取完整的响应头信息. 响应头信息用可用其它方式实现,但请求头信息还真不知道可以这样拿到.太隐蔽了吧! 注意,这两个变量仅在请求前使用web_save_header注册使用.示例如下: Action(){web_set_max_html_param_len("262144");// 默认最大长度为256web_reg_save_param(&qu