网络爬虫urllib2 tornado

百度不支持用tornado请求,可以用美团开放API 测试。

 1 import tornado.httpclient
 2
 3 def fetch(url):
 4 http_header={‘User-Agent‘:‘Chrome‘}
 5 http_request=tornado.httpclient.HTTPRequest(url=url,method=‘GET‘,headers=http_header,connect_timeout=200, request_timeout=600)
 6
 7 http_client=tornado.httpclient.HTTPClient()
 8
 9 http_response=http_client.fetch(http_request)
10
11 print http_response.code
12
13 all_fields=http_response.headers.get_all()
14 for field in all_fields:
15    print field
16 print http_response.body
import urllib2

def fetch(url):
    http_header = {‘User-Agent‘:‘Chrome‘}
    http_request = urllib2.Request(url,None,http_header)

    http_reponse = urllib2.urlopen(http_request)

    #Status code
    #200 OK
    #404 Invalid url
    #500 Internal error

    print(http_reponse.code)
    print(http_reponse.info())

    print(http_reponse.read())

调用:
if __name__="__main__":
    fetch("http://www.meituan.com/api/v1/divisions")
时间: 2024-10-19 17:55:21

网络爬虫urllib2 tornado的相关文章

2017.07.24 Python网络爬虫之urllib2修改Header

1.urllib2修改header: (1)在使用网络爬虫时,有一些站点不喜欢被程序访问(非人为访问),会检查连接者的"身份证":默认情况下,urllib2把自己的版本号Python-urllib2/x.y作为自己的"身份证号码"来通过检查,这个身份证号码可能会让站点有点迷惑,或者干脆不工作 (2)这时可以让python程序冒充浏览器访问网站,网站是通过浏览器发送过来的User-Agent的值来确认浏览器身份的,用urllib2创建一个请求对象,并给它一个包含头数据

基于Python的urllib2模块的多线程网络爬虫程序

1 m Queue import Queue 2 from gzip import GzipFile 3 from StringIO import StringIO 4 import time 5 import socket 6 class ContentEncodingProcessor(urllib2.BaseHandler): 7 """A handler to add gzip capabilities to urllib2 requests ""

【Pyhton】 网络爬虫初级

[本文原创于Paul的博客园技术博客.] [本文欢迎转载,转载请以链接形式注明出处.] [本博客所有文章都经博主精心整理,请尊重我的劳动成果.] [Pyhton]  网络爬虫初级 首先,我们来看一个Python抓取网页的库:urllib或urllib2. 那么urllib与urllib2有什么区别呢? 可以把urllib2当作urllib的扩增,比较明显的优势是urllib2.urlopen()可以接受Request对象作为参数,从而可以控制HTTP Request的header部. 做HTTP

利用Python编写网络爬虫下载文章

#coding: utf-8 #title..href... str0='blabla<a title="<论电影的七个元素>——关于我对电影的一些看法以及<后会无期>的一些消息" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html"><论电影的七个元素>——关于我对电…</a>' impo

Python网络爬虫

http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义 网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的. 从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址, 然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止. 如果把整个互联网当成一个网站,那么

python网络爬虫之cookie的使用方法汇总

在编写python网络爬虫时,除了要考虑到爬虫的异常处理问题,我们是否还会考虑到cookie的使用呢?在使用cookie时,有想过为什么要使用cookie吗?一起来看看吧. Cookie,指某些网站为了辨别用户身份.进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的.那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取其他页面就达到目的了. 在此之前呢,我们必须先介绍一个open

156个Python网络爬虫资源

本列表包含Python网页抓取和数据处理相关的库. 网络相关 通用 urllib - 网络库(标准库) requests - 网络库 grab - 网络库(基于pycurl) pycurl - 网络库 (与libcurl绑定) urllib3 - 具有线程安全连接池.文件psot支持.高可用的Python HTTP库 httplib2 - 网络库 RoboBrowser - 一个无需独立浏览器即可访问网页的简单.pythonic的库 MechanicalSoup - 能完成自动网站交互的Pyth

初步认识网络爬虫

无论你是由于什么原因想做一个网络爬虫,首先做的第一件事情就是要了解它. 在了解网络爬虫之前一定要牢记以下4个要点,这是做网络爬虫的基础: 1.抓取 py的urllib不一定去用,但是要学,如果你还没用过的话.比较好的替代品有requests等第三方更人性化.成熟的库,如果pyer不了解各种库,那就白学了.抓取最基本就是拉网页回来. 如果深入做下去,你会发现要面对不同的网页要求,比如有认证的,不同文件格式.编码处理,各种奇怪的url合规化处理.重复抓取问题.cookies跟随问题.多线程多进程抓取

python 网络爬虫入门笔记

参考:http://www.cnblogs.com/xin-xin/p/4297852.html 一.简介 爬虫即网络爬虫,如果将互联网比做成一张大网,那么蜘蛛就是爬虫.如果它遇到资源,将会抓取下来. 二.过程 在我们浏览网页时,我们经常会看到一些形形色色的页面,其实这个过程就是我们输入url,经DNS解析成对应的ip找到对应的服务器主机,向服务器发出一个请求,服务器经过解析之后将html,js等发回浏览器显示. 其实爬虫和这个过程差不多,只不过我们在抓取到html后,通过正则表达式来确定要获取