python使用urllib2抓取网页

1、使用python的库urllib2，用到urlopen和Request方法。

2、方法urlopen原形

urllib2.urlopen(url[, data][, timeout])

其中：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

data表示post方式提交给目标服务器的参数

timeout表示超时时间设置

改方法返回一个类似文件的对象，有geturl()、info()、read()方法其中geturl()返回连接地址，info()返回网页信息。

要获取网页内容可以使用read()方法，read也可以带参数，表示读取内容的大小（字节）。

例子：

[python] view plain copy

>>> import urllib2

>>> socket = urllib2.urlopen("http://www.baidu.com")

>>> content = socket.read()

>>> socket.close()

这样，网页的内容（content）就爬下来了，但是有些网站禁止爬虫，如果直接请求会出现以下错误：

urllib2.HTTPError: HTTP Error 403: Forbidden

解决方法是可以在请求加上头信息，伪装成浏览器的访问行为，需要用到Request方法：

3、方法Request原型

urllib2.Request(url[,
data][, headers][, origin_req_host][, unverifiable])

其中：

url表示目标网页地址，可以是字符串，也可以是请求对象Request

data表示post方式提交给目标服务器的参数

headers表示用户标识，是一
个字典类型的数据，有些不允许脚本的抓取，所以需要用户代理，像火狐浏览器的代理就是类似：Mozilla/5.0 (X11; U; Linux
i686)Gecko/20071127 Firefox/2.0.0.11 浏览器的标准UA格式为：浏览器标识 (操作系统标识; 加密等级标识;
浏览器语言) 渲染引擎标识版本信息，headers默认是Python-urllib/2.6

origin_req_host表示请求方的主机域名或者ip地址

看一个例子：

[python] view plain copy

>>> headers = {‘User-Agent‘:‘Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11‘}
>>> req = urllib2.Request(url="http://blog.csdn.net/deqingguo",headers=headers)
>>> socket = urllib2.urlopen(req)
>>> content = socket.read()
>>> socket.close()

列子2：

 import urllib2 as ul
url = ‘http://www.dd.com/products?selected.classification=Primary+antibodies&selected.researchAreas=Metabolism--Types+of+disease--Cancer‘
headers = {‘User-Agent‘:‘Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11‘}  

req = ul.Request(url,headers=headers)
f = ul.urlopen( req )
content = f.read();

print f.getcode();

[python] view plain copy

<pre></pre>
<p></p>
<pre></pre>

时间： 2024-11-03 00:26:01

python使用urllib2抓取网页的相关文章

使用 python urllib2 抓取网页时出现乱码的解决方案

这里记录的是一个门外汉解决使用 urllib2 抓取网页时遇到乱码.崩溃.求助.解决和涨经验的过程.这类问题,事后看来只是个极小极小的坑,不过竟然花去很多时间,也值得记录一下.过程如下:目标: 抓取 http://sports.sina.com.cn/g/premierleague/index.shtml 代码: 1 2 3 4 5 6 # coding: u8 import urllib2 url = "http://sports.sina.com.cn/g/premierleague/ind

python多线程实现抓取网页

Python实现抓取网页下面的Python抓取网页的程序比较初级,只能抓取第一页的url所属的页面,只要预定URL足够多,保证你抓取的网页是无限级别的哈,下面是代码: ##coding:utf-8 ''' 无限抓取网页 @author wangbingyu @date 2014-06-26 ''' import sys,urllib,re,thread,time,threading ''' 创建下载线程类 ''' class download(threading.Thread): def __

Python -- 网络编程 -- 抓取网页图片 -- 图虫网

字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encoding url编码urllib.parse.quote() url解码urllib.parse.unquote() 列表去重:pages = list(set(pages)) 创建文件夹(可多级创建):os.makedirs(folder) os.mkdir()只能单级创建首先分析网页(图虫网)的URL规律: 根网页地址形如: http://tuchong.com/tags/人像/

python学习笔记-抓取网页图片脚本

初学者一枚,代码都是模仿网上的.亲测可用~ 运行脚本的前提是本机安装了httplib2模块 #!/usr/bin/python import os import re import string import urllib #author:reed #date:2014-05-14 def GetWebPictures(): url=raw_input('please input the website you want to download:') imgcontent=urllib.urlo

使用bs4和urllib2抓取网页，都是坑

今天折腾了一天使用python抓取新浪门户上的新闻,其实难倒是不难,关键就是在下面三个问题上卡住了. 问题一:新浪新闻返回gzip格式的数据一开始read data之后,希望使用decode将读取到的字符串转化为unicode字符串,显然这是python处理乱七八糟字符串的常用套路.但是一上午都在各种encode error,以为是返回的数据中包含了乱七八糟的字符导致的.后来想起来自己在实习的时候用过别人的代码抓取网页内容,经过了一个gzip的过程,于是才想起来很有可能是服务器返回的数据使用g

Python和Ruby抓取网页时的中文乱码问题(在Eclipse和Apatana Studio下均是这种解决方法

Python抓取中文网页乱码环境1:Eclipse+pydev2.2+python2.7? 环境2:Apatana Studio3+ pydev2.2+python2.7? ????run时设置 run-->run configurations->python run->选中当前运行文件->Common->?Encoding?->Others->输入"GBK" 中文是:运行-->运行配置->python run->选中当前运

Python爬虫实现抓取网页图片

在逛贴吧的时候看见贴吧里面漂亮的图片,或有漂亮妹纸的图片,是不是想保存下来? 但是有的网页的图片比较多,一个个保存下来比较麻烦. 最近在学Python,所以用Python来抓取网页内容还是比较方便的: 所以就尝试了一下 ------code------- #coding=utf-8 import re import urllib //导入模块 def gethtml(url): //自定义函数,传参获取网页内容 page=urllib.urlopen(url)

Windows下 Python Selenium PhantomJS 抓取网页并截图

安装Python https://www.python.org/downloads/release 下载安装将Python目录加入PATH 安装SetupTools https://pypi.Python.org/pypi/setuptools 下载解压到Python目录并进入 cmd执行Python setup.py install 安装Pip https://pypi.Python.org/pypi/setuptools 下载解压到Python目录并进入 cmd执行Python setup

Python抓取网页中的图片到本地

今天在网上找了个从网页中通过图片URL,抓取图片并保存到本地的例子: 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 4 # Author: xixihuang 5 # Date : 2016/08/28 10:12 AM 6 # Desc: 抓取网页,获取图片URL,抓取图片内容并保存到本地. 7 8 import os 9 import uuid 10 import urllib2 11 import cookielib 12 '''获取