Python3 使用 urllib 编写爬虫

什么是爬虫

爬虫,也叫蜘蛛(Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com

URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL的格式主要由三部分组成:

    1. protocol:第一部分就是协议,例如百度使用的就是https协议;  
    2. hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;  
    3. path:第三部分就是主机资源的具体地址,如目录和文件名等。  

爬虫就是根据URL来获取网页信息的。

Python3的urllib包

  urllib包提供的模块可以用来使Python代码访问url。

  从Python3官方的urllib包介绍可以知道,在Python3中的内置库中把Python2 的urllib、urllib2两个库整合成了urllib包。

  在urllib包中只提供了4个模块:

    1. urllib.request:用来打开或者读取Urls
    2. urllib.error:包含urllib.request的异常信息
    3. urllib.parse:包含Urls需要的参数信息
    4. urllib.robotparser:配置robots.txt文件的相关功能

相对于Python 2中的变化

  • 在Pytho2.x中使用import urllib2  --->  在Python3.x中会使用import urllib.requesturllib.error
  • 在Pytho2.x中使用import urllib  --->  在Python3.x中会使用import urllib.requesturllib.error
  • 在Pytho2.x中使用import urlparse  --->  在Python3.x中会使用import urllib.parse
  • 在Pytho2.x中使用import urlopen  --->  在Python3.x中会使用import urllib.request.urlopen
  • 在Pytho2.x中使用import urlencode  --->  在Python3.x中会使用import urllib.parse.urlencode
  • 在Pytho2.x中使用import urllib.quote  --->  对应的,在Python3.x中会使用import urllib.request.quote
  • 在Pytho2.x中使用cookielib.CookieJar  --->  对应的,在Python3.x中会使用http.CookieJar
  • 在Pytho2.x中使用urllib2.Request  --->  在Python3.x中会使用urllib.request.Request

基本使用

urllib.request.urlopen():访问一个URL,返回一个包含网页信息的对象

response.read():获取返回对象的内容

response.getcode():获取返回的HTTP Code

response.info():获取返回的元数据信息,例如HTTP Header

response.geturl():获取访问的url

# 使用Python访问博客园,获取网页信息

import urllib.request

response = urllib.request.urlopen(‘http://www.cnblogs.com/dachenzi‘)
data = response.read().decode(‘utf-8‘)

print(data)

利用Python下载一个图片

import urllib.request

url = ‘http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true‘

response = urllib.request.urlopen(url)
data = response.read()

with open(‘img.jpg‘,‘wb‘) as f:  # 图片输入二进制文件,所以只需要使用b模式打开写入即可
    f.write(data)

注意:这里urlopen可以接受一个str,或者一个request对象

小练习

使用Python完成翻译小程序,输入中文返回英文信息,反正亦然。

# 1、使用浏览器访问,查看Network,确定提交数据访问的地址以及提交的data

定制HTTP header

  HTTP Header,表示在浏览器在进行访问(HTTP请求)时携带的头部信息,什么叫定制HTTP请求头呢,举个栗子:其实每天活跃在网上的爬虫太多了,如果网站不进行限制的话,那么访问流量会很高,所以站点基本都会对爬虫进行基本的限制,而利用User-Agent (浏览器标示)是最常用的方式,使用浏览器和使用Python代码来访问站点时,浏览器标示时不同的。

  本人的google浏览器是:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36

  python代码是:Python 3.6.3 ..

  这里既然说定制,那么就是说可以对User-Agent等头部参数进行修改。

修改User-Agent

  修改请求的User-Agent就需要先定制request对象了,然后把对象传给urlopen进行访问

import urllib.request

url = ‘http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true‘

head = {}
head[‘User-Agent‘] = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36‘

request = urllib.request.Request(url,headers=head)  # 创建Request对象,并设置headers
response = urllib.request.urlopen(request)

data = response.read()

with open(‘img.jpg‘,‘wb‘) as f:
    f.write(data)

 1  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
 2     "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)",
 3     "Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)",
 4     "Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)",
 5     "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
 6     "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
 7     "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
 8     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
 9     "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
10     "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
11     "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
12     "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5",
13     "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6",
14     "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
15     "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
16     "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52",

更多的User-Agent

添加heades的另一种方法

除了在代码中通过字典定义header以外,还可以使用request对象的add_header()方法,进行添加

import urllib.request

url = ‘http://img.lenovomm.com/s3/img/app/app-img-lestore/2370-2015-07-16035439-1437033279327.jpg?isCompress=true&width=320&height=480&quantity=1&rotate=true‘

# head = {}
# head[‘User-Agent‘] = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36‘

request = urllib.request.Request(url)  # 创建Request对象,并设置headers
request.add_header(‘User-Agent‘,‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36‘)
response = urllib.request.urlopen(request)

data = response.read()

with open(‘img.jpg‘,‘wb‘) as f:
    f.write(data)

原文地址:https://www.cnblogs.com/dachenzi/p/8196472.html

时间: 2024-10-04 13:12:32

Python3 使用 urllib 编写爬虫的相关文章

第三百三十节,web爬虫讲解2—urllib库爬虫—实战爬取搜狗微信公众号

第三百三十节,web爬虫讲解2-urllib库爬虫-实战爬取搜狗微信公众号 封装模块 #!/usr/bin/env python # -*- coding: utf-8 -*- import urllib from urllib import request import json import random import re import urllib.error def hq_html(hq_url): """ hq_html()封装的爬虫函数,自动启用了用户代理和ip

Python3中urllib详细使用方法(header,代理,超时,认证,异常处理) 转载

urllib是python的一个获取url(Uniform Resource Locators,统一资源定址器)了,我们可以利用它来抓取远程的数据进行保存哦,下面整理了一些关于urllib使用中的一些关于header,代理,超时,认证,异常处理处理方法,下面一起来看看. python3 抓取网页资源的 N 种方法 1.最简单 import urllib.requestresponse = urllib.request.urlopen('http://python.org/')html = res

编写爬虫程序的神器 - Groovy + Jsoup + Sublime(转)

写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET FCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的.加上编写C#需要使用Visual Studio这个很"重"的工具,开发效率长期以来处于一种低下的状态. 最近项目里面接触到了一种神奇的语言Groovy -- 一种全面兼容Java语言且提供了大量额外语法功能的动态语言.

编写爬虫程序的神器 - Groovy + Jsoup + Sublime

写过很多个爬虫小程序了,之前几次主要用C# + Html Agility Pack来完成工作.由于.NET BCL只提供了"底层"的HttpWebRequest和"中层"的WebClient,故对HTTP操作还是需要编写很多代码的.加上编写C#需要使用Visual Studio这个很"重"的工具,开发效率长期以来处于一种低下的状态.   最近项目里面接触到了一种神奇的语言Groovy -- 一种全面兼容Java语言且提供了大量额外语法功能的动态语

震惊!编写“爬虫”,怎么“面向监狱编程”了?

2019年9月以来,不少因为非法使用“爬虫”技术,而使公司面临诉讼,程序猿被警察带走的新闻震惊了IT圈的小伙伴们! 我只是个写爬虫的,跟我有什么关系? 许多程序员都有这样的想法,技术是无罪的,我只是个打工的程序员,公司干违法的业务,跟我没关系...只能说,程序猿们真是图样图森破了. 看到那么多爬虫导致公司触犯法律的新闻,有人开玩笑说,编写爬虫程序,就是“面向监狱编程”. 看个案例: 抓取用户社交数据,尤其是用户隐私相关. (图片文字来自新浪网) 其实,“爬虫”只是一种技术,没有那么可怕如果使用技

使用urllib编写python爬虫

新版python中,urllib和urllib2合并了,统一为urllib (1)简单爬取网页 import urllib content = urllib.request.urlopen(req).read().decode("utf-8") (2)添加header import urllib req = urllib.request.Request(url) req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW

【Python】python3中urllib爬虫开发

以下是三种方法 ①First Method 最简单的方法 ②添加data,http header 使用Request对象 ③CookieJar import urllib.request from http import cookiejar url ='http://www.baidu.com' print("First Method") response1 = urllib.request.urlopen(url) #返回状态码 print(response1.getcode())

python3之微信文章爬虫

前提: python3.4 windows 作用:通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章,并将标题及相关链接导入Excel表格中 说明:需xlsxwriter模块,另程序编写时间为2017/7/11,以免之后程序无法使用可能是网站做过相关改变,程序较为简单,除去注释40多行. 正题: 思路:打开初始Url  --> 正则获取标题及链接  -->  改变page循环第二步  -->  将得到的标题及链接导入Excel 爬虫的第一步都是先手工

python3的urllib以及urllib2的报错问题

1. urllib.urlencode(params) 换成 urllib.parse.urlencode(params) 2. 在python3.3后urllib2已经不能再用,只能用urllib.request来代替 response=urllib2.urlopen(' File "b.py", line 1, in <module> ImportError: No module named 'urllib2' response=urllib.urlopen('File