Python3 urllib.request库的基本使用

urllib.request库 是 Python3 自带的模块(不需要下载,导入即可使用)
python 自带的模块库文件都是在C:\Python\Lib目录下(C:\Python是我Python的安装目录),python第三方模块库都是在C:\Python\Lib\site-packages 下。
urllib.request库在windows下的路径(C:\Python\Lib\urllib)。

一:用urllib.request 里的urlopen()方法发送一个请求


import urllib.request                                                                                      # 导入urllib.request 库
response = urllib.request.urlopen("https://blog.51cto.com/alun51cto")        # 向指定的url发送请求,并返回服务器响应的类文件对象。urlopen方法支持重定向

# 服务器返回的类文件对象支持Python文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
html = response.read()

print(html)                                                                                      # 打印响应的内容

注:urllib.request 里的 urlopen()不支持构造HTTP请求,不能给编写的请求添加head,无法模拟真实的浏览器发送请求。

python的“User-agent”默认的是client_version,而client_version = "Python-urllib/%s" % version
urllib.request库的urlopen()方法默认的“User-agent”是本机Python的版本(User-agent:Python-urllib/3.4),对于服务器而言,一下就能识别出这是爬虫。
urlopen()的参数就是一个url地址;但是如果需要执行更复杂的操作,比如增加HTTP报头,必须创建一个 Request 实例来作为urlopen()的参数;而需要访问的url地址则作为 Request 实例的参数。

二:用urllib.request 里的request ()方法

import urllib.request                                                                                  # url 作为Request()方法的参数,构造并返回一个Request对象
request = urllib.request.Request("https://blog.51cto.com/alun51cto")      # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
response = urllib.request.urlopen(request)
html = response.read()
print(html)

运行结果:跟第一个代码是一样。
Request实例,除了必须要有 url 参数之外,还可以设置另外两个参数:
data:如果是GET请求,data(默认空),如果是POST请求,需要加上data参数,伴随 url 提交的数据。
headers(默认空):是一个字典,包含了需要发送的HTTP报头的键值对。
通过抓包可以抓到https://blog.51cto.com/alun51cto 请求的head信息

【Host】:主域 (发请求时,可以不写)
【Connection: keep-alive】:保持登录后的长连接
【User-Agent】:最重要的参数
【Accept】:接受数据的格式,例如:text文本、json等
【Accept-Encoding】:数据的压缩方式 (爬虫不是服务器,没有解压方法,不能写)
【Accept-Language】:支持的语言 (可以不写)
【Cookie】:缓存,Cookie在爬虫里主要获取登录后的状态,跟登录相关的可以用Cookie处理,如果只是获取一个静态页面的数据,就不需要用Cookie。

web项目通过都是通过浏览器去访问,要想真实模拟一个用户用浏览器去访问web项目,在发送请求的时候,会有不同的User-Agent头。 urllib默认的User-Agent头为:Python-urllib/x.y,所以就需要我们在发request请求的时候添加一个head信息

三:用urllib.request 里的request ()方法里加上head信息

import urllib.request

header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}
request = urllib.request.Request("https://blog.51cto.com/alun51cto")           # url 作为Request()方法的参数,构造并返回一个Request对象
response = urllib.request.urlopen(request)                                                    # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)

四:Request.get_header()与Request.add_header()

import urllib.request

url ="https://blog.51cto.com/alun51cto"
header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36"
}

request = urllib.request.Request(url)                      # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("Connection", "keep-alive")   #也可以通过调用request.add_header() 添加/修改一个特定的header
print(request.get_header(header_name="Connection"))  # 也可以通过调用Request.get_header()来查看header信息
response = urllib.request.urlopen(request)            # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
#print(html)

五:随机添加/修改User-Agent

import urllib.request
import random

url = "https://blog.51cto.com/alun51cto"

#定义一个User-Agent列表
user_agent_list = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
    "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
    "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]
user_agent = random.choice(user_agent_list)              #随机抽取一个User-Agent值
request = urllib.request.Request(url)                             # url 作为Request()方法的参数,构造并返回一个Request对象
request.add_header("User-Agent", user_agent)           #通过调用Request.add_header() 添加一个特定的header
print(request.get_header("User-agent"))                       # 第一个字母大写,后面的全部小写
response = urllib.request.urlopen(request)                   # Request对象作为urlopen()方法的参数,发送给服务器并接收响应
html = response.read()
print(html)

原文地址:https://blog.51cto.com/alun51cto/2388688

时间: 2024-10-17 09:27:30

Python3 urllib.request库的基本使用的相关文章

爬虫小探-Python3 urllib.request获取页面数据

使用Python3 urllib.request中的Requests()和urlopen()方法获取页面源码,并用re正则进行正则匹配查找需要的数据. #forex.py#coding:utf-8 ''' urllib.request.urlopen() function in Python 3 is equivalent to urllib2.urlopen() in Python2 urllib.request.Request() function in Python 3 is equiva

python3下urllib.request库高级应用之ProxyHandler处理器(代理设置)

1. 代理简介 很多网站都会检测某一段时间某个IP的访问次数,如果同一个IP访问过于频繁,那么该网站就会禁止来自该IP的访问,针对这种情况,可以使用代理服务器,每隔一段时间换一个马甲."他强任他强,劳资会变翔"哈哈哈. 免费的开放代理获取无成本,我们可以收集这些免费代理,测试后如果可以用,用在爬虫上. 免费短期代理网站举例: 西刺免费代理IP 快代理免费代理 Proxy360代理 全网代理IP 名词解释: 免费短期代理网站分高匿和透明 [高匿]:代表服务器追踪不到你原来的IP; [透明

通过python的urllib.request库来爬取一只猫

我们实验的网站很简单,就是一个关于猫的图片的网站:http://placekitten.com 代码如下: import urllib.request respond = urllib.request.urlopen("http://placekitten.com.s3.amazonaws.com/homepage-samples/200/287.jpg") cat_img = respond.read() f = open('cat_200_300.jpg','wb') f.writ

python3 request 库

request库 虽然Python的标准库中 urllib.request 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 "HTTP for Humans",说明使用更简洁方便. Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. Requests 继承了urllib2的所有特性.Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内

URL编码与解码(使用 Python3 urllib.parse) 与 贴吧小爬虫案例

一.parse.urlencode() 与parse.unquote() urllib 和urllib.request都是接受URL请求的相关模块,但是提供了不同的功能.两个最显著的不同如下: 1.urllib 仅可以接受URL,不能创建 设置了headers 的Request 类实例: 2.但是 urllib 提供 urlencode 方法用来GET查询字符串的产生,而urllib.request 则没有.(这是 urllib 和urllib.request 经常一起使用的主要原因) 3.编码

2. Python标准库urllib.request模块_2(python3)

参考学习地址:http://www.iplaypython.com # coding:utf-8 # 学习1 import urllib.request # print(dir(html)) # 获取网页所在的header信息 url="http://www.iplaypython.com/" html=urllib.request.urlopen(url) # 获取网站返回的状态码 code = html.getcode() print("返回的状态码: %s"

Urllib.request用法简单介绍(Python3.3)

Urllib.request用法简单介绍(Python3.3),有需要的朋友可以参考下. urllib是Python标准库的一部分,包含urllib.request,urllib.error,urllib.parse,urlli.robotparser四个子模块,这里主要介绍urllib.request的一些简单用法. 首先是urlopen函数,用于打开一个URL: # -*- coding:utf-8 -*- #获取并打印google首页的htmlimport urllib.requestre

在python3中使用urllib.request编写简单的网络爬虫

Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url,读取url里面的内容,下载里面的图片. 分以下几步: step1:用urllib.request.urlopen打开目标网站 step2:由于urllib.request.urlopen返回的是一个http.client.HTTPResponse object,无法直接读取里面的内容,所以直接调用该对象的方法read(),获取到页面代码,存到html里 step3:构建正则表达式,从页面代码里

python3中urllib.request.urlopen.read读取的网页格式问题

#!/usr/bin/env python3 #-*- coding: utf-8 -*- #<a title="" target="_blank" href="http://blog.sina.com.cn/s/blog_4701280b0102eo83.html"><论电影的七个元素>——关于我对电…</a> import urllib.request str0 =r' <a title="