爬虫--urllib模块

一.urllib库

　　概念：urllib是Python自带的一个用于爬虫的库，其主要作用就是可以通过代码模拟浏览器发送请求。其常被用到的子模块在Python3中的为urllib.request和urllib.parse，在Python2中是urllib和urllib2。

使用流程：

指定url
基于urllib的request子模块发起请求
获取响应中的数据值
持久化存储

爬取搜狗首页的页面数据

---

# 爬取搜狗首页的页面数据
import urllib.request
# 1.指定url
url = ‘https://www.sogou.com/‘

#2.发起请求：urlopean可以根据指定的url发起请求，且返回一个响应对象
response = urllib.request.urlopen(url=url)

#3.获取页面数据：read函数返回的就是响应对象中存储的页面数据(byte)-二进制形式
page_text = response.read()
#print(page_text)

#4.持久化存储
with open(‘./sogou.html‘,‘wb‘)as f:
    f.write(page_text)
    print(‘写入数据成功‘)

补充说明：

urlopen函数原型：
    urllib.request.urlopen(url, data=None, timeout=<object object at 0x10af327d0>, *, cafile=None, capath=None, cadefault=False, context=None)

在上述案例中我们只使用了该函数中的第一个参数url。在日常开发中，我们能用的只有url和data这两个参数。

url参数：指定向哪个url发起请求
data参数：可以将post请求中携带的参数封装成字典的形式传递给该参数（暂时不需要理解，后期会讲）

urlopen函数返回的响应对象，相关函数调用介绍：
response.headers()：获取响应头信息
response.getcode()：获取响应状态码
response.geturl()：获取请求的url
response.read()：获取响应中的数据值（字节类型）

爬取指定词条所对应的页面数据

# 需求：爬取指定词条所对应的页面数据
import urllib.request
import urllib.parse

#指定url
url = ‘https://www.sogou.com/web?query=‘

# url特性：url不可以存在非ASCII编码的字符
word = urllib.parse.quote(‘人名币‘)
url += word

# 发请求
response = urllib.request.urlopen(url=url)

# 获取页面数据
page_text=response.read()
# print(page_text)

#4.持久化存储
with open(‘rmb.html‘,‘wb‘)as f:
    f.write(page_text)
    print(‘写入数据成功‘)

双击rmb.html出现页面：

- 反爬机制：

网站检查请求的UA，如果发现UA是爬虫程序，则拒绝提供网站数据
- User-Agent(UA)：请求载体的身份标识
- 反反爬机制：伪装爬虫程序请求的UA--如何通过代码实现

在百度浏览器下点击F12

然后输入www.sogou.com

------------------------

import urllib.request
#被访问的搜狗网页
url = ‘https://www.sogou.com/‘
# UA伪装
#1.自制定一个请求对象
#存储任意的请求头信息
# 此处用的百度的UA
headers = {‘User-Agent‘:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36‘}
#该请求对象的UA进行了成功的伪装
request = urllib.request.Request(url=url,headers=headers)

# 2.针对自定制的请求发起请求
response = urllib.request.urlopen(request)
print(response.read())

原文地址：https://www.cnblogs.com/foremostxl/p/10058146.html

时间： 2025-01-12 10:25:06

爬虫--urllib模块的相关文章

Python爬虫之urllib模块1

本文来自网友投稿.作者PG,一个待毕业待就业二流大学生.玄魂工作室未对该文章内容做任何改变. 因为本人一直对推理悬疑比较感兴趣,所以这次爬取的网站也是平时看一些悬疑故事的网站,同时也是因为这个网站在编码上面和一些大网站的博客不同,并不那么规范,所以对于初学者还是有一定的挑战性的.我打算把这个爬虫分三次讲,所以每次都先完成一个小目标(当然不是一个亿啦),这次课我们先爬取当前页面的并且下载第一篇文章.第二次课我们就将爬取当前页面的=所有的链接进行下载,第三次课我们将把整个板块的文章都下载下来. 演示

Python爬虫进阶——urllib模块使用案例【淘宝】

很多时候呢,我们都是读取本地HTML文件来进行爬虫练手,但每次都要手打不同的HTML明显耗时耗力: 还有些小伙伴不喜欢F12,偏偏喜欢在Pycharm中查看HTML的源代码: -- 难道每次都只能"复制--新建--粘贴--保存"一条龙服务吗? 不不不,我们还有Python的第三方库--urllib. urllib模块是模拟浏览器去访问URL地址,然后拿到服务器响应回来的数据,也就是整个HTML文件. 代码如下: import urllib.request as ur # urlopen

python爬虫开发之urllib模块详细使用方法与实例全解

爬虫所需要的功能,基本上在urllib中都能找到,学习这个标准库,可以更加深入的理解后面更加便利的requests库. 首先在Pytho2.x中使用import urllib2——-对应的,在Python3.x中会使用import urllib.request,urllib.error 在Pytho2.x中使用import urllib——-对应的,在Python3.x中会使用import urllib.request,urllib.error,urllib.parse 在Pytho2.x中使

学习Python的urllib模块

urllib 模块作为Python 3 处理 URL 的组件集合,如果你有 Python 2 的知识,那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块,这些现在都是 Python 3 的 urllib 包的一部分,具体如何来体现它们之间的关系 Python 3 的 urllib 模块是一堆可以处理 URL 的组件集合.如果你有 Python 2 的知识,那么你就会注意到 Python 2 中有 urllib 和 urllib2 两个版本的模块.这些现在

反爬虫和模块get post

urllib模块只能用get urllib2模块既有get也有post 网址url = urllib2.urlopen(' http://www.zhanjibao.com/core/search/player',data = 'nickname=%E9%9B%AA%E5%9F%9F%E6%9E%AB ')有data表示post请求 urllib2模块 request请求是反爬虫 add-header中要写成字典的形式,用逗号隔开,单引号引起两部分的内容 req = urllib2.Reques

[转]Python核心模块——urllib模块

现在Python基本入门了,现在开始要进军如何写爬虫了! 先把最基本的urllib模块弄懂吧. urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作.本例试着打开google >>> import urllib >>> f = urllib.urlopen('http://www.google.com.hk/') >>> first

【2】数据采集 - urllib模块

python2环境下关于urllib2的使用可以学习这篇文章.本文主要针对python3环境下使用urllib模块实现简单程序爬虫. 链接:https://www.jianshu.com/p/31833117b34b urllib模块的使用 1.数据编码处理我们通过爬虫程序可以得到网站返回的数据,但是返回的数据在展示过程中,出现了乱码的问题,是因为网站本身有自己的字符编码(通常情况下是 UTF-8),我们程序在采集完成之后在控制台进行展示的过程中是使用本地默认编码(windows 一般是 gb

python爬虫Urllib实战

Urllib基础 urllib.request.urlretrieve(url,filenname) 直接将网页下载到本地 import urllib.request >>> urllib.request.urlretrieve("http://www.hellobi.com",filename="D:\/1.html") ('D:\\/1.html', <http.client.HTTPMessage object at 0x0000000

定义一个方法get_page(url),url参数是需要获取网页内容的网址，返回网页的内容。提示（可以了解python的urllib模块）

1 定义一个方法get_page(url),url参数是需要获取网页内容的网址,返回网页的内容.提示(可以了解python的urllib模块) 2 import urllib.request 3 4 def get_page(url): 5 response = urllib.request.urlopen(url) 6 html = response.read() 7 return html 8 9 print(get_page(url='https://www.baidu,com'))