python爬虫二、Urllib库的基本使用

什么是Urllib

　　Urllib是python内置的HTTP请求库
　　包括以下模块
　　urllib.request 请求模块
　　urllib.error 异常处理模块
　　urllib.parse url解析模块
　　urllib.robotparser robots.txt解析模块

urlopen

　　关于urllib.request.urlopen参数的介绍：
　　urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

url参数的使用

先写一个简单的例子：

import urllib.request

response = urllib.request.urlopen(‘http://www.baidu.com‘)
print(response.read().decode(‘utf-8‘))

urlopen一般常用的有三个参数，它的参数如下：
urllib.requeset.urlopen(url,data,timeout)
response.read()可以获取到网页的内容，如果没有read()，将返回如下内容

data参数的使用

上述的例子是通过请求百度的get请求获得百度，下面使用urllib的post请求
这里通过http://httpbin.org/post网站演示（该网站可以作为练习使用urllib的一个站点使用，可以
模拟各种请求操作）。

import urllib.parse
import urllib.request

data = bytes(urllib.parse.urlencode({‘word‘: ‘hello‘}), encoding=‘utf8‘)
print(data)
response = urllib.request.urlopen(‘http://httpbin.org/post‘, data=data)
print(response.read())

时间： 2024-12-25 12:28:21

python爬虫二、Urllib库的基本使用的相关文章

Python爬虫的Urllib库有哪些高级用法？

本文和大家分享的主要是python爬虫的Urllib库的高级用法相关内容,一起来看看吧,希望对大家学习python有所帮助. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服.所以最重要的部分是存在于HTML中的,下面我们就写个例子来扒一个网页下来. imp

Python爬虫之Urllib库的基本使用

Python爬虫之Urllib库的基本使用 import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 其实上面的urlopen参数可以传入一个request请求,它其实就是一个Request类的实例,构造时需要传入Url,Data等等的内容.比如上面的两行代码,我们可以这么改写 # -*- coding: utf-8 -*- """ Cre

python爬虫入门urllib库的使用

urllib库的使用,非常简单. import urllib2 response = urllib2.urlopen("http://www.baidu.com") print response.read() 只要几句代码就可以把一个网站的源代码下载下来. 官方文档:https://docs.python.org/2/library/urllib2.html urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefau

python爬虫之urllib库

请求库 urllib urllib主要分为几个部分 urllib.request 发送请求urllib.error 处理请求过程中出现的异常urllib.parse 处理urlurllib.robotparser 解析robots.txt -->规定了该网站的爬虫权限 urllib.request方法 data = urllib.request.urlopen(url) #返回response对象 data.read() --->取出网页源代码 (bytes类型,可以通过decode()转成u

Python爬虫：urllib库的基本使用

请求网址获取网页代码 import urllib.request url = "http://www.baidu.com" response = urllib.request.urlopen(url) data = response.read() # print(data) # 将文件获取的内容转换成字符串 str_data = data.decode("utf-8") print(str_data) # 将结果保存到文件中 with open("baid

python3爬虫之Urllib库（二）

在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等. 这是就是Handler大显神威的时候了,简单地说,他是各种处理器,有处理验证登录的,有处理Cookies的,有处理代理设置的. 高级用法首先说一下urllib.request模块中的BaseHandler类,他是所有类的基类,它提供了最基本的方法,如:default_open() prot

Python 爬虫二

requests模块 beautifulsoup模块 Request模块 get方法请求整体演示一下: import requests response = requests.get("https://www.baidu.com") print(type(response)) print(response.status_code) print(type(response.text)) print(response.text) print(response.cookies) print

爬虫中urllib库

一.urllib库 urllib是Python自带的一个用于爬虫的库,其主要作用就是可以通过代码模拟浏览器发送请求.其常被用到的子模块在Python3中的为urllib.request和urllib.parse,在Python2中是urllib和urllib2. 一般是用urllib 库爬取图片比较方便, requests 库封装的比 urllib库好多了二.由易到难的爬虫程序: 1.爬取百度首页面所有数据值 #!/usr/bin/env python # -*- coding:utf-

python爬虫(四)_urllib2库的基本使用

本篇我们将开始学习如何进行网页抓取,更多内容请参考:python学习指南 urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地.在Python中有很多库可以用来抓取网页,我们先学习urllib2. urllib2是Python2.x自带的模块(不需要下载,导入即可使用) urllib2官网文档:https://docs.python.org/2/library/urllib2.html urllib2源码 urllib2在python3.x中被

python爬虫基础02-urllib库

Python网络请求urllib和urllib3详解 urllib是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib. 官方文档链接为:https://docs.python.org/3/library/urllib.html 而urllib3则是增加了连接池等功能,两者互相都有补充的部分. urllib 它是 Python 内置的 HTTP 请求库,也就是说我们不需要额外安装即可使用,基本上涵盖了基础的网络请

猜你喜欢

软Raid5，LVM，3T大硬盘纠缠操作的问题

新服务器,4块3T大硬盘,软Raid5 组建加上LVM分区各种一通操作... 悲催的是经过4天的软raid rebuild,最终状态给我FAIL了,当看到raid的state[ State : cl ...

Linux系统中查看服务器型号

[[email protected] etc]# dmidecode | grep Product Product Name: QiTianM7170 Product Name: To be fill ...

位域使用记录

1.位域变量符号位也占1bit,所以取1bit时需留意是否是无符号类型 2.位域变量不能取地址 3.初始化时,位域变量按定义顺序初始化,否则会有告警 4.static成员变量不在sizeof计算内 5 ...

NoSuchMethodError: resolveTypeArguments

NoSuchMethodError: resolveTypeArguments——因为spring版本冲突导致,观察解压war包后lib中有几个spring.在pom中通过exclusion解决 Ht ...

常见控件测试点

系统的功能都是由各种控件组成的,整理了一份常见控件的测试点,分享给大家. 1. 文本框是否是必填项是为空时提交,给出提示输入空格时提交,给出提示否为空时提交,可提交成功不为空时提交,提交 ...

师生对话：我们都曾是爱学习的孩子

记录一段师生对话.大一的同学,初入大学,要从心底里早知道学习是大学里最重要的事情之中的一个. [学生]我刚才听完大三大四学姐说实习什么事啥的感觉真得立即好好学习的感觉 [老师]那当然得好好学习.学不 ...

ansible及其常见模块

什么是Ansible ansible是新出现的运维工具是基于Python研发的糅合了众多老牌运维工具的优点实现了批量操作系统配置.批量程序的部署.批量运行命令等功能. Ansible特性基于Pyth ...

linux下查看所有磁盘状态

linux下查看所有磁盘状态命令为:lsblk [[email protected] lamp]# lsblk NAME MAJ:MIN RM SIZE ...

弹窗代码

tanchuang.css .zhuti { position:absolute; z-index:3; font-size:14px; border-radius:5px; box-shadow:0 ...

机器学习资源

按语言对库的分类:http://www.teglor.com/b/deep-learning-libraries-language-cm569/ 不定时更新......

几点要求自己也可以借鉴

优秀的博士该怎样炼成 ——青年计算机科技论坛反思博士生培养来源:中国科学报 2013-6-27 温才妃培养技能,而非告之毕业窍门一名优秀的博士,究竟是导师带出来的,还是自己努力而来的? 在陈小武 ...

89. Gray Code (Bit)

The gray code is a binary numeral system where two successive values differ in only one bit. Given a ...

快速排序的递归和非递归分析

1.算法思想快速排序是C.R.A.Hoare于1962年提出的一种划分交换排序.它采用了一种分治的策略,通常称其为分治法(Divide-and-ConquerMethod). (1) ...

C#毫秒转时分秒格式

private string RevertToTime(int l)//转换为时分秒格式 { string str = ""; int hour = 0; int minute = ...

1553 互斥的数

时间限制: 1 s 空间限制: 128000 KB 题目等级 : 黄金 Gold 题解查看运行结果题目描述 Description 有这样的一个集合,集合中的元素个数由给定的N决定,集合的元素为N ...

C#本质论学习笔记

C#本质论和CLR via C#两本好书,周老师可能是俗务缠身,太忙了吧,翻译得只能让人呵呵了. 你要是忙,别接那么多活好不啦,否则岂不误人子弟? 请您好好学习一下李建忠老师吧,差距啊. 这里,把随手 ...

把这个50个数的顺序打乱，分别显示出来？？怎么做？？？

public void RandSort(int[] _num) { Random rd = new Random(); int temp = 0, tempNum = 0; for (int i = ...

CDOJ 3 BiliBili, ACFun… And More! 模拟

原题链接:http://acm.uestc.edu.cn/#/problem/show/3 题意: 有个人在看B站视频时有个习惯,就是每当卡住的时候,他总再次从头开始看.另外,他在看视频时会先等待T的 ...

Gonet2 游戏服务器框架解析之gRPC提高（5）

上一篇blog是关于gRPC框架的基本使用,如果说gRPC只是远程发几个参数,那和一个普通的http请求也没多大差别了.所以今天我就来学习一下gRPC高级一点的使用方法.流! 流可以根据使用方法,分为 ...

HDOJ 5318 The Goddess Of The Moon 矩阵快速幂

The Goddess Of The Moon Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/ ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.