python3.x中的urllib模块

来源http://my.oschina.net/u/999436/blog/113317

我尝试着找找python3.3.0的change log。里面并没有找到urllib的修改记录。然而这一修改记录却在python3.0的change log中。 
原文是这样写的:


a new urllib package was created. It consists of code from 
urlliburllib2urlparse, and robotparser. The old 
modules have all been removed. The new package has five submodules: 
urllib.parseurllib.requesturllib.response
urllib.error, and urllib.robotparser. The 
urllib.request.urlopen() function uses the url opener from 
urllib2. (Note that the unittests have not been renamed for the 
beta, but they will be renamed in the future.)



原来,3.0版本中已经将urllib2、urlparse、和robotparser并入了urllib中,并且修改urllib模块,其中包含5个子模块,即是help()中看到的那五个名字。

为了今后使用方便,在此将每个包中包含的方法列举如下: 
urllib.error: ContentTooShortError; HTTPError; URLError

urllib.parse: parse_qs; parse_qsl; quote; quote_from_bytes; quote_plus; unquote

                  unquote_plus; unquote_to_bytes; urldefrag; urlencode; urljoin; urlparse;
                  urlsplit; urlunparse; urlunsplit

urllib.request: AbstractBasicAuthHandler; AbstractDigestAuthHandler; BaseHandler;

                    CatheFTPHandler; FTPHandler; FancyURLopener; FileHandler;
                    HTTPBasicAuthHandler; HTTPCookieProcessor; HTTPDefaultErrorHandler;
                    HTTPDigestAuthHandler; HTTPErrorProcessorl; HTTPHandler;
                    HTTPPasswordMgr; HTTPPasswordMgrWithDefaultRealm;
                    HTTPRedirectHandler; HTTPSHandler;OpenerDirector;ProxyBasicAuthHandler
                    ProxyDigestAuthHandler;  ProxyHandler; Request; URLopener;
                    UnknowHandler; build_opener; getproxies; install_opener; pathname2url;
                    url2pathname; urlcleanup; urlopen; urlretrieve;

urllib.response: addbase; addclosehook; addinfo; addinfourl;

urllib.robotparser: RobotFileParser

当然,python3.0的改动十分巨大,有需要可以参阅change log

时间: 2024-10-13 17:20:32

python3.x中的urllib模块的相关文章

Python3学习笔记(urllib模块的使用)转http://www.cnblogs.com/Lands-ljk/p/5447127.html

Python3学习笔记(urllib模块的使用) 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) -         url:  需要打开的网址 -         data:Post提交的数据 -         timeout:设置网站的访问超时时间 直接用urllib.request模块的urlopen()

Python2.X和Python3.X中的urllib区别

Urllib是Python提供的一个用于操作URL的模块,在Python2.X中,有Urllib库,也有Urllib2库,在Python3.X中Urllib2合并到了Urllib中,我们爬取网页的时候,经常需要用到这个库.下面总结了Urllib相关模块中从Python2.X到Python3.X的常见的一些变动. ·在Python2.X中使用import urllib2--对应的,在Python3.X中会使用import urllib.request,urllib.error. ·在Python2

python3.6中安装Crypto模块

from Crypto.Cipher import AES 在python中要使用到crypto相关的库,但是网上的解决方法一大片,能用的没有几个,而且能安装的没有几个,首先我告诉大家为什么不能安装,其次告诉一种真正的方法. pycrypto,pycrytodome和crypto是一个东西,crypto在python上面的名字是pycrypto它是一个第三方库,但是已经停止更新三年了,所以不建议安装这个库: windows下python3.6安装也不会成功! 这个时候pycryptodome就来

python3 urllib模块

3.0版本中已经将urllib2.urlparse.和robotparser并入了urllib中,并且修改urllib模块,其中包含5个子模块,即是help()中看到的那五个名字. Python2中的urllib模块,在Python3中被修改为 20.5. urllib.request — Extensible library for opening URLs 20.6. urllib.response — Response classes used by urllib 20.7. urllib

【2】数据采集 - urllib模块

python2环境下关于urllib2的使用可以学习这篇文章.本文主要针对python3环境下使用urllib模块实现简单程序爬虫. 链接:https://www.jianshu.com/p/31833117b34b urllib模块的使用 1.数据编码处理 我们通过爬虫程序可以得到网站返回的数据,但是返回的数据在展示过程中,出现了乱码的问题,是因为网站本身有自己的字符编码(通常情况下是 UTF-8),我们程序在采集完成之后在控制台进行展示的过程中是使用本地默认编码(windows 一般是 gb

【译】深入理解python3.4中Asyncio库与Node.js的异步IO机制

转载自http://xidui.github.io/2015/10/29/%E6%B7%B1%E5%85%A5%E7%90%86%E8%A7%A3python3-4-Asyncio%E5%BA%93%E4%B8%8ENode-js%E7%9A%84%E5%BC%82%E6%AD%A5IO%E6%9C%BA%E5%88%B6/ 译者:xidui原文: http://sahandsaba.com/understanding-asyncio-node-js-python-3-4.html 译者前言 如

python3.5中urllib模块抓取指定URL内容

python3.5中把python中的urllib和urllib2模块合并为urllib模块啦.urllib模块下有五个类: 抓取指定URL下内容封装成一个类文件对象,其中的很多方法操作和文件操作是一样的.

urllib模块中的方法

urllib模块中的方法 1.urllib.urlopen(url[,data[,proxies]]) 打开一个url的方法,返回一个文件对象,然后可以进行类似文件对象的操作.本例试着打开google >>> import urllib >>> f = urllib.urlopen('http://www.google.com.hk/') >>> firstLine = f.readline()   #读取html页面的第一行 >>>

在python3中使用urllib.request编写简单的网络爬虫

Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url,读取url里面的内容,下载里面的图片. 分以下几步: step1:用urllib.request.urlopen打开目标网站 step2:由于urllib.request.urlopen返回的是一个http.client.HTTPResponse object,无法直接读取里面的内容,所以直接调用该对象的方法read(),获取到页面代码,存到html里 step3:构建正则表达式,从页面代码里