[转]python3.x 的urllib使用例子

2.x版本的python可以直接使用import urllib来进行操作，但是3.x版本的python使用的是import urllib.request来进行操作，下面是简单的例子：

===============================================================================

# get code of given URL as html text string
# Python3 uses urllib.request.urlopen()
# instead of Python2‘s urllib.urlopen() or urllib2.urlopen()

import urllib.request

fp = urllib.request.urlopen("http://www.python.org")

mybytes = fp.read()
# note that Python3 does not read the html code as string
# but as html code bytearray, convert to string with
mystr = mybytes.decode("utf8")

fp.close()

print(mystr)

================================================================================

# get the code of a given URL as html text string
# Python3 uses urllib.request.urlopen()
# get the encoding used first
# tested with Python 3.1 with the Editra IDE

import urllib.request

def extract(text, sub1, sub2):
    """
    extract a substring from text between first
    occurances of substrings sub1 and sub2
    """
    return text.split(sub1, 1)[-1].split(sub2, 1)[0]

fp = urllib.request.urlopen("http://www.python.org")

mybytes = fp.read()

encoding = extract(str(mybytes).lower(), ‘charset=‘, ‘"‘)
print(‘-‘*50)
print( "Encoding type = %s" % encoding )
print(‘-‘*50)

if encoding:
    # note that Python3 does not read the html code as string
    # but as html code bytearray, convert to string with
    mystr = mybytes.decode(encoding)
    print(mystr)
else:
    print("Encoding type not found!")

fp.close()

==================================================================================

参考：http://www.daniweb.com/forums/thread213221.html

时间： 2024-11-08 03:45:06

[转]python3.x 的urllib使用例子的相关文章

python3 AttributeError: module 'urllib' has no attribute 'urlencode'

错误代码: data = urllib.urlencode(data) 错误原因:python2和python3的urllib结构是有所不同的,所以不能这样用解决方案: data = urllib.parse.urlencode(data) python3 AttributeError: module 'urllib' has no attribute 'urlencode' 原文地址:https://www.cnblogs.com/pengfy/p/11269656.html

在python3中使用urllib.request编写简单的网络爬虫

Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url,读取url里面的内容,下载里面的图片. 分以下几步: step1:用urllib.request.urlopen打开目标网站 step2:由于urllib.request.urlopen返回的是一个http.client.HTTPResponse object,无法直接读取里面的内容,所以直接调用该对象的方法read(),获取到页面代码,存到html里 step3:构建正则表达式,从页面代码里

Python3.X与urllib

在Python3.X中使用urllib时,不能像Python2.X一样直接使用: import urllib response = urllib.urlopen("http://www.baidu.com") Python3.X需要使用如下方式: import urllib.request response = urllib.request.urlopen("http://www.baidu.com") 同理,在Python3.X中,与urllib相关的其余组件:e

python3.5中urllib模块抓取指定URL内容

python3.5中把python中的urllib和urllib2模块合并为urllib模块啦.urllib模块下有五个类: 抓取指定URL下内容封装成一个类文件对象,其中的很多方法操作和文件操作是一样的.

python3 爬虫（urllib+beautifulsoup）beautifulsoup自动检测编码错误

版本:Python3.x 运行系统:win7 编辑器:pycharm 爬取页面:携程的一个页面(韩国首尔6日5晚半自助游·直飞+滑雪场或南怡岛+乐天世界+1天自由活动-[携程旅游]) #!/usr/bin/env python3 # -*- coding: utf-8 -*- from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup def getComm

python3爬虫之Urllib库（二）

在上一篇文章中,我们大概讲了一下urllib库中最重要的两个请求方法:urlopen() 和 Request() 但是仅仅凭借那两个方法无法执行一些更高级的请求,如Cookies处理,代理设置等等. 这是就是Handler大显神威的时候了,简单地说,他是各种处理器,有处理验证登录的,有处理Cookies的,有处理代理设置的. 高级用法首先说一下urllib.request模块中的BaseHandler类,他是所有类的基类,它提供了最基本的方法,如:default_open() prot

第一个用python3写的爬虫小例子

#!usr/bin/python import urllib.request response = urllib.request.urlopen("http://www.baidu.com"); print (response.read());

[Python3]HTTP处理 - urllib模块

概述 urllib是python最基础.最核心的HTTP协议支持库,诸多第三方库都依赖urllib,所以urllib是必须掌握的HTTP库. 掌握了urllib有利于: 深入理解http协议可以更好的学习和掌握第三方http库快速的开展基于http的接口测试快速进入爬虫学习之路 urllib组成我们一起看下urllib由哪些模块或类构成: urllib.request用于构建http请求 urllib.response用于处理http响应值的类 urllib.parse 用于url处理

python3之模块urllib

urllib是python内置的HTTP请求库,无需安装即可使用,它包含了4个模块: request:它是最基本的http请求模块,用来模拟发送请求 error:异常处理模块,如果出现错误可以捕获这些异常 parse:一个工具模块,提供了许多URL处理方法,如:拆分.解析.合并等 robotparser:主要用来识别网站的robots.txt文件,然后判断哪些网站可以爬 1.urllib.request.urlopen() urllib.request.urlopen(url,data=None

猜你喜欢

类的构成

类的构成有以下部分构成: 代码段动态代码段静态代码成员变量静态变量局部变量常量成员方法静态方法构造方法 this(对象) super(对象) 下面 ...

二叉树的先序、中序、后序的递归与非递归实现

#include <iostream> #include <cstdlib> #include <stack> using namespace std; struc ...

2017/3/14 星期二

今天看了jquery视频学习了 1.jquery动态添加,删除元素节点,替换包裹节点 2.radio 和checkbox相关选择过滤器的操作 3.学习并制作了微博发布界面1,2 4.利用jquery和 ...

TCP创建连接的过程即三次握手的具体步骤

1.客户端发出请求连接报文段,其中报文的控制位SYN=1,初始序号seq=x,客户端进入SYN-SENT同步已发送状态 2.服务端收到请求报文段之后,向客户端发送确认报文段,在确认报文段中,SYN=1 ...

什么是数据清洗？（翻译自维基百科）

Data cleaning[edit] Once processed and organized, the data may be incomplete, contain duplicates, or ...

Android--面试题整理（一）

1. 什么是Activity? 四大组件之一,一般的,一个用户交互界面对应一个activity setContentView() ,// 要显示的布局 , activity 是Context的子类,同 ...

P2P成歇斯里式增长的原因何在？投资者如何独善其身？

近日,p2p网贷跑路风波又起.10月22日,搜狐证券网发表了一条"800多位投资者被套2.8亿元浙江本土P2P公司疑资金链断裂"的文章,曝光了浙江传奇投资管理有限公司企业倒闭.老 ...

HTML5新增的一些属性和功能

大致可以分为10个方面: HTML5表单元素和属性表单2.0 视音频处理 canvas绘图 SVG绘图地理定位拖放技术 web work web storage web socket 一.新的i ...

Windows 2008R2文件服务器存储容量扩充

近日公司的文件服务器存储空间频频报警,这么重要的服务器万一空间满了导致服务器无法访问或者宕机,那咱这做IT的就要丢饭碗了,但是因为文件服务器是日常都需要用到的,咱也不好整个停机啥的(^_^主要是俺不乐 ...

BestCoder Round #53 (div.1)

Problem A: 题目大意: 给出以节点1为根的一棵树A,判断它是否是特殊的.一棵树是特殊的当且仅当不存在和它不完全相同的一棵树B,使得A中点i到点1的距离和B中相等. 题解: 假设一个点x的深度 ...

NYOJ 17 单调递增最长子序列(动态规划)

时间限制:3000 ms | 内存限制:65535 KB 难度:4 描述求一个字符串的最长递增子序列的长度如:dabdbf最长递增子序列就是abdf,长度为4 输入第一行一个整数0<n ...

Java Swing 之设置窗体背景图片

/** * 设置窗体背景图片 * @author gao */ package com.gao; import java.awt.Graphics; import java.awt.Image; im ...

路由器与交换机技术学习指南

路由器和交换机是整个网络学习的基础,不管你是甲方的企业网管,还是乙方的网络工程师,还是正在准备考思科,或者华为这样的IT认证的朋友,都是需要学习的.那么到底应该如何才能更好的学习,或者掌握这些知识呢, ...

JAVA反射与注解实例

1 JAVA反射机制 JAVA反射机制是在运行状况中,号码大全关于恣意一个类,关键词挖掘工具都能够晓得这个类的一切特点和办法:关于恣意一个目标,都能够调用它的恣意一个办法和特点:这种动态获取的信 ...

OpenGrok的安装

http://opengrok.github.io/OpenGrok/ Ubuntu环境下OpenGrok的安装及使用 http://www.linuxidc.com/Linux/2013-05/84 ...

继承关系在内存和DB中的映射

使用将若干相似的类映射为单表,对拥有许多特殊数据的类使用具体表继承. 对高层次使用类表继承,对低层次使用具体表继承. Single Table Inheritance 在DB中将类继承层次设计为一个 ...

改动MyEclipse行数的颜色

1.未改动前.行数的颜色 2.依次选择"Window--->Preferences" 3.选择"General--->Editors--->Text E ...

mysql系列之复制2----主从同步部署

经过了上一篇mysql系列之复制1----原理篇,相信大家已经对mysql的复制有所了解了.本篇博文将带大家一起来部署下mysql的主从同步架构. 环境: CentOS 6.5 x86_64位采用最 ...

Cstyle的札记，Freertos内核详解，基于cortex-m3，第0篇

Freertos是一个硬实时内核,支持众多的微处理器架构,我们可以从它的官网(www.freertos.ort)下载它的sourcecode,同时也可以看出它支持了几十种的微处理器架构,这些就不罗嗦了 ...

requirejs 模块化编程

在介绍 require.js 之前,先介绍下 AMD ( Asynchronous Module Definition ), 意思是“异步模块定义”.它采用异步方式加载模块,模块的加载不影响它后面语句 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.019 s.