urlopen()&urlretrieve()

1、urlopen()方法

urllib.request.urlopen(url[,data[,proxies]])

创建一个表示远程url的类文件对象，然后像本地文件一样的操作这个类文件对象来获取远程数据

参数url表示远程数据的路径，一般是指网址

参数data表示以post方式提交到url的数据（玩过web的人应该只带提交数据的两种方式：post和get。如果你不清楚，也不必在意，因为一般情况下这个参数很少用到）

参数proxies用于设置代理。

urlopen()返回一个类文件对象，它提供了如下方法：

read(),readline(),readlines(),fileno(),close(): 这些方法的使用方式与文件对象完全一样。

info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头部信息

getcode():返回http的状态码，如果是http请求，200表示请求成功，404表示未找到网址

geturl()：返回请求的url

2、urlretrieve方法

直接将远程数据下载到本地

urllib.request.urlretrieve(url[,filename[,reporthook[,data]]])

参数说明

url:外部或者本地url

filename:制定了保存到本地的路径，（如果未指定该参数，urllib会生成一个临时文件来保存数据）

reporthook:是一个回调函数，当连接上服务器以及响应的数据模块传输完毕的时候就会触发该回调函数，我们可以用这个回调函数来显示当前的下载进度

data:指post到服务器的数据。该方法返回一个包含两个元素的元祖（filename，headers）filename表示保存到本地的路径，headers表示服务器响应首部。

时间： 2024-10-05 23:17:17

urlopen()&urlretrieve()的相关文章

Python3抓取百度贴吧图片

我抓取的地址是http://tieba.baidu.com/p/3125473879?pn=2,这个帖子共有82页左右,下面的代码主要抓取82页的所有图片,具体代码如下: """抓取百度贴吧图片""" #导入模块 import re import urllib from urllib.request import urlopen,urlretrieve #获取抓取页面的源代码 def getHtml(url): page = urlope

python3.x中的urllib模块

来源http://my.oschina.net/u/999436/blog/113317 我尝试着找找python3.3.0的change log.里面并没有找到urllib的修改记录.然而这一修改记录却在python3.0的change log中. 原文是这样写的: a new urllib package was created. It consists of code from urllib, urllib2, urlparse, and robotparser. The old modu

简单抓取图片

# -*- coding:utf-8 -*- ''' 使用urllib和BeautifulSoup 简单的实现从百度贴吧获取图片''' from urllib.request import Request,urlopen,urlretrieve import traceback from bs4 import BeautifulSoup # urlopen请求HTML html=urlopen("http://tieba.baidu.com/f?kw=%E9%A3%8E%E6%99%AF&

python爬虫Pragmatic系列IV

python爬虫Pragmatic系列IV 说明: 在上一篇博客中,我们已经做到了从赶集网上单个首页中抓取所有的链接,并下载下来,分析后存入Excel中. 本次目标: 在本节中,我们将使用python多线程技术从赶集网上抓取链接并分析,注意,我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的. 分析: 用爬虫统计信息那自然数据越多越好,为了获取更多的数据,我们先研究下如何打开上千个赶集网上公司链接. 打开首页(http://bj.ganji.com/danbaobaoxian/o1/),在

record-12 爬虫程序练习

#__author: hasee #date: 2018/1/20 from urllib.request import urlopen, urlretrieve from urllib.parse import quote from re import findall url = 'http://www.cdtest.cn/' # 确定URL f = urlopen(url) # 利用urlopen()打开URL资源文件 content = f.read() # 读取文件内容 # conten

爬虫页面

9.31 爬取百度 import urllib.request response=urllib.request.urlopen('http://www.baidu.com')print(response.read().decode('utf-8')) 爬取 10.1 主动提交url2.设置友情链接3.百度会和DNS服务商务合作,抓取新页面?爬取步骤1.给一个url2.写程序,模拟浏览器访问url3.解析内容,提取数据使用库 urllib\requests\bs4解析网页正则表达式\bs4\

爬虫基础之urllib库

categories: 爬虫 tags: urlopen urlretrieve urlencode parse_qs urlparse urlsplit urllib库 urllib库是Python中一个最基本的网络请求库.可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据 urlopen函数在Python3的urllib库中,所有和网络请求相关的方法,都被集到 urllib.request 模块下面了,先来看下urlopen的基本使用 from urllib im

Python urllib模块urlopen()与urlretrieve()详解

1.urlopen()方法urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象,然后像本地文件一样操作这个类文件对象来获取远程数据.参数url表示远程数据的路径,一般是网址:参数data表示以post方式提交到url的数据(玩过web的人应该知道提交数据的两种方式:post与get.如果你不清楚,也不必太在意,一般情况下很少用到这个参数):参数proxies用于设置代理.urlopen返回一个类文件对象,它提供了如下方法:read(