URL解析器urllib2

urllib2是Python的一个库（不用下载，安装，只需要使用时导入import urllib2）它提供了一系列用于操作URL的功能。

urlopen

urllib2.urlopen可以接受Request对象,urllib不能，本文采用urllib2

urllib2.urlopen(url, *data, *timeout)

urlopen方法是urllib2模块最常用的方法，用于访问发送某一请求。

可选参数timeout用于设置超时时间，以秒为单位。

在data为None时默认用GET方法:

response = urllib2.urlopen(‘http://www.baidu.com/‘)

html = response.read()

这样就获取了该网页的html

在data不为None时使用POST方法:

parmas = urllib2.urlencode({‘spam‘:1,‘eggs‘:2,‘bacon‘:0})

parmas = urllib2.urlencode(values)
response=urllib2.urlopen("http://python.org/query",parmas)

html = response.read()

urlopen返回对象提供方法：

- read() , readline() ,readlines() , fileno() , close() ：这些方法的使用方式与文件对象完全一样

- info()：返回一个httplib.HTTPMessage对象，表示远程服务器返回的头信息

- getcode()：返回Http状态码。如果是http请求，200请求成功完成;404网址未找到

- geturl()：返回请求的url

时间： 2024-11-13 10:08:45

URL解析器urllib2的相关文章

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

springmvc 解析器无法映射controller 配置的URL

搭建springmvc时,配置文件一切正常,项目运行成功,却无法响应http请求,查看log是因为没有对用url的controller,首先检查controller有没有被实例化,后来发现没有,因为没有引入spring-bean的相关包,好吧粗心.... But 引入后,还是同样的错误,找来找去毫无破绽啊,尼玛找度娘.....最后发现: <mvc:resources mapping="/images/**" location="/WEB-INF/images/&quo

Spring MVC系列：（2）视图解析器、URL映射器、适配器

1.默认的URL映射器.适配器和视图解析器 SpringMVC提供了默认的URL映射器.适配器和视图解析器. 在上一文中,springmvc-helloworld.xml内容如下: <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:mvc="http://

Django框架深入了解_04(DRF之url控制、解析器、响应器、版本控制、分页)

一.url控制基本路由写法:最常用 from django.conf.urls import url from django.contrib import admin from app01 import views urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^books/', views.Books.as_view()), url(r'^book/', views.Book.as_view()), url(r'^login/

DRF url控制解析器响应器版本控制分页（常规分页，偏移分页，cursor游标分页）

url控制第二种写法(只要继承了ViewSetMixin) url(r'^pub/$',views.Pub.as_view({'get':'list','post':'create'})), #获取所有记得路由后面加$结束符 #pub/?format=json url(r'^pub\.(?P<format>\w+)$',views.Pub.as_view({'get':'list','post':'create'})), #pub.json url(r'^pub/(?P<pk>\

restframework 解析器、url控制组件

一.解析器 1.分类 from rest_framework.parsers import JSONParser, FormParser, FileUploadParser, MultiPartParser a.JSONParser 解析JSON数据类型 b.FormParser 解析urlencode数据类型 c.MultiPartParser 解析form-data数据类型 d.FileUploadParser 解析上传的文件 2.默认的解析器 DEFAULT_PARSER_CLASSES'

Python爬虫开发【第1篇】【beautifulSoup4解析器】

CSS 选择器:BeautifulSoup4 Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据. pip 安装:pip install beautifulsoup4 官方文档:http://beautifulsoup.readthedocs.io/zh_CN/v4.4.0 抓取工具速度使用难度安装难度正则最快困难无(内置) BeautifulSoup 慢最简单简单 lxml 快简单一般使用Beautifu

Spring映射器、适配器、解析器

1 springmvc的映射器和适配器 1.1springmvc的映射器根据客户端请求的url,找到处理本次请求的handler(处理器),将url和controller关联起来 1.2springmvc的适配器对映射器查找到的controller中的方法进行调用. 第一种:Controller适配第二种:HttpRequestHandler适配第三种:注解适配不同的处理器,对应不同的适配器,但是所有适配器最终都返回ModelAndView对象,springmvc通过对ModelAnd

极其简便的PHP HTML DOM解析器PHP Simple HTML DOM Parser/有中文手册

极其简便的PHP HTML DOM解析器PHP Simple HTML DOM Parser,有中文手册,对于需要分析HTML代码dom结构的php开发者来说,是一个极其有用的函数库,使用Jquery风格的dom节点查找语法,强烈推荐. 下面是其"快速入门",从中文手册里节选而来 //从一个URL或者文件创建一个DOM对象$html = file_get_html('http://www.google.cn/'); // 寻找所有的img标签foreach($html->find