urlparse (scheme、netloc、path等)

python2

from urllib2 import urlparse

python3

from urlib.parse import urlparse

>>> url = "http://localhost/test.py?a=hello&b=world "
>>> from urlib2 import urlparse
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named urlib2
>>> from urllib2 import urlparse
>>> result = urlparse.urlparse(url)
>>> result
ParseResult(scheme=‘http‘, netloc=‘localhost‘, path=‘/test.py‘, params=‘‘, query=‘a=hello&b=world ‘, fragment=‘‘)

result.scheme : 网络协议

result.netloc: 服务器位置(也有可能是用户信息)

result.path: 网页文件在服务器中的位置

result.params: 可选参数

result.query: &连接键值对

result.fragment:

时间: 2024-12-03 01:03:35

urlparse (scheme、netloc、path等)的相关文章

python urlparse模块

urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse等. urlparse.urlparse(urlstring[, scheme[, allow_fragments]]) 将urlstring解 析成6个部分,它从urlstring中取得URL,并返回元组 (scheme, netloc, path, parameters, query, fragment),但是

Python3 urlparse

>>> from urllib.parse import urlparse >>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') >>> o ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='') >>

Python中的urlparse、urllib抓取和解析网页(一)

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文将详细介绍如何利用Python抓取和解析网页.首 先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文 件中的数据,从而处理特定的内容,如链接.图像和Cookie等.最后,

python之web模块学习-- urlparse

继续学习python的web模块,urlparse 是一个比较简单的模块,主要是用来 解析URL字符串的 1  urlparse简介 python使用urlparse来解析URL字符串 主要方法: urlprase 次要方法: urljoin urlsplit  urlunsplit等 2  urlparse详解 urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse

urlparse模块

urlparse -- 解析(绝对和相对)URL 函数:    parse_qs(qs, keep_blank_values=0, strict_parsing=0)        解析一个查询字符串        qs: 要被解析的由%编码的查询字符串        keep_blank_values: 标识查询字符串中空值是否应该看出空字符串,默认为False,直接忽略        strict_parsing:标识解析错误时做什么.默认为False忽略错误,True则抛出ValueErr

使用Python中的urlparse、urllib抓取和解析网页(一)(转)

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文将详细介绍如何利用Python抓取和解析网页.首 先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文 件中的数据,从而处理特定的内容,如链接.图像和Cookie等.最后,

Python框架之Tornado(三)请求

概述 本篇就来详细介绍tornado服务器(socket服务端)是如何接收用户请求数据以及如果根据用户请求的URL处理并返回数据,也就是上图的3系列所有步骤,如上图[start]是一个死循环,其中利用epoll监听服务端socket句柄,一旦客户端发送请求,则立即调用HttpServer对象的_handle_events方法来进行请求的处理. 对于整个3系列按照功能可以划分为四大部分: 获取用户请求数据(上图3.4) 根据用户请求URL进行路由匹配,从而使得某个方法处理具体的请求(上图3.5-3

URL的结构介绍

URL的结构,关于这方面的blog也能一搜一大把...最近也在看方面的基础,也记录下... 参考:Web之困 什么是URL URL(Uniform Resource Locator)统一资源定位符,就是由一串简单的文本字符组成.一条符合规范的URL对应的是服务器的一个特定的资源(如HTML页面,一张图片等). Scheme: // Login:[email protected] Address :port /path/to/resource ?query_string #fragment 按照完

python3 爬虫4--解析链接

1.urlparse() 属于urllib.parse 在urlparse世界里面,一个标准的URL链接格式如下 scheme://nrtlooc/path;paramters?query#fragment 所以,一个url='http://www.baidu.com/index.html;user?id=5#comment' 我们使用urlparse的话,就可以被分成6个部分 (scheme='http',netloc='www.baidu.com',path='index.html'para