urlparse基本运用

# -*- coding: cp936 -*-
#python 27
#xiaodeng
#urlparse基本运用

import urllib,urlparse

def urlparse_test():
    url=‘http://zzk.cnblogs.com/s?w=blog%3Adengyg200891%20urlparse‘
    #初始化对象   s=urlparse.urlparse(url)
    print (s)#返回一个ParseResult对象
    #获取其中的query字段
    #注意:这里是抓取ParseResult对象种的query字段的内容
    #parse_qs函数,将编码的参数内容进行解码
    result=urlparse.parse_qs(s.query)
    print result#{‘w‘: [‘blog:dengyg200891 urlparse‘]}

if __name__==‘__main__‘:
    urlparse_test()

#返回结果:
‘‘‘
ParseResult(scheme=‘http‘, netloc=‘zzk.cnblogs.com‘, path=‘/s‘, params=‘‘,
    query=‘w=blog%3Adengyg200891%20urlparse‘, fragment=‘‘)
‘‘‘

#分析:
‘‘‘
1、urlparse.urlparse(url)返回一个ParseResult对象
2、
‘‘‘
时间: 2024-10-07 05:27:42

urlparse基本运用的相关文章

python urlparse模块

urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse等. urlparse.urlparse(urlstring[, scheme[, allow_fragments]]) 将urlstring解 析成6个部分,它从urlstring中取得URL,并返回元组 (scheme, netloc, path, parameters, query, fragment),但是

Python3 urlparse

>>> from urllib.parse import urlparse >>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') >>> o ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='') >>

urlparse获取url后面的参数

copyfrom: http://www.cnpythoner.com/post/263.html 如果给定你一个URL,比如: http://url/api?param=2&param2=4 我们需要获取参数名和参数值的话,那可以用到python标准库urlparse import urlparse def qs(url):     query = urlparse.urlparse(url).query     return dict([(k,v[0]) for k,v in urlpars

python爬虫主要就是五个模块:爬虫启动入口模块,URL管理器存放已经爬虫的URL和待爬虫URL列表,html下载器,html解析器,html输出器 同时可以掌握到urllib2的使用、bs4(BeautifulSoup)页面解析器、re正则表达式、urlparse、python基础知识回顾(set集合操作)等相关内容。

本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding:utf-8from com.wenhy.crawler_baidu_baike import url_manager, html_downloader, html_parser, html_outputer print "爬虫百度百科调度入口" # 创建爬虫类class SpiderMai

Python URL处理模块urlparse介绍

from urlparse import urlparse url=urlparse(' url.port  #80  端口号 url.scheme #http 协议 url.path  #/5581274/1613289

urlparse (scheme、netloc、path等)

python2 from urllib2 import urlparse python3 from urlib.parse import urlparse >>> url = "http://localhost/test.py?a=hello&b=world ">>> from urlib2 import urlparseTraceback (most recent call last):  File "<stdin>&

urlparse模块(专门用来解析URL格式)

# -*- coding: utf-8 -*- #python 27 #xiaodeng #urlparse模块(专门用来解析URL格式) #URL格式: #protocol ://hostname[:port] / path / [;parameters][?query]#fragment #parameters:特殊参数,一般用的很少. #1.urlparse方法 #将url解析为6元组,返回一个ParseResult对象元组. url='http://user:[email protect

Python中的urlparse、urllib抓取和解析网页(一)

对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过Python 语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档.本文将详细介绍如何利用Python抓取和解析网页.首 先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文 件中的数据,从而处理特定的内容,如链接.图像和Cookie等.最后,

python之web模块学习-- urlparse

继续学习python的web模块,urlparse 是一个比较简单的模块,主要是用来 解析URL字符串的 1  urlparse简介 python使用urlparse来解析URL字符串 主要方法: urlprase 次要方法: urljoin urlsplit  urlunsplit等 2  urlparse详解 urlparse模块主要是把url拆分为6部分,并返回元组.并且可以把拆分后的部分再组成一个url.主要有函数有urljoin.urlsplit.urlunsplit.urlparse

urlparse模块

urlparse -- 解析(绝对和相对)URL 函数:    parse_qs(qs, keep_blank_values=0, strict_parsing=0)        解析一个查询字符串        qs: 要被解析的由%编码的查询字符串        keep_blank_values: 标识查询字符串中空值是否应该看出空字符串,默认为False,直接忽略        strict_parsing:标识解析错误时做什么.默认为False忽略错误,True则抛出ValueErr