python url解析

在开始Python编程之前我们先来看看一个关与url的知识
在url中会有一些特殊字符,如果你写过cgi程序,并且提交一个表单去调用你的cgi,你会很清楚的
像?name=aiqier&age=21这样的参数传递
下面总结一下常见的url特殊字符的含义

空格换成加号(+)
正斜杠(/)分隔目录和子目录
问号(?)分隔URL和查询
百分号(%)制定特殊字符
#号指定书签
&号分隔参数

如果需要在URL中用到,需要将这些特殊字符换成相应的十六进制的值 
字符                                    URL编码值 
            空格                                        %20 
              "                                          %22 
              #                                          %23 
             %                                         %25 
             &                                          %26 
              (                                          %28 
             )                                           %29 
            +                              %2B 
             ,                                           %2C 
             /                                           %2F 
             :                                           %3A 
             ;                                           %3B 
            <                                           %3C 
            =                                           %3D 
            >                                           %3E 
             ?                                           %3F 
            @                                           %4o 
             \                                           %5C 
             |                                           %7C

现在问题来了,如果你的参数本身就有像”&”这样的字符,肿么办?
比如name=aiqier&liu&age=21(说明,aiqier&liu和21是我要传递的参数)
所以我们要对url的字符进行转义用到urllib.quote函数
试试如下代码

[python] view plain copy

  1. myurl = ‘http://www/~wo/lai-le/he.py?name=tom&age=6‘
  2. urllib.quote(myurl)

quote和quote_plus差不多,quote_plus会把空格转义成+号,你可以试试

当然python为我们提供了对应的反函数,我们可把那些字符解码
urllib.unquote和urllib.unquote_plus()

urllib.urlencode把映射(键值对)转化成url格式编码的字符串

[python] view plain copy

  1. myarg = {‘name‘:‘aiqier‘,‘age‘:‘&15‘}
  2. urllib.urlencode(myarg)

你会发现,它同时也调用了quote_plus()进行编码

对url字符串的操作urlparse模块

你在学习string时会遇到什么join,split之类的函数,在学习文件操作时,会遇到跟文件路径有关的join函数,split函数
所以在对url操作是你会遇到一个urljoin,你是不是已经猜到它的作用了?

urljoin(baseurl,newurl)将baseurl和newurl合并成一个完整的url

[python] view plain copy

  1. urlparse.urljoin(‘http://www.myweb.com/something.html‘,‘but/not/anything.html‘)

urlparse.urlparse对url字符拆分成各个部件
url的结构是这样的:
协议://授权/路径;参数?连接符#拆分文档中的特殊锚

[python] view plain copy

  1. urlparse.urlparse(myurl)

当然也有对应的反函数urlunparse

时间: 2024-11-05 16:40:20

python url解析的相关文章

python中url解析

url解析 提取域名domain from urllib.parse import urlparse url='http://www.freebuf.com/articles/437.html' url_parse = urlparse(url) print(url_parse) print(url_parse.netloc) 输出: ParseResult(scheme='http', netloc='www.freebuf.com', path='/articles/437.html', p

Python 文本解析器

Python 文本解析器 一.课程介绍 本课程讲解一个使用 Python 来解析纯文本生成一个 HTML 页面的小程序. 二.相关技术 Python:一种面向对象.解释型计算机程序设计语言,用它可以做 Web 开发.图形处理.文本处理和数学处理等等. HTML:超文本标记语言,主要用来实现网页. 三.项目截图 纯文本文件: Welcome to ShiYanLou ShiYanLou is the first experiment with IT as the core of online ed

关于Python json解析过程遇到的TypeError: expected string or buffer

关于Python json解析过程遇到的问题:(爬取天气json数据所遇到的问题http://tianqi.2345.com/) part.1 url--http://tianqi.2345.com/t/wea_history/js/201708/60061_201708.js 返回的数据如下: 这就尴尬了,直接json.loads是返回错误的. 对比了其他网页返回的--http://www.toutiao.com/search_content/?offset=0&format=json&

python dpkt解析ssl流

用法:python extract_tls_flow.py -vr  white_pcap/11/2018-01-10_13-05-09_2.pcap  -o pcap_ssl_flow.txt  >log.txt python dpkt解析ssl流,记录含有client hello到app data的完整ssl 流,同时记录ssl证书: #!/usr/bin/env python from __future__ import absolute_import from __future__ im

Python爬虫解析网页的4种方式 值得收藏

用Python写爬虫工具在现在是一种司空见惯的事情,每个人都希望能够写一段程序去互联网上扒一点资料下来,用于数据分析或者干点别的事情. ? 我们知道,爬虫的原理无非是把目标网址的内容下载下来存储到内存中,这个时候它的内容其实是一堆HTML,然后再对这些HTML内容进行解析,按照自己的想法提取出想要的数据,所以今天我们主要来讲四种在Python中解析网页HTML内容的方法,各有千秋,适合在不同的场合下使用. 首先我们随意找到一个网址,这时我脑子里闪过了豆瓣这个网站.嗯,毕竟是用Python构建的网

python高效解析日志入库

python脚本解析日志文件入库一般有三个重要的步骤:读文件.解析文件.入库.在这三个方面下功夫,可确保我们获得最优的性能(这里不讨论并发) 1 读文件:一次读一行,磁盘IO太多,效率低下:一次性读如全部文件内容,可能内存不够.采取一个折中的办法,每次读若干byte(具体大小视实际情况而定). 经过测试,得到结论,在我们写代码的时候应该这样写 f = open(path,'r') for line in f : ............. 这是系统提供的一种读文件的方法,一般比我们自己每次读若干

用正则把url解析为对象

用正则把url解析为对象 <!DOCTYPE html><html><head><meta charset="utf-8"><title>string and reg</title></head><body><script>/*一.知识点1. \ 将下一个字符标记为或特殊字符.或原义字符.或向后引用.或八进制转义符.例如, 'n' 匹配字符 'n'.'\n' 匹配换行符.序列 '

【美妙的Python之三】Python 对象解析

美妙的Python之Python对象 简而言之: Python 是能你无限惊喜的语言,与众不同.         Python对象概念的理解,是理解Python数据存储的前提.Python使用对象来存储数据,构造任何类型的值都是对象.         1.Python 对象:         Python的对象有3个属性:         标识:每个对象都有一个唯一的标识,通过  id(  )  可以查看对象的标识.         类型:对象的类型,指明该对象可以存储的数据类型,通过  typ

简单的URL解析

简单的URL解析,直接举例说明了 function getUrl(){ //如果存在则取到来后面的参数,注意,?不需要取出,substring从1开始,否则取""; var qs = location.search.length>0?location.search.substring(1):""; //保存数据对象 name=iwen var args = {}; var item = []; var name = null; var value = null