Python处理HTML转义字符

转载自:http://www.cnblogs.com/xuxn/archive/2011/08/12/parse-html-escape-characters-in-python.html

抓网页数据经常遇到例如>或者 这种HTML转义符,抓到字符串里很是烦人。

比方说一个从网页中抓到的字符串

html = ‘<abc>‘

用Python可以这样处理:

import HTMLParser
html_parser = HTMLParser.HTMLParser()
txt = html_parser.unescape(html) #这样就得到了txt = ‘<abc>‘

如果还想转回去,可以这样:

import cgi
html = cgi.escape(txt) # 这样又回到了 html = ‘&lt;abc&gt‘

来回转的功能还分了两个模块实现,挺奇怪。没找到更优美的方法,欢迎补充哈~

时间: 2024-10-10 16:55:49

Python处理HTML转义字符的相关文章

python 基础之转义字符

一个字符,那就可以用""括起来,比如"T'm OK"包含的字符是I, ',m,空格,O, K这6个 字符. 如果字符串内部既包含'又包含"怎么办?可以用转义字符\来标识,比如: 'I\'m \"OK\"!' 表示的字符串内容是: I'm "OK"! 转义字符\可以转义很多字符,比如\n表示换行,\t 表示制表符,字符\本身也要转义,所以 \\表示的字符就是\,可以在Python的交互式命令行用print 打印字符串看

python 正则表达式之转义字符

最近在整理python相关的知识,使用python对网站进行爬取数据的时候,需要使用到转义字符,之前对转义字符理解一直比较模糊,并且在python中还有一个叫原生字符r.所以通过网上调查资料对该内容进行整理,已备不时之需. 字符串转义 反斜杠,在python中比较特殊,就是它可以用来构成一些特殊字符,比如"\n"表示换行,"\t"表示制表符. 其中的'\n'已转义为换行符,而'\W'没有发生转义,原因是"\W"在字符串转义中并不对应者特殊字符,没

python初体验-转义字符

除了\n之外,转义字符还有很多,它们的特征就是:反斜杠+想要实现的转义功能首字母. 比如换行\n代表[+newline]:退格\b代表[+backspace]:回车\r代表[+return].大家可以按照这种方法记住转义字符的含义. 原文地址:https://www.cnblogs.com/free-1124/p/11634974.html

python 换行和转义字符

注意是反斜杠 打印输出时想获得换行效果: print  "ab\nc" ab c 在文件操作时想读取到换行效果 必须写成"ab\r\nc" ab c 想真正获得/n普通含义 则需要print "\\n" \n

【Python基础学习篇九】Python字符串

一.字符串的操作 字符串是Python的一种基本类型,字符串的操作包括字符串的格式化.字符串的截取.过滤.合并.查找等操作. 二.字符串的格式化 Python将若干值插入到带有"%"标记的字符串中,从而可以动态的输出字符串. 字符串的格式化语法如下: "% s" % str1 "%s %s" % (str1,str2) 例子: #!/usr/bin/env python # -*- coding=utf-8 -*- #Using GPL v2.7

python琐碎语法

1 python是强类型语言,变量必须声明且初始化,而且变量名称在不同地方可以代表不同类型的变量: 2 C语言中变量名代表了数据的存放位置,而python中变量名只是一个对象的引用,而id(变量)才能给出变量地址,type(变量)才能给出变量类型: 3 以一个下划线开始的标识符如_foo 不能用from module import *语句导入.前边有两个下划线的标识符,如__bar,被用来实现类私有属性.前后均有两个下划线的标识符,如__init__被特殊方法保留; 4 空类型(None)表示该

用python处理html代码的转义与还原

用python处理html代码的转义与还原 转义 escape: import cgi s = cgi.escape("""& < >""") # s = '& < >' 反转义 unescape: #使用标准库 from htmllib import HTMLParser h = HTMLparser.HTMLParser() s = h.unescape('& < >')   # s

[Python学习] 专题三.字符串的基础知识

        在Python中最重要的数据类型包括字符串.列表.元组和字典等.该篇主要讲述Python的字符串基础知识. 一.字符串基础         字符串指一有序的字符序列集合,用单引号.双引号.三重(单双均可)引号引起来.如: s1='www.csdn.net'   s2="www.csdn.net"   s3='''aaabbb''' 其中字符串又包括: 1.转义字符串 像C语言中定义了一些字母前加"\"来表示常见的那些不能显示的ASCII字符,pyth

01 初始python

python.exe -v / python3 -v安装python3时, 会得到一个 IDLE(提示符>>>), 简单, 有用, 包含语法编辑器(颜色可变), 调试工具, python shell, python3在线文档.如同linux一样, 按tab键, 可以出现提示python '' 与 "" 一样 , \ 转义字符 列表简介 没有变量标识符, 下标从 0 开始movies = ["The Holy Gril", "The Lif