用python解码html实体

采集下来的网页，有时有一些html实体，有库可以直接替换掉

通常用的是HTMLParser库或者lxml库

直接贴代码

#coding=utf-8

test_string=u"环球老虎财经: 交通银行（601328.SH）混合所有制"起底" "

import HTMLParser
print HTMLParser.HTMLParser().unescape(test_string)

import lxml.html
x=lxml.html.fromstring(test_string)
print x.text_content()

注意一点的，传入的字符串都要求unicode字符串

用python解码html实体

时间： 2025-01-03 08:18:22

用python解码html实体的相关文章

python解码编码要点

理解要点:一个标准抽象与具体实现,两个编码一致编码规范标准如unicode,编码具体实现:如utf8(记住要点,便于理解) 正确输出.显示的内容采用的编码与系统本地编码实际类型要一致程序文件内或ide声明的字符编码有时与实际编码有区别 python对win本地码一律采用mbcs(程序文件强烈建议统一采用unicode实现) 本地编码字符集可能不包括特定字符要正确的解码decode的字符串本身编码要与解码指定的编码实际类型要一致使用要点:三个u 程序中生成中文文件名:u'中文文件名' 文件

Python解码编码问题

一.先说说编解码问题编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. Eg: 1 2 str1.decode('gb2312') #将gb2312编码的字符串转换成unicode编码 str2.encode('gb2312') #将unicode编码的字符串转换成gb2312编码 python2.7 idle GUI界面打印中文会出现乱码,这是idle本身问题: c

Python解码和编码

decode是解码,encode时编码在Python2中默认时ASCLL,在Python3中默认时Unicode gbk转向utf-8:先将gbk解码成Unicode,在编码成utf-8. utf-8转向gbk:先将utf-8解码成Unicode,在编码成gbk. Python2代码: 1 #-*- coding:utf-8 -*- 2 3 ''' 4 @auther: Starry 5 @file: py2ende.py 6 @time: 18-1-12 下午9:52 7 ''' 8 9 '

python解码data:image开头的图片地址

比如图片地址是 src="data:image/gif;base64,R0lGODlhMwAxAIAAAAAAAP/// yH5BAAAAAAALAAAAAAzADEAAAK8jI+pBr0PowytzotTtbm/DTqQ6C3hGX ElcraA9jIr66ozVpM3nseUvYP1UEHF0FUUHkNJxhLZfEJNvol06tzwrgd LbXsFZYmSMPnHLB+zNJFbq15+SOf50+6rG7lKOjwV1ibGdhHYRVYVJ9Wn k2HWtLdIWMSH9lf

python 将html实体转回去

参考资料: http://www.360doc.com/content/17/0620/16/44530822_664927373.shtml https://blog.csdn.net/guzhou_diaoke/article/details/8253360 https://blog.csdn.net/longzhiwen888/article/details/46562821 最后的HTMLparser模块改为: """A parser for HTML and XHT

第十章 Python常用标准库使用（必会）

本章涉及标准库: 1.sys 2.os 3.glob 4.math 5.random 6.platform 7.pikle与cPikle 8.subprocess 9.Queue 10.StringIO 11.logging 12.ConfigParser 13.urllib与urllib2 14.json 15.time 16.datetime 10.1 sys 1)sys.argv 命令行参数. argv[0] #代表本身名字 argv[1] #第一个参数 argv[2] #第二个参数 ar

如果Google面试让你用python写一个树的遍历程序

前几天忽然对python很感兴趣,学了几天也感觉它非常的简洁实用.打破了我这么长时间对java C# C 和vb的审美疲劳,让我眼前一亮."就像读英文一样简单"这句话评价python说的很合理. 我对python的好感很大部分是因为听说google很多程序用python,而且在google app engine里面和支持python.如果你去google面试或者笔试,很可能就会考到这个题:用python实现树的遍历. 自己试着写了一下,不过毕竟是菜鸟,有问题请多多指教. 运行效果如下:

<转>Python学习推荐

书籍推荐基本了解: <<A Byte of Python>> (Python简明教程http://sebug.net/paper/python/) 网上有资源,两小时了解基本如果有其他语言功底,不需要那么久入门: <<Python Tutorial>> 官方入门,英文好的可以通读一遍,不过貌似也有中文的 <<Python基础教程>> 我看到的第一本python书,大学图书馆借的,很基础,但感觉不够详细作简单入门还是可以的 &l

pyDes vs pycrypto

最近公司接口有个需求, 数据传输过程需要加密, 加密的算法中有一项是des加密, 为了满足测试条件, 需要模拟解密及加密过程, 能够将数据还原, 从而校验每个值是否标准. 公司的程序是使用java来实现的, 刚开始完成模拟解码(采用pyDes)的时候, java解码1M的数据需要1.2秒, python解码相同文件需要30秒, 感觉python太慢了. 后来采用pycrypto来对相同数据进行解码, 只需要0.4秒!!! 下面是pyDes的样例代码及运行时间, 加密耗时20秒钟, 解密耗时19秒