用python解码html实体

采集下来的网页,有时有一些html实体,有库可以直接替换掉

通常用的是HTMLParser库或者lxml库

直接贴代码

#coding=utf-8

test_string=u"环球老虎财经: 交通银行(601328.SH)混合所有制"起底" "

import HTMLParser
print HTMLParser.HTMLParser().unescape(test_string)

import lxml.html
x=lxml.html.fromstring(test_string)
print x.text_content()

注意一点的,传入的字符串都要求unicode字符串

用python解码html实体

时间: 2024-10-29 04:54:02

用python解码html实体的相关文章

python解码编码要点

理解要点:一个标准抽象与具体实现,两个编码一致 编码规范标准如unicode,编码具体实现:如utf8(记住要点,便于理解) 正确输出.显示的内容采用的编码与系统本地编码实际类型要一致 程序文件内或ide声明的字符编码有时与实际编码有区别 python对win本地码一律采用mbcs(程序文件强烈建议统一采用unicode实现) 本地编码字符集可能不包括特定字符 要正确的解码decode的字符串本身编码要与解码指定的编码实际类型要一致 使用要点:三个u 程序中生成中文文件名:u'中文文件名' 文件

Python解码编码问题

一.先说说编解码问题 编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. Eg: 1 2 str1.decode('gb2312')    #将gb2312编码的字符串转换成unicode编码 str2.encode('gb2312')    #将unicode编码的字符串转换成gb2312编码 python2.7 idle GUI界面打印中文会出现乱码,这是idle本身问题:   c

Python解码和编码

decode是解码,encode时编码 在Python2中默认时ASCLL,在Python3中默认时Unicode gbk转向utf-8:先将gbk解码成Unicode,在编码成utf-8. utf-8转向gbk:先将utf-8解码成Unicode,在编码成gbk. Python2代码: 1 #-*- coding:utf-8 -*- 2 3 ''' 4 @auther: Starry 5 @file: py2ende.py 6 @time: 18-1-12 下午9:52 7 ''' 8 9 '

python解码data:image开头的图片地址

比如图片地址是 src="data:image/gif;base64,R0lGODlhMwAxAIAAAAAAAP/// yH5BAAAAAAALAAAAAAzADEAAAK8jI+pBr0PowytzotTtbm/DTqQ6C3hGX ElcraA9jIr66ozVpM3nseUvYP1UEHF0FUUHkNJxhLZfEJNvol06tzwrgd LbXsFZYmSMPnHLB+zNJFbq15+SOf50+6rG7lKOjwV1ibGdhHYRVYVJ9Wn k2HWtLdIWMSH9lf

python 将html实体转回去

参考资料: http://www.360doc.com/content/17/0620/16/44530822_664927373.shtml https://blog.csdn.net/guzhou_diaoke/article/details/8253360 https://blog.csdn.net/longzhiwen888/article/details/46562821 最后的HTMLparser模块改为: """A parser for HTML and XHT

第十章 Python常用标准库使用(必会)

本章涉及标准库: 1.sys 2.os 3.glob 4.math 5.random 6.platform 7.pikle与cPikle 8.subprocess 9.Queue 10.StringIO 11.logging 12.ConfigParser 13.urllib与urllib2 14.json 15.time 16.datetime 10.1 sys 1)sys.argv 命令行参数. argv[0] #代表本身名字 argv[1] #第一个参数 argv[2] #第二个参数 ar

如果Google面试让你用python写一个树的遍历程序

前几天忽然对python很感兴趣,学了几天也感觉它非常的简洁实用.打破了我这么长时间对java C# C 和vb的审美疲劳,让我眼前一亮."就像读英文一样简单"这句话评价python说的很合理. 我对python的好感很大部分是因为听说google很多程序用python,而且在google app engine里面和支持python.如果你去google面试或者笔试,很可能就会考到这个题:用python实现树的遍历. 自己试着写了一下,不过毕竟是菜鸟,有问题请多多指教. 运行效果如下:

<转>Python学习推荐

书籍推荐 基本了解: <<A Byte of Python>> (Python简明教程http://sebug.net/paper/python/) 网上有资源,两小时了解基本 如果有其他语言功底,不需要那么久 入门: <<Python Tutorial>> 官方入门,英文好的可以通读一遍,不过貌似也有中文的 <<Python基础教程>> 我看到的第一本python书,大学图书馆借的,很基础,但感觉不够详细 作简单入门还是可以的 &l

pyDes vs pycrypto

最近公司接口有个需求, 数据传输过程需要加密, 加密的算法中有一项是des加密, 为了满足测试条件, 需要模拟解密及加密过程, 能够将数据还原, 从而校验每个值是否标准. 公司的程序是使用java来实现的, 刚开始完成模拟解码(采用pyDes)的时候, java解码1M的数据需要1.2秒, python解码相同文件需要30秒, 感觉python太慢了. 后来采用pycrypto来对相同数据进行解码, 只需要0.4秒!!! 下面是pyDes的样例代码及运行时间, 加密耗时20秒钟, 解密耗时19秒