网页内容以&#开头以;结尾的编码(四)转汉字--python

在抓取下来的网页源码显示的是如下的内容,而不是可读性的汉字

(当然,如果是在Web页面上展示,则实体会自动被浏览器转为原字符,正常显示)

经查资料后得知, 在网页中以四开头的是HTML实体,具体什么是HTML实体,请百度:http://baike.baidu.com/view/4757776.htm

如何把汉字转换成HTML实体呢?

其实很简单,汉字的HTML实体由三部分组成,”&#+ASCII+;“ 即可。

Python中提供了一个模块:HTMLParser,里面有很多好用的方法,

我们可以使用:dir(HTMLParser.HTMLParser)查看该模块下的HTMLParser类属性,其中有一个方法:unescape(),

再使用:help(HTMLParser.HTMLParser.unescape),可以看到该方法的说明信息,但是几乎没什么用。其实该方法就是将HTML实体(带有&#符号打头的)进行解码,转换为原有字符。下面是简单实例:

import HTMLParser
def decodeHtml(input):    h = HTMLParser.HTMLParser()    s = h.unescape(input)    return s

c = (这里是要转码的以&#开头的内容, 如需测试请自行粘贴)

print decodeHtml(c)

网页内容以&#开头以;结尾的编码(四)转汉字--python

原文地址:https://www.cnblogs.com/fanjp666888/p/9342521.html

时间: 2024-07-30 23:21:20

网页内容以&#开头以;结尾的编码(四)转汉字--python的相关文章

原生jS之-去掉字符串开头和结尾的空字符

怎么解决这个问题?? 思路就是我们利用正则匹配到所谓的空格,然后替换为空字符,我们要用到的是str的replace API 代码如下: 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta charset="UTF-8"> 5 <title>Document</title> 6 </head> 7 <body> 8 &

轻松python文本专题-字符串开头或者结尾匹配

场景: 字符串开头或者结尾匹配,一般是使用在匹配文件类型或者url 一般使用startwith或者endwith >>> a='http://blog.csdn.net/raylee2007' >>> a.startswith ('http') True 注意:这两个方法里面的参数可以是str,也可以是元组,但是不可以是列表和字典 >>> a='http://blog.csdn.net/raylee2007' >>> a.starts

判断字符串的开头和结尾

package com.text_1; public class lianxi1111 { public static void main(String[] args) { // TODO 自动生成的方法存根 //代码实现判断字符串的开头和结尾 String str="jnjcubhksbwiowhfkalohafwac"; if (str.indexOf("jnj")==0) { System.out.println("jnj"+"是

perl6正则 3: 行开头与结尾与多行开头,多行结尾

^ $ 匹配一行的开头或结尾, 可以用 ^ 或 $. > so 'abcde' ~~ /e$/ True > so 'abcdef' ~~ /e$/ False > so 'abcdef' ~~ /^a/ True > so 'abcdef' ~~ /^b/ False > 对于多行的情况, 可以用 ^^ 或 $$. > so "Abcd\nBdfsadf" ~~ /^^B/ True > so "Abcd\nBdfsadf"

13、如何拆分含有多种分隔符的字符串 14、如何判断字符串a是否以字符串b开头或结尾 15、如何调整字符串中文本的格式 16、如何将多个小字符串拼接成一个大的字符串

13.如何拆分含有多种分隔符的字符串 import re s = "23:41:2314\1234#sdf\23;" print(re.split(r'[#:\;]+',s))  14.如何判断字符串a是否以字符串b开头或结尾 import os,stat #找到当前目录下的文件名称,返回list ret = os.listdir('.') print(ret) for x in ret: #endswith传参类型是tuple if x.endswith(('.py','.html'

【trim()】去掉字符串开头和结尾的空格,防止不必要的空格导致的错误。

去掉字符串开头和结尾的空格,防止不必要的空格导致的错误. public static void main(String arg[]){ String a=" abc"; String b="abc"; System.out.println(b.equals(a)); a=a.trim();//去掉字符串中的空格 System.out.println(a.equals(b)); }

Python-字符串开头或结尾匹配

startswith() 和 endswith() 方法提供了一个非常方便的方式去做字符串开头和结尾的检查. 1.查看指定目录下的所有文件名 >>> import os >>> filenames = os.listdir('I:\PythonTest') >>> filenames ['111.csv', '111.xlsx', '111.xml', '123.txt', '123.xlsx', '123123.xml', '123123.xml.b

&amp;#x开头的是什么编码呢。浏览器可以解释它。如&amp;#20013;&amp;#22269;等同与中文&quot;中国&quot;?

形如—— &#dddd; &#xhhhh; &#name; ——的一串字符是 HTML.XML 等 SGML 类语言的转义序列(escape sequence).它们不是「编码」. 以 HTML 为例,这三种转义序列都称作 character reference: 前两种是 numeric character reference(NCR),数字取值为目标字符的 Unicode code point:以「&#」开头的后接十进制数字,以「&#x」开头的后接十六进制数字.

Python: 字符串开头或结尾匹配str.startswith(),str.endswith()

问题 需要通过指定的文本模式去检查字符串的开头或者结尾,比如文件名后缀,URLScheme 等等. 解决方案 1.检查字符串开头或结尾的一个简单方法是使用str.startswith() 或者是str.endswith() 方法.比如: eg1:>>> filename = 'spam.txt'>>> filename.endswith('.txt')True>>> filename.startswith('file:')False>>&g