python 处理html文本的中文字符gbk转utf-8

#中文字符gbk转utf-8
    def gbk2utf8(self,raw):
        rs=raw.encode(‘raw_unicode_escape‘) #转为机器识别字符串
        s=repr(rs)
        ss=unicode(eval(s),"gbk")     #gbk解码为unicode
        utf8_str=ss.encode(‘utf-8‘)    #unicode编码为utf-8
        return utf8_str

  

时间: 2024-11-05 19:28:33

python 处理html文本的中文字符gbk转utf-8的相关文章

python数据清洗cvs里面带中文字符

数据清洗,使用python数据清洗cvs里面带中文字符,意图是用字典对应中文字符,即key值是中文字符,value值是index,自增即可:利用字典数据结构没有重复key值的特性,把中文字符映射到了数值index. python代码如下:(data数据时csv格式) import csv dict2 = {}      #Cdict4 = {}      #Edict25 = {}     #zdict26 = {}     #AAdict27 = {}     #ABdict37 = {}  

三张图告诉你python爬虫时转换\u中文字符的“坑”

一劳永逸的方法: s=s.replace("'",'"') s=s.replace("\n",'') s1="u'"+s+"'" try: ss=eval(s1) except: return 将'转换为",将\n去掉.利用eval转化即可.

python中文字符乱码(GB2312,GBK,GB18030相关的问题)

转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬家工具BlogMover,其包含几个python脚本,其中有个是163博客搬家用的163-blog-mover.py,实现抓取网易博客的日志,然后导出xml. 但是其工具现在(2011-12-10)已经失效了.经过自己一点修改后,可以实现获得文章标题了. 用法还是原先的用法:  163-blog-m

【已解决】python中文字符乱码(GB2312,GBK,GB18030相关的问题)

http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ [背景] 在玩wordpress的一个博客搬家工具BlogMover,其包含几个python脚本,其中有个是163博客搬家用的163-blog-mover.py,实现抓取网易博客的日志,然后导出xml. 但是其工具现在(2011-12-10)已经失效了.经过自己一点修改后,可以实现获得文章标题了. 用法还是原先的用法:  163-blog-mover.py

python 读取中文CSV 'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence

读取中文的文档如Excel,CSV文件,需要中文编码 如gbk 解码才能转Unicode:然而 数据混合类型,读CSV文件就会出错,经管Excel正常. UnicodeDecodeError :'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence意思是:将一个字符串,通过gbk的方式,去解码,想要获得Unicode字符串,结果出错了 解决方法:处理的字符的确是gb2312,但是其中夹杂的部分特殊字符,是

Notepad++正则表达式查找替换文本中文字符

测试需求 测试工具中xml配置文件中注释字段包含中文字符,在Win10系统下使用工具中偶尔会出现中文乱码导致配置文件失效.解决方法将配置文件中的中文注释换成英文注释或者直接替换删除.如何将配置文件中的中文字符查找删除? 操作步骤 在Notepad文本工具中使用正则表达式匹配中文字符并替换.当然你可以采用Python写个小工具也无不可.Notepad中使用正则表达式[^\x00-\xff]匹配中文字符. 1.构造包含中文文本用于测试,包含中文字符.普通字符和特殊字符. 2.中文字符正则表达式匹配:

python 连接数据库-设置oracle ,mysql 中文字符问题

1 import cx_Oracle 2 import MySQLdb 3 4 def conn_oracle(): 5 cnn = cx_Oracle.connect('用户名','密码','ip:端口号/数据库') //用户名,密码,ip端口号数据库 6 cur = cnn.cursor() 7 return cnn,cur 8 9 10 def close_oracle(cnn,cur): 11 cur.close() 12 cnn.close() 13 14 def conn_mysql

Python中文字符问题

Python中对中文字符的操作时常会使程序出现乱码 不全然管用的处理方法: 读取数据时使用encode编码为Bytes以保护数据 使用时转化为string并使用decode解码 如: title = title_origin[0].encode('utf-8') title = str(title.decode('utf-8'))

处理python字符串中的中文字符

# -*- coding:utf-8 -*- import sys,os txta = open('a.txt','r') str = '' for line in txta: str += line.strip().decode('utf-8') txta.close() for word in str: print word.encode('utf-8') 直接输出,是会乱码的,得先解码,再编码. 参考网址:http://blog.csdn.net/devil_2009/article/de