python任意编码转utf8或者unicode

# encoding: utf-8
‘‘‘
Created on 2015年2月8日

@author: 张鹏程 [email protected]
@copyright: 版权所有, 尊重劳动成功, 转载与修改请注明作者
‘‘‘
import traceback

import chardet

def mytoutf8(s):
return mytounicode(s).encode(‘utf-8‘)

def mytounicode(s):
    if type(s) == type(u‘‘):
#         print ‘1‘
        return s
    try:
#         print ‘2‘
        s = s.decode(‘utf-8‘)
    except:
        try:
#             print ‘3‘
            s = s.decode(‘gb18030‘)
        except:
            print ‘***Error: decode string({0})‘.format(repr(s))
            print traceback.print_exc()
            s = repr(s)
#     print ‘4‘
    return s

if __name__ == ‘__main__‘:
    # test 中国i love you
    # utf-8
    s = ur‘中国i love you‘
    print repr(s), s
    cc = [‘utf-8‘, ‘gb18030‘, ‘gbk‘]
    fn = [mytounicode, mytoutf8, ]
    for f in fn:
        for c in cc:
#             print ‘=‘ * 80
            print ‘‘‘{0:<20}({1:10}) = {2:<50}, {3}‘‘‘.format(f.__name__, c, repr(f(s.encode(c))), f(s.encode(c)))

时间： 2024-10-09 22:37:17

python任意编码转utf8或者unicode的相关文章

Python中的Unicode编码和UTF-8编码

下午看廖雪峰的Python2.7教程,看到字符串和编码一节,有一点感受,结合崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表示大小写字母,数字和一些符号.主要用来表示现代英语和西欧语言. 所以处理中文就出现问题了,因为中文处理至少需要两个字节,所以中国制定了GB2312. 所以,各国制定了各国的标准.日本制定了Shift_JIS,韩国制定了Euc-kr...那么,乱码就来了. 为了统一,Unicode诞生了.统一码把所有

paip.utf-8，unicode编码的本质输出unicode文件原理 python

#别的语言,java php都是unicode,走十python不一样. #enddef #todo write to unicode encode fileHandle = open ( r"c:\fmtSmpEnRst.txt", 'w',encoding="UTF-16" ) #todox utf8 not decode...now UTF-16是Unicode lines=file2list(f, encode="utf-16") 作者

Python中GBK, UTF-8和Unicode的编码问题

编码问题,一直是使用python2时的一块心病.几乎所有的控制台输入输出.IO操作和HTTP操作都会涉及如下的编码问题: UnicodeDecodeError:‘ascii’codec can’t decodebyte0xc4inposition10:ordinalnotinrange(128) 这究竟是是个什么东西?!有时稀里糊涂地用一坨encode(),decode()之类的函数让程序能跑对了,可是下次遇到非ASCII编码时又悲剧了. 那么Python 2.x中的字符串究竟是个什么呢? 基本

python 字符串编码 str和unicode 区别以及相互转化 decode('utf-8') encode('utf-8')

python 字符串编码 str和unicode 区别以及相互转化 decode('utf-8') encode('utf-8') 原文地址:https://www.cnblogs.com/zhaoyingjie/p/9133020.html

python中的字符串编码问题——2.理解ASCII码、ANSI码、Unicode编码、UTF-8编码

ASCII码:全名是American Standard Code for Information Interchange,ASCII码中,一个英文字母(不分大小写)占一个字节的空间,范围0x00~0x7f,即0-128. ANSI码:ANSI编码是一种对ASCII码的拓展.ANSI编码用0x00~0x7f 范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示其他语言的其他字符.前126个与ASCII码相同,之后的字符全是某个国家语言的所有字符.容量2的16次

PYTHON编码处理-str与Unicode的区别

一篇关于str和Unicode的好文章整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时,读取文件或消息,http参数等等一运行,发现乱码(字符串处理,读写文件,print) 然后,大多数人的做法是,调用encode/decode进行调试,并没有明确思考为何出现乱码所以调试时最常出现的错误错误1 Traceback (most recent call last): File "<stdin>"

更改python字符编码以便使用UTF-8的编码url路径

url编码分两种, 一种是unicode, 另一种是gb2312, 今天遇到的一个网站是要将字符编码按照gb2312来编码,用来得到一个先填写blanks后再返回页面的数据,废话少说,需要做的就是先查看你的python的编码是啥,默认是ascii, ? 1 2 3 import sys print sys.getdefaultencoding() # 'ascii' 直接附代码吧: ? 1 import urllib as com ? 1 2 3 4 5 6 7 8 9 10 11 12 13

python字符编码与解码 unicode，str

字符编码计算机中的字符都是以特定的编码形式存放的,从最早的ascii到后来的Unicode以及UTF-8, 在python中, 字符串str也是是区分编码的,在各种编码的字符串之间,有一座桥梁,就是unicode类型. str, unicode str转到unicode需要解码,即decode:反之,unicode转到str需要编码,即encode: str -- (decode) --> unicode unicode -- (encode)

关于Python文档读取UTF-8编码文件问题

近来接到一个小项目,读取目标文件中每一行url,并逐个请求url,拿到想要的数据. #-*- coding:utf-8 -*- class IpUrlManager(object): def __init__(self): self.newipurls = set() #self.oldipurls = set() def Is_has_ipurl(self): return len(self.newipurls)!=0 def get_ipurl(self): if len(self.newi

猜你喜欢

Date.prototype.format

// 对Date的扩展,将 Date 转化为指定格式的String // 月(M).日(d).小时(h).分(m).秒(s).季度(q) 可以用 1-2 个占位符, // 年(y)可以用 1-4 个占 ...

[Android开发学习] day03

Day03 下拉列表相关一.自动补全组件:Autocompletetextview 自动补全组件 (AutoCompleteTextView) :几个字符开始匹配:默认2个字 <AutoCom ...

简单的几个Boost定时器

boost的asio库里有几个定时的器,老的有 deadline_timer , 还有三个可配合 C++11 的 chrono 使用的 high_resolution_timer . steady_ ...

AD回收站

前言日常IT维护中,难免会有"手滑"的时候,如果在AD域环境中出现失误操作,误将用户账号删除了怎么办?!没关系,微软在Windws server 2008 R2中引进了新功能-A ...

android cmd adb命令安装和删除apk应用和找到包名

转自http://blog.csdn.net/lfyx1357/article/details/7418133 1. 安装Android应用程序 1) 启动Android模拟器 2) adb inst ...

Theano学习笔记（四）——导数

导数使用T.grad计算. 这里使用pp()打印梯度的符号表达式. 第3行输出是打印了经过优化器简化的符号梯度表达式,与第1个输出相比确实简单多了. fill((x** TensorConstant{ ...

[JQ权威指南]第十七天：show()与hide()方法

(1)功能描述在显示大量文本内容时,为了能显示更多的段落内容,有时仅显示一部分的提要,隐藏另一部分的内容. (2)代码 <!DOCTYPE html PUBLIC "-//W3C// ...

Android---6---将数据保存到SD卡

同样是实现上一篇文章中所需要的功能,只不过这次是将数据保存到SD卡中. MainActivity.java package com.example.qqlogin; import java.util. ...

openfire_01_插件开发

开发带jsp.PluginServlet的插件有些插件是单纯的继承Plugin或Handler什么的,但有些是需要jsp页面和Servlet的.下面我们就来开发带jsp和servlet的插件. 在之 ...

PHP 如何显示大数字，防止显示为科学计数法形式

PHP 数字超过一定长度时,会自动转换为科学计数法的形式,如 1.2345678912346E+16: 如何避免转换,让它原样展示呢? 不过,可以用PHP函数 number_format() 来 ...

老鸟谈画图能力对运维人员的重要性

老鸟谈画图能力对运维人员的重要性高级运维一定要会随时根据生成的数据出图老男孩老师当初就是靠这个发展起来的例如:亿图.VISIO.PPT等软件手绘逻辑图必须行给大家一个例子:老男孩11月份web ...

12 个最佳的免费网络监控工具

要让一个多级机构运行良好而且平稳的话,一个非常艰巨重大的任务就是做好网络管理.每个机构都配备专门的人员,即网络分析师,来进行网络管理.他们使用了许多工具来监视网络的运行状况,并查看网络流量的上升和下降 ...

应用r.js来优化你的前端

r.js是requireJS的优化(Optimizer)工具,可以实现前端文件的压缩与合并,在requireJS异步按需加载的基础上进一步提供前端优化,减小前端文件大小.减少对服务器的文件请求.要使用 ...

HDU 5038(Grade-桶排)

Grade Time Limit: 3000/1500 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others) Total Su ...

Android Drawable - Shape Drawable使用详解（附图）

TIPS shape图形 –简单介绍 shape图形 –如何画? shape图形 –参数详细解析 shape图形 –如何用? shape图形 –实际开发应用场景 shape图形简单介绍用xml实现一 ...

NetSuite连续三年获CODIE最佳财务管理解决方案奖

2015年6月15日,基于云的财务/ERP软件行业领先供应商NetSuite宣布NetSuite OneWorld获得了美国软体与资讯产业协会 (SIIA) 授予的 CODiE"最佳财务管理 ...

做站长的经验

我是一个站长,从第一个网站到现在,11年了.不是一个成功的站长,但是一个老站长了.昨天中午,一个模板客户给我发过来一段话,我摘抄在下面: “我现在手里也没有多少资金了,算来算去可能几千块都不到,一年了 ...

Topshelf 支持Mono 扩展Topshelf.Linux

使用Topshelf 5步创建Windows 服务这篇文章大家可以了解到使用Topshelf可以很好的支持Windows服务的开发,但是它和Mono不兼容,Github上有一个扩展https://g ...

2招搞定压力，远离焦虑失眠狂躁

转自作者:foruok 链接:http://www.jianshu.com/p/3f15766ec487 來源:简书压力管理本文以技术管理者为例来讲压力管理,实际上提到的 ABC .暂停.宣泄等 ...

Linux安装和设置Samba服务器

1. 安装安装前先关闭iptables和SELinux. Centos输入以下命令: yum install samba samba-client Ubuntu输入以下命令: apt-get ins ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.