python处理中文

来源：http://www.djangochina.cn/forum.php?mod=viewthread&tid=118977&extra=page%3D1

字符串在Python内部的表示是unicode编码，因此，在做编码转换时，通常需要以unicode作为中间编码，即先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码。

decode的作用是将其他编码的字符串转换成unicode编码，如str1.decode(‘gb2312‘)，表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串，如str2.encode(‘gb2312‘)，表示将unicode编码的字符串str2转换成gb2312编码。

代码中字符串的默认编码与代码文件本身的编码一致。

如：s=‘中文‘

如果是在utf8的文件中，该字符串就是utf8编码，如果是在gb2312的文件中，则其编码为gb2312。这种情况下，要进行编码转换，都需要先用decode方法将其转换成unicode编码，再使用encode方法将其转换成其他编码。

如果字符串是这样定义：s=u‘中文‘

则该字符串的编码就被指定为unicode了，即python的内部编码，而与代码文件本身的编码无关。因此，对于这种情况做编码转换，只需要直接使用encode方法将其转换成指定编码即可。

以日期为例：

#raw_date is a gbk-coding string
def parse_date(raw_date):
entry_date = raw_date.decode("gbk")
month = int(entry_date[0])
#unicode 对中文的长度是1，如果6月2日那么长度就是4，如果6月25日，长度就是5
if len(entry_date) == 5:
day = 10 * int(entry_date[2]) + int(entry_date[3])
else:
day = int(entry_date[2])
return 2013, month, day

复制代码

时间： 2025-01-01 23:51:10

python处理中文的相关文章

Python读取中文txt文件错误：UnicodeEncodeError: 'gbk' codec can't encode character

1 with open(file,'r') as f: 2 line=f.readline() 3 i=1 4 while line: 5 line=line.decode('utf-8') 6 print str(i)+": "+line7 line=f.readline() 8 i=i+1 用以上代码读取一个包含中文的txt文件时,在正确地读取并打印了六百多行之后,print str(i)+": "+line这一行报错: UnicodeEncodeError:

Python中中文路径处理问题的研究

a = '你' 为 str 对象 a = u'你' 为 unicode 对象 1. >>> print 'u' + '你' >>> u浣输出乱码 2. >>> print 'u' + u'你' >>> u你正常 3. >>> print 'u你' >>> u浣输出乱码 4. >>> print 'u你' + 'u' >>> u浣爑输出乱码 5. >

Sublime Text 2 运行 Python 脚本中文路径解决方法

在 SublimeText 中直接运行 Python 脚本,出现以下报错提示: Running python -u C:\Documents and Settings\Administrator\桌面\furl.py Traceback (most recent call last): File ".\sublime_plugin.py", line 340, in run_ return self.run(**args) File ".\exec.py", lin

{转}Python IDLE中文乱码

http://hi.baidu.com/yobin/item/166e3a46537781d3c1a59257 乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了. 解决方法:在控制台打印的地方用一个转码就ok了,打印的时候这么写:print myname.decode('UTF-8').encode('GBK') 比较通用的方法应该是:import

用python做中文自然语言预处理

这篇博客根据中文自然语言预处理的步骤分成几个板块.以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例: 一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt)3.保留:名词,名词短语(两者为评论描述主题) 形容词,动词,动词短语(对主题的描述)以及其他可能有实意的词去除:副词,标点,拟声词等无实意词包括

python 读取中文CSV 'gbk' codec can't decode bytes in position 2-3：illegal multibyte sequence

读取中文的文档如Excel,CSV文件,需要中文编码如gbk 解码才能转Unicode:然而数据混合类型,读CSV文件就会出错,经管Excel正常. UnicodeDecodeError :'gbk' codec can't decode bytes in position 2-3:illegal multibyte sequence意思是:将一个字符串,通过gbk的方式,去解码,想要获得Unicode字符串,结果出错了解决方法:处理的字符的确是gb2312,但是其中夹杂的部分特殊字符,是

Python解决中文乱码问题

在Python中内部所有编码都是Unicode,Unicode属于中转码,一般来说,是先把乱码转化为中转码,再转化为我们需要的编码,转换过程为decode -> unicode -> encode. #coding:utf-8 #-*- coding:utf-8 -*- import sys print sys.getdefaultencoding() print '中国' f = open('Hello.txt') data = f.read() f.close() print data.

python MySQLdb中文乱码

Python操作MySQL需要安装Python-MySQL可以从网上搜索一下,和一般的Python包一样安装安装好之后,模块名字叫做MySQLdb ,在Window和Linux环境下都可以使用,试验了一下挺好用,不过又发现了烦人的乱麻问题,最后用了几个办法,解决了! 我用了下面几个措施,保证MySQL的输出没有乱麻: 1 Python文件设置编码 utf-8 (文件前面加上 #encoding=utf-8) 2 MySQL数据库charset=utf-8 3 Python连

【随笔记录】python 处理中文时出现的错误'ascii' codec can't decode byte 0xe9 in position 0: ordinal not in range(128)" 解决方法

python xml处理中文时出现的错误,记录一下,以免忘记 "UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 0: ordinal not in range(128)" 解决办法,在该python文件的前面加上如下几句,问题得到解决. import sys default_encoding = 'utf-8' if sys.getdefaultencoding() != default_enco

python读取中文文件编码问题

python 读取中文文件后,作为参数使用,经常会遇到乱码或者报错asii错误等. 我们需要对中文进行decode('gbk') 如我有一个data.txt文件有如下内容: 百度谷歌现在想读取文件中内容构建查询语句代码如下: f=open('data.txt','r') for i in f.readlines(): data_line=i.strip() data=data_line.decode("gbk") print "this is %s"%data

猜你喜欢

总结工作中常用到的linux命令大全_经典

常用解压命令 tar.bz2 命令: tar -jxvf *.tar.bz2 tar.z 命令: tar -zxvf *.tar.z tar.gz 命令: tar -Zxvf *.tar ...

jQuery EasyUI, datagrid, treegrid formatter 参数比较 row index

如题: datagrid中,见官方文档: formatter function The cell formatter function, take three parameter:value: the ...

已知一个数组，将所有元素乘二存储到原数组

/** * */package Student_System;import java.util.*;/**Homework11 * *ArrayDemo05 * 已知一个数组,将所有元素乘二存储到原数 ...

职场0-1-默默的抹掉泪水，偷偷的成长

话说项目到了开发的阶段了,M带领着Y公司的开发人员过来了,Y公司开发人员ESSEN说最好找间房子进行开发,免得打扰到公司其他人. 于是M就向进行商务协调的H反应情况,H说公司6楼另外还有间办公室,问人 ...

云计算中8项核心技术

From:http://www.iccsz.com/Site/CN/News/2015/01/15/20150115024857824400.htm 全面解读云计算中8项核心技术讯石光通讯网发 ...

C语言写扫雷小游戏2

这是下午写的,这次的修改增加了鼠标的事件,需要的是windows的消息机制,WinAPI函数,以下是新添加的定义 struct { int num;//格子当前状态,1表示有雷,0表示无雷或已经显示数 ...

C++入门经典-例3.23-使用嵌套循环输出乘法口诀表

1:代码如下: // 3.23.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iomanip> #incl ...

【WPF学习笔记】之点登录按钮时判断用户名密码进行登录：动画系列之（二）

...... 承接动画系列之(一)的代码: 再添加登录按钮代码进行登录,验证用户名和密码在数据库是否正确. 直接上代码: using System; using System.Collections. ...

Ubuntu 14 安装 .Net Core

.Net Core的安装包的分发地址如下: https://apt-mo.trafficmanager.net/repos/dotnet-release/pool/main/d/ 方法一: 可以分别手 ...

Qt开发程序在Windows 10应用需要管理员运行的解决思路

Qt开发程序在Windows 10应用需要管理员运行的解决思路过了很长的时间没有发布博客了,但是我依然努力地开发Qt程序.目前呢,我发现开发Qt程序在Windows 10上有一个怪现象--有些程序右 ...

一个正整数N，不用sqrt求开方数

#include<stdio.h> int main() { int n; // 正整数n int i; // for循环 int myR = 1; // 保证myR^2 <= n ...

jQuery03

<!DOCTYPE HTML> <html> <head> <meta http-equiv="Content-Type" content ...

[转]STL transform算法中使用toupper函数

原文转自 http://blog.csdn.net/justin12zhu/article/details/5649236 今天需要实现一个把小写字母转换为大写字母的函数,由于传入的参数是STL中的s ...

BZOJ 3391: [Usaco2004 Dec]Tree Cutting网络破坏( dfs )

因为是棵树 , 所以直接 dfs 就好了... ---------------------------------------------------------------------------- ...

做dede网站知识点总结（捷斯网站）

网站标题: {dede:global.cfg_webname/} 模板路径(引用js和css时候的路径): {dede:global.cfg_templets_skin/} 首页导航栏标签: < ...

Linux用户和用户组以及相关命令（上）

/etc/passwd./etc/group./etc/shadow和/etc/gshadow介绍: 1./etc/passwd:该文件主要是存放用户信息,一行记录一个用户. [[email prot ...

完美串（DP）

传送门中文题. 可以想到当只有一个字符那么最少要添加1个,两个连续不相等的字符不需要添加. 可以设dp[i][j]代表从i到j最少需要添加几个. 分为两种情况:当 s[i] == s[j] 的时候, ...

Centos6.5 配置NTP服务器

配置NTP-server 环境: [[email protected] ~]# cat/etc/redhat-release CentOS release 6.5 (Final) [[email p ...

poj 3320 技巧/尺取法 map标记

Description Jessica's a very lovely girl wooed by lots of boys. Recently she has a problem. The fina ...

揭开Socket编程的面纱（留着自己慢慢看）

对TCP/IP.UDP.Socket编程这些词你不会很陌生吧?随着网络技术的发展,这些词充斥着我们的耳朵.那么我想问: 1. 什么是TCP/IP.UDP?2. Socket在哪里呢?3. Socket ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 11 q. 0.024 s.