python繁体中文到简体中文的转换

处理中文字符串遇到了繁体和简体中文的转换,python版:

1、下载zh_wiki.py及langconv

zh_wiki.py:https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py

langconv.py:https://github.com/skydark/nstools/blob/master/zhtools/langconv.py

2、# -*- coding:utf-8 -*-

from langconv import *

# 转换繁体到简体
line = Converter(‘zh-hans‘).convert(line.decode(‘utf-8‘))
line = line.encode(‘utf-8‘)

# 转换简体到繁体
line = Converter(‘zh-hant‘).convert(line.decode(‘utf-8‘))
line = line.encode(‘utf-8‘)

备注:只需从网上下载langconv.py和zh_wiki.py,放在python代码所在目录即可。

时间: 2024-10-29 08:05:26

python繁体中文到简体中文的转换的相关文章

python实现中文字符繁体和简体中文转换-乾颐堂

需求:把中文字符串进行繁体和简体中文的转换: 思路:引入简繁体处理库,有兴趣的同学可以研究一下内部实现,都是python写的 1.下载zh_wiki.py及langconv zh_wiki.py:https://github.com/skydark/nstools/blob/master/zhtools/zh_wiki.py langconv.py:https://github.com/skydark/nstools/blob/master/zhtools/langconv.py 下载langc

UTF-8/UNICODE/简体中文/繁体中文之间的转换

简介 这几天一直在研究中文的简体和繁体之间的转换问题,网上查了一下资料,在此进行整理和备份. 繁体中文有GBK码和BIG5码两种编码,简体中文一般使用的是GB2312编码. 这些编码之间的转换基本都是使用下列3个函数:LCMapString.WideCharToMultiByte和MultiByteToWideChar,其中还会牵涉到UNICODE码和UTF-8码这两种编码. GB2312编码与GBK编码可以直接使用LCMapString转换,GB2312编码/GBK编码与BIG5编码则无法直接

java获取系统语言(区分简体中文和繁体中文)

之前做android应用时遇到过一个问题,就是根据语言的不同而显示不同的内容 网上很多代码都是错误的,起码无法区分简体和繁体,这里给出一种方法 不涉及android任何知识,所以就归类到java这边了 [java] Locale locale = Locale.getDefault(); System.out.println(locale.getLanguage()); System.out.println(locale.getCountry()); 这里我们关注两个方法 public Stri

Win8.1 MSDN各版本下载(64位/32位,简体中文,繁体中文,英文),X86&X64,EN,CHS,CHT

英文64位ed2k://|file|en_windows_8_1_x64_dvd_2707217.iso|3899295744|8E604054013D21209B851E41DC19F6F5|/ 英文32位ed2k://|file|en_windows_8_1_x86_dvd_2707392.iso|2915131392|CC72E0D238F94071A5104EAF8F0CEEC3|/ 简体中文64位ed2k://|file|cn_windows_8_1_x64_dvd_2707237.i

C#利用微软自带库进行中文繁体和简体之间的转换的代码

做工程之余,将做工程过程比较重要的代码备份一次,如下资料是关于C#利用微软自带库进行中文繁体和简体之间的转换的代码,应该是对码农有所帮助. protected void Button1_Click(object sender, EventArgs e) { if (string.IsNullOrEmpty(txt_value.Text)) { return; } else { string value = txt_value.Text.Trim(); string newValue = Stri

python中的字符编码和转换

1.字符编码初识 最初的字符集是ASCII,ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 255 个符号. 随着计算机技术的普及和发展,255个符号显然不满足全世界国家对符号数量的需求,因此各国开始发展自己的一套编码.那么针对中文: 为了

Python中中文路径处理问题的研究

a = '你' 为 str 对象 a = u'你' 为 unicode 对象 1. >>> print 'u'  + '你' >>> u浣 输出乱码 2. >>> print 'u'  + u'你' >>> u你 正常 3. >>> print 'u你' >>> u浣 输出乱码 4. >>> print 'u你' + 'u' >>> u浣爑 输出乱码 5. >

python输出中文——如何在Windows控制台打印不乱码

文章介绍 用Python在控制台打印中文如何不会乱码,一直是困扰很多Pythoner的问题,甚至很多Python老手也经常犯难.原因就在于从一般网页.数据库或文本外来数据源上抓取过来的内容,需要经过正确的编解码才可以正常输出,而Python的编解码机制比较复杂,没有深入思考的话经常遇到调试错误.这篇文章介绍了最常见的几种输出中文的情况,编译平台为Windows控制台,Python版本为2.7.9 文章中一些内容参考了点击打开链接 感谢原作者分享. 预备知识 str和unicode 首先需要弄清楚

Python常见字符编码间的转换

学习Python,字符编码间的转换是绕不过去的一只拦路虎,不把编码彻底搞明白,总有一天它会猝不及防坑你一把. Python2.x和Python3.x在字符编码的设置上也有很大区别(Python3未来将是主流,所以Python3为主),今天我们就来一起学习下. 上一篇文章里我已经简述了Python的常见编码了,这里就不再赘述了,还不清楚的小伙伴可以先去看下:     http://www.cnblogs.com/schut/p/8406897.html 一.Unicode 和 UTF-8的纠葛 U