09.python汉字转拼音,五笔

python实现将汉字转换成汉语拼音的库_python_脚本之家 - http://www.jb51.net/article/65496.htm

python实现中文转拼音-keyxl-ChinaUnix博客 - http://blog.chinaunix.net/uid-26638338-id-3830276.html

中文拼音五笔转换带声调 - 在线工具 - http://tool.lu/py5bconvert/

pinyin4py 1.0.dev : Python Package Index - https://pypi.python.org/pypi/pinyin4py

汉字编码表 - 下载频道 - CSDN.NET - http://download.csdn.net/download/slowwind9999/291213


#!/usr/bin/python
#coding:utf-8
#2015-11-04 21:23:17.230000
"""
改编自:python实现将汉字转换成汉语拼音的库_python_脚本之家 - http://www.jb51.net/article/65496.htm
从这里下的字典表(文件编码要转成utf8的): 汉字编码表 - 下载频道 - CSDN.NET - http://download.csdn.net/detail/slowwind9999/291213
可以用在线工具验证: 中文拼音五笔转换带声调 - 在线工具 - http://tool.lu/py5bconvert/

如果要新增函数把汉字转换为其他编码,仿照hanzi2pinyin或hanzi2wubi,再增加一个字典项并且在load_word里加载数据就行了;
"""
import sys
reload(sys)
sys.setdefaultencoding(‘utf8‘)


__version__ = ‘0.9‘
__all__ = ["PinYin"]

import os.path


class Hanzi2code(object):
    def __init__(self, dict_file=‘code.txt‘): #code.txt的编码是utf8
        self.word_dict = {}
        self.wubi_dict = {}
        self.dict_file = dict_file
        self.load_word() #qxx 对象实例就加载word


    def load_word(self):
        if not os.path.exists(self.dict_file):
            raise IOError("NotFoundFile")

        with file(self.dict_file) as f_obj:
            codeList = f_obj.readlines()[6:]
            for f_line in codeList:
                try:
                    line = f_line.strip().split()
                    self.word_dict[line[0]] = line[1]
                    self.wubi_dict[line[0]] = line[2]
                except:
                    print ‘err....‘
#                    line = f_line.split()
#                    self.word_dict[line[0]] = line[1]


#    def hanzi2pinyin(self, string=""):
#        result = []
#        if not isinstance(string, unicode):
#            string = string.decode("utf-8")
#        for char in string:
##            key = ‘%X‘ % ord(char)
#            result.append(self.word_dict.get(char.encode(‘utf8‘), char).split()[0].lower())
#        return result


    def hanzi2pinyin_split(self, string="", split=""):
        result = self.hanzi2pinyin(string=string)
        if split == "":
            return result
        else:
            return split.join(result)
    def hanzi2code(self,string=‘‘,dic={}):
        result = []
        if not isinstance(string, unicode):
            string = string.decode("utf-8")
        for char in string:
#            key = ‘%X‘ % ord(char)
            result.append(dic.get(char.encode(‘utf8‘), char).split()[0].lower())
        return result

    def hanzi2wubi(self,string=‘‘):
        return self.hanzi2code(string,self.wubi_dict)

    def hanzi2pinyin(self,string=‘‘):
        return self.hanzi2code(string,self.word_dict)

if __name__ == "__main__":
    test = Hanzi2code()
    string = "钓鱼岛是中国的"
    print "in: %s" % string
    print "out: %s" % str(test.hanzi2pinyin(string=string))
    print "out: %s" % test.hanzi2pinyin_split(string=string, split="-")

    print "out: %s" % str(test.hanzi2wubi(string=string))

来自为知笔记(Wiz)

时间： 2024-10-11 12:36:50

09.python汉字转拼音,五笔的相关文章

Python 汉字转拼音

本文参考: Python中文转拼音代码(支持全拼和首字母缩写) 中文中不可以有"()" # -*- coding: utf-8 -*- __version__ = '0.9' __all__ = ["PinYin"] import os.path class PinYin(object): def __init__(self): self.word_dict = {} def load_word(self, dict_file): self.dict_file =

Python 汉字转拼音库 pypinyin

一.初衷: 一些开源软件的配置文件中识别区分的部分用英文,那么我们在批量生成配置文件的时候,可以从CMDB导入汉字(idc_name), 然后将它转换成拼音,再或者拼接上IP地址,以便更准确的识别.例如:Smokeping的Targets配置文件,如下: +telcom menu = 中国电信 title = telcom ++yunfuxinxingshuangxian-01-61 menu = 云浮新兴双线-01 title = 61.11.11.11 host = 61.11.11.11

python 汉字与拼音的转换--pypinyin

1. 安装pypinyin module $ pip install pypinyin 2. 使用方法 >>> from pypinyin import pinyin, lazy_pinyin >>> import pypinyin >>> pinyin(u'中心') [[u'zh\u014dng'], [u'x\u012bn']] # 启用多音字模式 >>> pinyin(u'中心', heteronym=True) [[u'zh\

Python汉字转换成拼音

最近在使用Python做项目时,需要将汉字转化成对应的拼音.在Github上找到了一个现成的程序. Python汉字转拼音使用实例如下: from pinyin import PinYin test = PinYin() test.load_word() print test.hanzi2pinyin(string='钓鱼岛是中国的') print test.hanzi2pinyin_split(string='钓鱼岛是中国的', split="-") 输出: ['diao', 'y

java js 汉字对应拼音码，五笔码转换

最近做项目的时候,要求将汉字名称自动生成拼音码和五笔码,用于搜索,排列分组等例如: 在记录中生成拼音码和五笔码保存,可由于后续查询搜索下图中就可根据拼音码或者五笔码输入到名称里查询信息——具体实现就不解释了,这里重点说明码转换问题还有类似这种既可以进行字母(拼音码)排序,也可以在输入框内查询好了闲话少说直接给出前端js 和后台工具类——这些都是从网上查的,自己在这汇总记录一下,原谅我当时没有记录是哪几位大神的原创. js代码——创建一个js 具体内容复制即可 // 汉字拼音首字母列表本

.net 生成拼音码与五笔码

首先加入配置文件: <?xml version="1.0" encoding="utf-8" ?> <CodeConfig> <SpellCode> <A>阿啊锕嗄厑哎哀唉埃挨溾锿鎄啀捱皑凒溰嘊敳皚癌毐昹嗳矮蔼躷噯藹譪霭靄艾伌爱砹硋隘嗌塧嫒愛碍暧瑷僾壒嬡懓薆曖璦鴱皧瞹馤鑀鱫安侒峖桉氨庵谙萻腤鹌蓭誝鞌鞍盦馣鮟盫韽啽雸垵俺唵埯铵隌揞罯銨犴岸按荌案胺豻堓婩暗貋儑錌黯肮岇昂昻枊盎醠凹坳垇柪軪爊敖厫隞嗷嗸嶅廒滶獒獓遨熬璈蔜翱聱螯

定制小狼豪(五笔+拼音)输入法

小狼毫输入法是一个给程序员折腾的输入法,可以自由定制.rime是一个输入法框架,小狼毫是在windows平台上的名称. 相关教程和下载:https://jianguoyun.com/p/DRylhFMQv_3jBRjxhwk 关于rime五笔的百度贴吧:http://tieba.baidu.com/f?kw=rime&ie=utf-8 我安装了0.9.30版本,只选用了五笔+拼音的方案,安装之后可以在输入法栏中看到小狼毫及小狼毫TSF,我百度后选了TSF,有几个不习惯的地方,自己配置来修改. 1

C/S权限系统得到拼音和五笔的自定义函数（二）

得到五笔: CREATE FUNCTION [dbo].[fun_getWB](@Str VARCHAR(2000)) RETURNS VARCHAR(2000) AS BEGIN DECLARE @t table (id int identity, col varchar(6000)) INSERT INTO @t SELECT 'A鞴鞲鞣鞫鞯鞔鞒鞑鞅靼銎跫綦翳蛩颟鹳鹋鸫鸢慝觐觋贳瓯戡檠迓甙忒弋撖摁廾蘼蘖蘩蘅蘧藿藜藁藓薰薷薹薅薜薮蕹薏薇薨薤蕻蕲蕃瞢蕺蕞蕤蕨蕈蕙蓼蓿蔻蕖蔺蔟蔹蓰蔸甍蔌蓣蓥蒗蒴蒹蒡

QQ五笔词库转拼音词库小工具

参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错(设置方法见上述参考文章): 关键代码: void Button1Click(object sender, EventArgs e) { if(openFileDialog1.ShowDialog() == DialogResult.OK) { var lines = File.ReadAllLines(op