主要是pypinyin 包,官网: http://pypinyin.readthedocs.io/zh_CN/master/index.html
jieba包,主要是用来分词的,我之前的博文有介绍:http://www.cnblogs.com/dahu-daqing/p/7491343.html
官网: https://github.com/fxsjy/jieba/blob/master/README.md
就不细讲了,软件包都是中国人写的,官网也都是中文,看上去无压力。
放一下我的练习实例:
#!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 17-12-12 下午4:09 # Author : dahu # File : t1pinyin.py # Software: PyCharm from pypinyin import lazy_pinyin,pinyin from pypinyin.style import register import sys reload(sys) sys.setdefaultencoding(‘utf-8‘) @register(‘kiss‘) def kiss(pinyin, **kwargs): return ‘>{0}<‘.format(pinyin) print ‘自定义格式\t\t‘,lazy_pinyin(u‘么么‘,style=‘kiss‘) print ‘字符前加u\t\t‘,lazy_pinyin(u‘呵呵‘) a=‘我的‘ print ‘变量的unicode形式\t\t‘,lazy_pinyin(unicode(a)) print ‘默认的输出格式\t\t‘,pinyin(unicode(a))
结果:
/usr/bin/python2.7 /home/dahu/myfile/my_git/core-scrapy-learning/weiboresou/weiboresou/t1pinyin.py 自定义格式 [‘>me<‘, ‘>me<‘] 字符前加u [u‘he‘, u‘he‘] 变量的unicode形式 [u‘wo‘, u‘de‘] 默认的输出格式 [[u‘w\u01d2‘], [u‘de‘]] Process finished with exit code 0
时间: 2024-10-27 02:33:41