pymmseg 安装方法以及乱码解决

pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Ruby interface.下载地址:http://code.google.com/p/pymmseg-cpp/windows下用户可以下载 pymmseg-cpp-win32-1.0.1.tar.gz,安装方法如下:1.将压缩包解压2.安装vs2008,使用VS2008的命令行窗口来编译程序,位置在 工具/visual studio 2008 command prompt

从这个命令行窗口进入pymmseg/mmseg-cpp文件夹。输入python build.py,回车

编写程序如下

#coding:UTF-8
from pymmseg import mmseg
mmseg.dict_load_defaults()
text = ‘今天我真的好开心‘
algor = mmseg.Algorithm(text)
for tok in algor:
    print ‘%s [%d..%d]‘%(tok.text,tok.start,tok.end)

运行后会出现乱码,这是因为mmseg支持的是utf8, windows的本地默认编码是cp936,也就是gbk编码

将代码改写如下即可

# coding: UTF-8
from pymmseg import mmseg
mmseg.dict_load_defaults()
text = ‘今天我真的好开心‘
algor = mmseg.Algorithm(text)
for tok in algor:
    print ‘%s [%d..%d]‘ % (tok.text.decode(‘UTF-8‘).encode(‘GBK‘), tok.start, tok.end)  
				
时间: 2024-10-09 06:28:03

pymmseg 安装方法以及乱码解决的相关文章

CentOS6.5安装Cacti统计图乱码解决

这个就是rrdtool调用字体失败 安装字体即可 [[email protected] -]# yum -y install  cjkuni-ukai-fonts #安装字体 [[email protected] -]# fc-cache -f -v #刷新字体哦缓存 CentOS6.5安装Cacti统计图乱码解决,布布扣,bubuko.com

玩转web之ajax(一)---使用表单的serialize()方法中文乱码解决

有时候我们需要使用ajax提交去提交form的值,这样就需要使用serialize()去获取form的值,但这样获取的值如果有中文,会乱码,原因和解决方法如下: 原因:.serialize()自动调用了encodeURIComponent方法将数据编码了 解决方法:调用decodeURIComponent(XXX,true);将数据解码 如: var data=$('#addf').serialize(); data= decodeURIComponent(data,true); 玩转web之a

Ubuntu安装navicat界面乱码解决方法

1.下载安装包,点击后面打链接可以下载,下载Navicat_premium安装包 2.在终端进入安装包的文件,解压安装包 sudo tar -xzvf 安装包名 进入解压后打文件夹,直接运行start_navicat 文件,即可安装使用Navicat,然后有可能出现界面乱码的情况. 乱码解决方法(自己解决我自己这种情况之后打猜测): 打开start_navicat文件,会看到 export LANG="en_US.UTF-8" 将这句话改为 export LANG="zh_C

MySQL安装及中文乱码解决

MySQL安装 终端输入 sudo apt-get install mysql-server 启动和关闭mysql服务器 service mysql start service mysql stop 进入mysql shell界面 mysql -u root -p 在Ubuntu18.04第一次安装mysql进入Shell时,需要设置密码 sudo cat /etc/mysql/debian.cnf 得到一系列信息: user password 用mysql -u debian-sys-main

mysql导入导出数据中文乱码解决方法小结

inux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题 首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 复制代码 代码如下: mysqldump -uroot -p --default-character-set=utf8 dbname tablename > bak.sql 那么导入数据的时候也要使用--

[转]mysql导入导出数据中文乱码解决方法小结

本文章总结了mysql导入导出数据中文乱码解决方法,出现中文乱码一般情况是导入导入时编码的设置问题,我们只要把编码调整一致即可解决此方法,下面是搜索到的一些方法总结,方便需要的朋友. linux系统中 linux默认的是utf8编码,而windows是gbk编码,所以会出现上面的乱码问题. 解决mysql导入导出数据乱码问题 首先要做的是要确定你导出数据的编码格式,使用mysqldump的时候需要加上--default-character-set=utf8, 例如下面的代码: 代码如下: mys

Ubuntu Server 14.04 选择中文安装后日期乱码的解决方法

Ubuntu Server 14.04选择中文安装后,默认的/etc/default/locale会使某些中文日期乱码,执行ll和date可见. /etc/default/locale 原来内容为: LANG="zh_CN.UTF-8" LANGUAGE="zh_CN:zh" LC_NUMERIC="zh_CN" LC_TIME="zh_CN" LC_MONETARY="zh_CN" LC_PAPER=&q

linux安装Navicat,界面出现乱码解决方法 (转发)

环境:Centos7 下载Navicat:navicat112_mariadb_cs_x64.tar.gz 点击" ./start_navicat"安装出现界面便面为乱码 解决办法:打开start_navicat文件, export LANG="en_US.UTF-8" 改为 export LANG="zh_CN.UTF-8". 源文章:Ubuntu 安装Navicat,界面出现乱码解决方法:http://blog.csdn.net/u01085

ubuntu安装mysql乱码解决

ubuntu安装mysql乱码解决 1.问题描述: 插入汉字: 乱码显示: 2.解决方法: 执行下面命令: 添加如下粉色区域内容: 即:character-set-server= utf8 保存退出. 重启mysql: 3.验证乱码是否解决: 重新建一个数据库: 进入数据库: 创建表: 插入包含汉字数据: 查询表内容: 汉字正常显示: 更改后,汉字正常显示.