java 支持分词的高性能拼音转换工具,速度是 pinyin4j 的两倍

pinyin

pinyin 是 java 实现的高性能中文拼音转换工具。

变更日志

创作目的

想为 java 设计一款便捷易用的拼音工具。

如何为 java 设计一款高性能的拼音转换工具 pinyin4j

特性

  • 性能是 pinyin4j 的两倍
  • 极简的 api 设计
  • 支持转换长文本
  • 支持多音字
  • 支持多种拼音标注方式
  • 支持中文分词

快速开始

准备

jdk 1.7+

maven 引入

<dependency>
    <groupId>com.github.houbb</groupId>
    <artifactId>pinyin</artifactId>
    <version>0.0.4</version>
</dependency>

快速开始

参考 PinyinBsTest

返回中文的拼音

使用 PinyinHelper.toPinyin(string) 进行中文转换。

String pinyin = PinyinHelper.toPinyin("我爱中文");
Assert.assertEquals("wǒ ài zhōng wén", pinyin);

返回多音字列表

使用 PinyinHelper.toPinyin(char) 获取多音字的读音列表。

List<String> pinyinList = PinyinHelper.toPinyin('重');
Assert.assertEquals("[zhòng, chóng, tóng]", pinyinList.toString());

分词特性

默认支持中文分词,对用户透明。

String pinyin = PinyinHelper.toPinyin("重庆火锅");
Assert.assertEquals("chóng qìng huǒ guō", pinyin);

String pinyin2 = PinyinHelper.toPinyin("分词也很重要");
Assert.assertEquals("fēn cí yě hěn zhòng yào", pinyin2);

指定拼音标注形式

api

/**
 * 转换为拼音
 * @param string 原始信息
 * @param styleEnum 样式枚举
 * @return 结果
 * @since 0.0.3
 */
public static String toPinyin(final String string, final PinyinStyleEnum styleEnum)

PinyinStyleEnum 样式枚举

枚举 说明 例子
DEFAULT 默认模式,拼音声调在韵母第一个字母上。 pīn yīn
NORMAL 普通模式,即不带声调。 pin yin
NUM_LAST 数字标注模式,即拼音声调以数字形式在各个拼音之后,用数字 1-5 进行表示。 pin1 yin1
FIRST_LETTER 首字母模式,只返回拼音的首字母部分。 p y

测试案例

DEFAULT

String pinyin = PinyinHelper.toPinyin("我爱中文", PinyinStyleEnum.DEFAULT);
Assert.assertEquals("wǒ ài zhōng wén", pinyin);

NORMAL

String pinyin = PinyinHelper.toPinyin("我爱中文", PinyinStyleEnum.NORMAL);
Assert.assertEquals("wo ai zhong wen", pinyin);

NUM_LAST

String pinyin = PinyinHelper.toPinyin("我爱中文", PinyinStyleEnum.NUM_LAST);
Assert.assertEquals("wo3 ai4 zhong1 wen2", pinyin);

FIRST_LETTER

String pinyin = PinyinHelper.toPinyin("我爱中文", PinyinStyleEnum.FIRST_LETTER);
Assert.assertEquals("w a z w", pinyin);

后期 Road-Map

  • 支持中文繁简体

默认关闭该功能

  • 拼音转汉字

用户自定义相关

  • 用户自定义词组
  • 用户自定义分词

benchmark

测试代码见 BenchmarkTest.java

性能对比时使用相同的机器,相同测试文本,验证相同的次数。

均提前做好预热处理,可供参考。

单个分词

对比函数 对比次数 对比内容 耗时
Pinyin4j toHanyuPinyinStringArray() 100w 次 相同文本随机选择一个字符 621 ms
pinyin toPinyin() 100w 次 相同文本随机选择一个字符 317 ms

字符串分词

对比函数 对比次数 对比内容 耗时
Pinyin4j toHanyuPinyinString() 1w 次 相同长文本 33002 ms
pinyin toPinyin() 1w 次 相同长文本 17975 ms

而且 Pinyin4j 的汉语字符串转换是不支持分词的,本项目在支持分词的情况下速度基本依然是 pinyin4j 的两倍。

技术鸣谢

pinyin-dataphrase-pinyin-data 提供的拼音数据。

segment 提供的中文分词。

原文地址:https://www.cnblogs.com/houbbBlogs/p/12210592.html

时间: 2024-12-08 22:22:37

java 支持分词的高性能拼音转换工具,速度是 pinyin4j 的两倍的相关文章

常用的Java字符转换工具类

该类里包含了Java中常用的字符串处理方法,如日期处理.金额转换... ----------------------------------------------------------------------------------------- import java.math.BigDecimal;import java.sql.Timestamp;import java.text.SimpleDateFormat;import java.util.Calendar;import jav

[转]C#写的工程项目移植转换工具 – 支持VS2005/VS2010/VS2012/VS2013

经常用Visual Studio开发项目的是不是会经常遇到下面这种情况或者类似于这样的情况?用新版本Visual Studio开发的项目,有时候需要在低版本的Visual Studio环境上打开,虽然可以通过一个一个添加csproj文件来打开整个工程,不过一旦需要添加的csproj文件太多,会浪费不少时间.由于 VS2010以上的版本都默认会安装VS2005,直接打开VS2005的工程甚至会要你用VS2005来打开,怎么可以这样?虽然你可以通过修 改.sln以及.csproj文件来解决问题,不过

Java文件编码自动转换工具类

本篇随笔主要介绍了一个用java语言写的将一个文件编码转换为另一个编码并不改变文件内容的工具类: 通过读取源文件内容,用URLEncoding重新编码解码的方式实现. 1 public class ChangeFileEncoding { 2 public static int fileCount = 0; 3 public static String sourceFileRoot = "替换为要转换的源文件或源目录"; // 将要转换文件所在的根目录 4 public static

分享万能java字符串编码转换工具类

代码下载地址:http://www.zuidaima.com/share/1795356301560832.htm 原文:分享万能java字符串编码转换工具类 package com.zuidaima.util; import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符,也叫作ISO646-US.Unicode字符集的基本拉丁块 */ publ

JAVA 编码格式转换工具类

package com.gootrip.util; import java.io.UnsupportedEncodingException; /** * <p>Title:字符编码工具类 </p> */ public class CharTools { /** * 转换编码 ISO-8859-1到GB2312 * @param text * @return */ public static final String ISO2GB(String text) { String resu

java 中文繁简体转换工具 opencc4j

创作缘由 对于中文的繁简体转换是一种很常见的需求. 但是很多工具类都是简单的做个映射.(使用map,集合,properties)等. 存在一个严重的问题:特殊词组 的转换可能存在问题. OpenCC OpenCC 是一款非常优秀的转换工具.但是没有直接提供 Java 便于使用的 jar. opencc4j opencc4j 就是在上面的工具基础上提供的 java 使用版本. opencc4j 使用方式 maven 引入 <dependency> <groupId>com.githu

java 实体对象与Map之间的转换工具类(自己还没看)

java实体对象与Map之间的转换工具类 import java.lang.reflect.Field; import java.util.HashMap; import java.util.Map; public class EntityUtils { /** * 实体类转Map * @param object * @return */ public static Map<String, Object> entityToMap(Object object) { Map<String,

使用Python的http.server实现一个简易的Web Api对外提供HanLP拼音转换服务

由于采集省市区镇数据需要对地名进行拼音转换,由于第三方高准确度接口对IP进行了限制,处理大量数据变得异常缓慢. 使用了一个折中的办法,省市区 3级(3千+)用高准确度接口(几乎没有拼错的地名),镇级(4万+)用本地HanLP提供的接口(大部分多音字还算是能拼正确). Github源码:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/tree/master/.pinyin-python-server 另外我提供了一个临时测试服务器,

Java 集合与数组之间的转换

Java 集合与数组之间的转换 @author ixenos 数组转集合 Arrays.asList(T... a) 先给结论:用 Arrays.asList(T... a) 将数组转换成集合 (T...a)是可变参数,看成(T[] a)即可 <T> List<T> asList(T... a) 返回一个受指定数组支持的固定大小的列表,这是披着List外表的纯数组,只是原数组的一个视图(对返回列表的更改会“直接写”到数组.) 返回的列表是可序列化的,并且实现了 RandomAcce