Tiny中文分词

Maven引用坐标:

1
2
3
4
5
<dependency>
  <groupId>org.tinygroup</groupId>
  <artifactId>chinese</artifactId>
  <version>0.0.12</version>
< /dependency>

Tiny中文分词是本人一开始做的一个验证性开发,结果开发出来效果还非常不错,因此就加入到Tiny框架中。 
Tiny中文分词支持下面的功能: 
1.中文分词 
2.中文转化拼音 
3.词性标注 
中文分词,就是把中文句子分解成一个一个的词组,实现起来比较容易,但是实现到最快最好就非常难了。 
Tiny中的中文分词从以下特性: 
1.词库自由扩充-也就是说使用者可以方便的增加新的词库,词库的扩展会带来分词的准确性 
2.词库具有丰富属性:包含同义词、反义词、拼音、词性、词组权重,同义词与反义词可以便于进行后续处理。拼音用于正确的转换为拼音,词性用于标注,词级权重用于提高分词准确性。 
看一个实际测试: 
下面是一个语料库中的文章:

1
2
3
4
5
6
7
8
19980131-03-008-001/m  『/w  回家/v  的/u  感觉/n  真/d  好/a  』/w 
19980131-03-008-002/m  本报/r  驻/v  日本/ns  记者/n  于/nr  青/nr 
19980131-03-008-003/m  欢聚/v  使馆/n  喜迎/v  新春/t  ,/w  留/v  日/j  学子/n  年年/q  如此/r  。/w  1月/t  23日/t  ,/w  近/a  300/m  名/q  中国/ns  留学人员/n  前来/v  出席/v  [中国/ns  驻/v  日/j  大使馆/n]nt  举办/v  的/u  春节/t  招待会/n  ,/w  兴高采烈/i  地/u  送/v  “/w  牛/n  ”/w  迎/v  “/w  虎/n  ”/w  。/w  使馆/n  临时代办/n  武/nr  大伟/nr  向/p  大家/r  拜年/v  ,/w  教育/vn  参赞/n  曲/nr  德林/nr  向/p  大家/r  慰问/v  祝酒/v  ,/w  使馆/n  大厅/n  响起/v  阵阵/q  掌声/n  ,/w  充满/v  欢声笑语/l  。/w 
19980131-03-008-004/m  辞旧迎新/l  之际/f  ,/w  是/v  抚今追昔/i  之/u  时/Ng  。/w  回首/v  牛年/t  令/v  人/n  心潮难平/l  ,/w  难忘/v  庆祝/v  香港/ns  回归/v  的/u  不眠之夜/l  、/w  [中共/j  十五大/j]nz  举世瞩目/i  。/w  有人/r  说/v  起/v  ,/w  去年/t  是/v  毛/nr  主席/n  接见/v  留/v  苏/j  学生/n  并/c  发表/v  “/w  希望/v  寄托/v  在/p  你们/r  身上/s  ”/w  著名/a  演说/vn  40/m  周年/q  ,/w  对/p  海外/s  学子/n  来说/u  是/v  值得/v  纪念/v  的/u  一/m  年/q  ;/w  又/c  有人/r  说/v  起/v  ,/w  去年/t  是/v  中/j  日/j  邦交/n  正常化/vn  25/m  周年/q  ,/w  对/p  留/v  日/j  学子/n  来说/u  又/d  多/a  了/u  一/m  分/q  喜庆/v  的/u  一/m  年/q  ;/w  还/d  有人/r  说/v  起/v  ,/w  去年/t  是/v  祖国/n  农业/n  大/d  丰收/v  的/u  一/m  年/q  ,/w  蔬菜/n  水果/n  物美价廉/l  。/w 
19980131-03-008-005/m  辞旧迎新/l  之际/f  ,/w  也/d  是/v  展望/v  未来/t  之/u  时/Ng  。/w  大家/r  你一言我一语/l  议论/v  着/u  :/w  今年/t  是/v  中/j  日/j  和平/a  友好/a  条约/n  缔结/v  20/m  周年/q  ,/w  江/nr  泽民/nr  主席/n  年内/t  将/d  来/v  日/j  访问/v  ,/w  这/r  是/v  中国/ns  国家/n  元首/n  首/m  次/q  访问/v  日本/ns  ,/w  衷心/d  希望/v  中/j  日/j  关系/n  稳定/a  健康/a  不断/d  发展/v  ;/w  今年/t  是/v  中国/ns  实行/v  改革/v  开放/vn  政策/n  20/m  周年/q  ,/w  国家/n  继续/v  贯彻/v  “/w  支持/v  留学/v  ,/w  鼓励/v  回国/v  ,/w  来去/v  自由/a  ”/w  的/u  方针/n  ,/w  海外/s  学子/n  应该/v  为/p  “/w  科教兴国/l  ”/w  刻苦/ad  学习/v  ,/w  多/ad  做/v  实事/n  ,/w  贡献/v  力量/n  。/w 
19980131-03-008-006/m  海外/s  学子/n  聚会/v  也/d  是/v  交流/v  信息/n  的/u  机会/n  。/w  那位/r  刚/d  从/p  国内/s  回来/v  的/u  学生/n  说/v  ,/w  现在/t  国内/s  收视率/n  最高/a  的/u  是/v  电视/n  连续剧/n  《/w  水浒传/nz  》/w  ,/w  最/d  流行/v  的/u  歌词/n  是/v  “/w  路/n  见/v  不/d  平/a  一/m  声/q  吼/v  ,/w  该/v  出手/v  时/Ng  就/d  出手/v  ”/w  ;/w  还/d  听说/v  ,/w  一/m  位/q  搞/v  摄影/v  的/u  在/p  台湾/ns  举行/v  的/u  作品展/n  圆满/ad  成功/a  ,/w  另/r  一/m  位/q  搞/v  摄影/v  的/u  将/d  在/p  维也纳/ns  举办/v  作品展/n  ;/w  这/r  位/q  从/p  使馆/n  教育处/n  获悉/v  ,/w  去年/t  从/p  日本/ns  回国/v  的/u  留学人员/n  总计/v  1623/m  人/n  ,/w  其中/r  博士生/n  266/m  人/n  ,/w  硕士生/n  224/m  人/n  ;/w  另/r  一/m  位/q  说/v  ,/w  一些/m  在/p  日/j  就职/v  的/u  中国/ns  留学人员/n  正在/d  酝酿/v  成立/v  社会/n  团体/n  ,/w  制订/v  为/p  国/n  服务/vn  规划/n  。/w 
19980131-03-008-007/m  海外/s  学子/n  聚会/v  也/d  是/v  抒发/v  思乡/v  爱国/a  情怀/n  的/u  时候/n  。/w  他们/r  唱歌/v  时/Ng  都/d  是/v  那么/r  投入/a  ,/w  那么/r  动情/v  。/w  《/w  草原/n  之/u  夜/Tg  》/w  、/w  《/w  长江/ns  之/u  歌/n  》/w  、/w  《/w  在/p  希望/v  的/u  田野/n  上/f  》/w  让/v  人/n  怀念/v  故乡/n  ;/w  《/w  达坂城/ns  的/u  姑娘/n  》/w  、/w  《/w  拉/v  骆驼/n  的/u  黑/a  小伙/n  》/w  、/w  《/w  父老乡亲/l  》/w  令/v  人/n  思念/v  家人/n  ;/w  《/w  我/r  和/c  我/r  的/u  祖国/n  》/w  、/w  《/w  我/r  爱/v  你/r  中国/ns  》/w  使/v  人/n  爱国/a  之/u  情/n  在/p  胸中/s  激荡/v  。/w 
19980131-03-008-008/m  “/w  到/v  使馆/n  就/d  是/v  到/v  家/n  了/y  ”/w  ,/w  看/v  着/u  餐桌/n  上/f  的/u  春卷/n  、/w  麻团/n  、/w  水饺/n  ……/w  “/w  回家/v  的/u  感觉/n  真/d  好/a  !/w  ”/w  一/m  位/q  留学生/n  自言自语/i  地/u  说道/v  。/w  (/w  本报/r  东京/ns  1月/t  26日/t  电/n  )/w

为了进行分词测试,我做了个程序把其中的所有中文字取了出来:

1 回家的感觉真好本报驻日本记者于青欢聚使馆喜迎新春留日学子年年如此月日近名中国留学人员前来出席中国驻日大使馆举办的春节招待会兴高采烈地送牛迎虎使馆临时代办武大伟向大家拜年教育参赞曲德林向大家慰问祝酒使馆大厅响起阵阵掌声充满欢声笑语辞旧迎新之际是抚今追昔之时回首牛年令人心潮难平难忘庆祝香港回归的不眠之夜中共十五大举世瞩目有人说起去年是毛主席接见留苏学生并发表希望寄托在你们身上著名演说周年对海外学子来说是值得纪念的一年又有人说起去年是中日邦交正常化周年对留日学子来说又多了一分喜庆的一年还有人说起去年是祖国农业大丰收的一年蔬菜水果物美价廉辞旧迎新之际也是展望未来之时大家你一言我一语议论着今年是中日和平友好条约缔结周年江主席年内将来日访问这是中国国家元首首次访问日本衷心希望中日关系稳定健康不断发展今年是中国实行改革开放政策周年国家继续贯彻支持留学鼓励回国来去自由的方针海外学子应该为科教兴国刻苦学习多做实事贡献力量海外学子聚会也是交流信息的机会那位刚从国内回来的学生说现在国内收视率最高的是电视连续剧水浒传最流行的歌词是路见不平一声吼该出手时就出手还听说一位搞摄影的在台湾举行的作品展圆满成功另一位搞摄影的将在维也纳举办作品展这位从使馆教育处获悉去年从日本回国的留学人员总计人其中博士生人硕士生人另一位说一些在日就职的中国留学人员正在酝酿成立社会团体制订为国服务规划海外学子聚会也是抒发思乡爱国情怀的时候他们唱歌时都是那么投入那么动情草原之夜长江之歌在希望的田野上让人怀念故乡达坂城的姑娘拉骆驼的黑小伙父老乡亲令人思念家人我和我的祖国我爱你中国使人爱国之情在胸中激荡到使馆就是到家了看着餐桌上的春卷麻团水饺回家的感觉真好一位留学生自言自语地说道本报东京月日电

接下来就是看看原来的分词,去掉数字和英文之后是怎么分的:

1 回家 的 感觉 真 好 本报 驻 日本 记者 于 青 欢聚 使馆 喜迎 新春 留 日 学子 年年 如此 月 日 近 名 中国 留学人员 前来 出席 中国 驻 日 大使馆 举办 的 春节 招待会 兴高采烈 地 送 牛 迎 虎 使馆 临时代办 武 大伟 向 大家 拜年 教育 参赞 曲 德林 向 大家 慰问 祝酒 使馆 大厅 响起 阵阵 掌声 充满 欢声笑语 辞旧迎新 之际 是 抚今追昔 之 时 回首 牛年 令 人 心潮难平 难忘 庆祝 香港 回归 的 不眠之夜 中共 十五大 举世瞩目 有人 说 起 去年 是 毛 主席 接见 留 苏 学生 并 发表 希望 寄托 在 你们 身上 著名 演说 周年 对 海外 学子 来说 是 值得 纪念 的 一 年 又 有人 说 起 去年 是 中 日 邦交 正常化 周年 对 留 日 学子 来说 又 多 了 一 分 喜庆 的 一 年 还 有人 说 起 去年 是 祖国 农业 大 丰收 的 一 年 蔬菜 水果 物美价廉 辞旧迎新 之际 也 是 展望 未来 之 时 大家 你一言我一语 议论 着 今年 是 中 日 和平 友好 条约 缔结 周年 江 泽民 主席 年内 将 来 日 访问 这 是 中国 国家 元首 首 次 访问 日本 衷心 希望 中 日 关系 稳定 健康 不断 发展 今年 是 中国 实行 改革 开放 政策 周年 国家 继续 贯彻 支持 留学 鼓励 回国 来去 自由 的 方针 海外 学子 应该 为 科教兴国 刻苦 学习 多 做 实事 贡献 力量 海外 学子 聚会 也 是 交流 信息 的 机会 那位 刚 从 国内 回来 的 学生 说 现在 国内 收视率 最高 的 是 电视 连续剧 水浒传 最 流行 的 歌词 是 路 见 不 平 一 声 吼 该 出手 时 就 出手 还 听说 一 位 搞 摄影 的 在 台湾 举行 的 作品展 圆满 成功 另 一 位 搞 摄影 的 将 在 维也纳 举办 作品展 这 位 从 使馆 教育处 获悉 去年 从 日本 回国 的 留学人员 总计 人 其中 博士生 人 硕士生 人 另 一 位 说 一些 在 日 就职 的 中国 留学人员 正在 酝酿 成立 社会 团体 制订 为 国 服务 规划 海外 学子 聚会 也 是 抒发 思乡 爱国 情怀 的 时候 他们 唱歌 时 都 是 那么 投入 那么 动情 草原 之 夜 长江 之 歌 在 希望 的 田野 上 让 人 怀念 故乡 达坂城 的 姑娘 拉 骆驼 的 黑 小伙 父老乡亲 令 人 思念 家人 我 和 我 的 祖国 我 爱 你 中国 使 人 爱国 之 情 在 胸中 激荡 到 使馆 就 是 到 家 了 看 着 餐桌 上 的 春卷 麻团 水饺 回家 的 感觉 真 好 一 位 留学生 自言自语 地 说道 本报 东京 月 日 电

我们用原来的分词结果,建立词库后,进行分词试验: 
下面是源代码:

1
2
3
4
5
6
7
8
9
public static void main(String[] args) {
    AbstractTestUtil.init(null, true);
    ChineseParser chineseParser = SpringUtil.getBean(ChineseParser.CHINESE_PARSER_BEAN_NAME);
    List<Token> list = new ArrayList<Token>();
    chineseParser.segmentWordMax("回家的感觉真好本报驻日本记者于青欢聚使馆喜迎新春留日学子年年如此月日近名中国留学人员前来出席中国驻日大使馆举办的春节招待会兴高采烈地送牛迎虎使馆临时代办武大伟向大家拜年教育参赞曲德林向大家慰问祝酒使馆大厅响起阵阵掌声充满欢声笑语辞旧迎新之际是抚今追昔之时回首牛年令人心潮难平难忘庆祝香港回归的不眠之夜中共十五大举世瞩目有人说起去年是毛主席接见留苏学生并发表希望寄托在你们身上著名演说周年对海外学子来说是值得纪念的一年又有人说起去年是中日邦交正常化周年对留日学子来说又多了一分喜庆的一年还有人说起去年是祖国农业大丰收的一年蔬菜水果物美价廉辞旧迎新之际也是展望未来之时大家你一言我一语议论着今年是中日和平友好条约缔结周年江主席年内将来日访问这是中国国家元首首次访问日本衷心希望中日关系稳定健康不断发展今年是中国实行改革开放政策周年国家继续贯彻支持留学鼓励回国来去自由的方针海外学子应该为科教兴国刻苦学习多做实事贡献力量海外学子聚会也是交流信息的机会那位刚从国内回来的学生说现在国内收视率最高的是电视连续剧水浒传最流行的歌词是路见不平一声吼该出手时就出手还听说一位搞摄影的在台湾举行的作品展圆满成功另一位搞摄影的将在维也纳举办作品展这位从使馆教育处获悉去年从日本回国的留学人员总计人其中博士生人硕士生人另一位说一些在日就职的中国留学人员正在酝酿成立社会团体制订为国服务规划海外学子聚会也是抒发思乡爱国情怀的时候他们唱歌时都是那么投入那么动情草原之夜长江之歌在希望的田野上让人怀念故乡达坂城的姑娘拉骆驼的黑小伙父老乡亲令人思念家人我和我的祖国我爱你中国使人爱国之情在胸中激荡到使馆就是到家了看着餐桌上的春卷麻团水饺回家的感觉真好一位留学生自言自语地说道本报东京月日电", list);
    for (Token token : list) {
        System.out.printf("%s ", token.getText());
    }
}

运行结果:

1
2
3
4
log4j:WARN Please initialize the log4j system properly.
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info.
回家 的 感觉 真 好 本报 驻 日本 记者 于 青 欢聚 使馆 喜迎 新春 留 日 学子 年年 如此 月 日 近 名 中国 留学人员 前来 出席 中国 驻 日 大使馆 举办 的 春节 招待会 兴高采烈 地 送 牛 迎 虎 使馆 临时代办 武 大伟 向 大家 拜年 教育 参赞 曲 德林 向 大家 慰问 祝酒 使馆 大厅 响起 阵阵 掌声 充满 欢声笑语 辞旧迎新 之际 是 抚今追昔 之 时 回首 牛年 令 人心 潮 难 平 难忘 庆祝 香港 回归 的 不眠之夜 中共 十五大 举世瞩目 有人 说 起 去年 是 毛 主席 接见 留 苏 学生 并发 表 希望 寄托 在 你们 身上 著名 演说 周年 对 海外 学子 来说 是 值得 纪念 的 一 年 又 有人 说 起 去年 是 中 日 邦交 正常化 周年 对 留 日 学子 来说 又 多 了 一 分 喜庆 的 一 年 还有 人 说 起 去年 是 祖国 农业 大 丰收 的 一 年 蔬菜 水果 物美价廉 辞旧迎新 之际 也 是 展望 未来 之 时 大家 你一言我一语 议论 着 今年 是 中 日 和平 友好 条约 缔结 周年 江 泽民 主席 年内 将来 日 访问 这 是 中国 国家 元首 首 次 访问 日本 衷心 希望 中 日 关系 稳定 健康 不断 发展 今年 是 中国 实行 改革 开放 政策 周年 国家 继续 贯彻 支持 留学 鼓励 回国 来去 自由 的 方针 海外 学子 应该 为 科教兴国 刻苦 学习 多 做 实事 贡献 力量 海外 学子 聚会 也 是 交流 信息 的 机会 那位 刚 从 国内 回来 的 学生 说 现在 国内 收视率 最高 的 是 电视 连续剧 水浒传 最 流行 的 歌词 是 路 见 不平 一 声 吼 该 出手 时 就 出手 还 听说 一 位 搞 摄影 的 在 台湾 举行 的 作品展 圆满 成功 另 一 位 搞 摄影 的 将 在 维也纳 举办 作品展 这 位 从 使馆 教育处 获悉 去年 从 日本 回国 的 留学人员 总计 人 其中 博士生 人 硕士生 人 另 一 位 说 一些 在 日 就职 的 中国 留学人员 正在 酝酿 成立 社会 团体 制订 为 国 服务 规划 海外 学子 聚会 也 是 抒发 思乡 爱国 情怀 的 时候 他们 唱歌 时 都 是 那么 投入 那么 动情 草原 之 夜 长江 之 歌 在 希望 的 田野 上 让 人 怀念 故乡 达坂城 的 姑娘 拉 骆驼 的 黑 小伙 父老乡亲 令 人 思念 家人 我 和 我 的 祖国 我 爱 你 中国 使 人 爱国 之 情 在 胸中 激荡 到 使馆 就是 到 家 了 看 着 餐桌 上 的 春卷 麻团 水饺 回家 的 感觉 真 好 一 位 留学生 自言自语 地 说道 本报 东京 月 日 电 
Process finished with exit code 0

可以看到确实已经进行正确分词。 
Tiny框架中的分词算法效率之高是相当杰出的,因为它将健忘过程中的字符的比较次数进行了非常大的优化(不敢说优化到极致呵呵),所以其分词效率非常之高,而且随着词库的大小增加越多,与许多同类产品的差距拉得越大。因为没有与所有的分词算法进行比较,因此不敢说是最快的,但是说是相当快应该没有啥问题。 
接下来深入了解一下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
public interface ChineseParser {

String CHINESE_PARSER_BEAN_NAME = "chineseParser";

/**
     * 对内容进行分词,最大优先,此方法由于用了统计,因此效率较低
     * 
     * @param content
     * @return 分的词及个数的键值对
     */
    void segmentWordMax(String content, Map<Token, Integer> result);

/**
     * 对内容进行分词,最小优先,此方法由于用了统计,因此效率较低
     * 
     * @param content
     * @param result
     *            分的词及个数的键值对
     */
    void segmentWordMin(String content, Map<Token, Integer> result);

/**
     * 对内容进行分词,最大优先
     * 
     * @param content
     * @param result
     */
    void segmentWordMax(String content, List<Token> result);

/**
     * 对内容进行分词,最小优先
     * 
     * @param content
     * @param result
     */
    void segmentWordMin(String content, List<Token> result);

/**
     * 设置找词时的事件
     * 
     * @param event
     */

void setFoundEvent(FoundEvent event);

/**
     * 加载词库
     * 
     * @param inputStream
     * @param encode
     */
    void loadDict(InputStream inputStream, String encode);
}

接口比较简单,提供了若干种的分词实现,其中最大最小分词算法是指碰到最大词时优先选择最大词;最小分词算法是指碰到一个词就优先选取。 
比如词库有下列词组: 
中华人民共和国
中华
人民
共和国 
如果采用最大分词时,"中华人民共和国"只被分解成“中华人民共和国”一个词,而如果采用最小分词,则会分成“中华”、“人民”、“共和国”三个词,相对来说,最大分词效率要低一点,但是准确性一般更高。 
比如:建立“中华人民共和国”和“中国”为同义词,则在最大分词算法时搜索“中国”和“中华人民共和国”的时候是可以命中的,但是分别搜索“中华”、“人民”、“共和国”的时候,则是不可命中的。

比如:建立“中华人民共和国”和“中国”为同义词,则在最小分词算法时搜索“中国”是不可以命中的,但是分别搜索“中华”、“人民”、“共和国”、“中华人民共和国”的时候,则是可以命中的。 
通过上述的分析,最大分词的准确性明显是要高一些的。 
Tiny的分词算法,还采用了预搜索和词频比较的方式来进行分词,因此分词准确性会更高。  
比如,词库中有下面的词组: 
帽子
服装
和服 
要分词的内容是:帽子和服装 
那么一般的分词软件会分成:“帽子”、“和服”、“装” 
而Tiny中的分词由于有词频参数,如果服装的词频高于和服的词频,则分解出来就是:“帽子”、“和”、“服装”,如果“和服”的词频>=“服装”的词频,那么出来的结果就是:“帽子”、“和服”、“装”。 
也就是说词库的质量决定了分词的准确性。 
小结: 
Tiny的分词算法是可效的、词库可扩展的、支持中文转化拼音、支持词频调整的分词算法,值得使用。 
支持多种场景识别--即不同的场景加载不同的词库,以提升分词准确性。 
当然它也不是那么完美,比如:没有人名、地名识别。没有语义相关的优化。 
最近准备对这一块进行加强,也欢迎童鞋们提出改进意义和提出新的需求。

时间: 2024-10-24 21:05:08

Tiny中文分词的相关文章

PHP中文分词扩展 SCWS

1.scws简介 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统). 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词. 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开, 所以如何准确并快速分词一直是中文分词的攻关难点. SCWS 采用纯 C 语言开发,不依赖任何外部库函数,可直接使用动态链接库嵌入应用程序, 支持的中文编码包括 GBK.UTF-8 等.此外还提供了 PHP 扩

Elasticsearch安装中文分词插件ik

Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词.例如: curl -XPOST "http://localhost:9200/userinfo/_analyze?analyzer=standard&pretty=true&text=我是中国人" 我们会得到这样的结果: { tokens: [ { token: text start_offset: 2 end_offset: 6 type: <ALPHANUM>

中文分词实践(基于R语言)

背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下: 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下. ================================================== * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallse

中文分词之结巴分词~~~附使用场景+demo

常用技能(更新ing):http://www.cnblogs.com/dunitian/p/4822808.html#skill 技能总纲(更新ing):http://www.cnblogs.com/dunitian/p/5493793.html 在线演示:http://cppjieba-webdemo.herokuapp.com 完整demo:https://github.com/dunitian/TempCode/tree/master/2016-09-05 先说下注意点,结巴分词他没有对分

php+中文分词scws+sphinx+mysql打造千万级数据全文搜索

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎.意图为其他应用提供高速.低空间占用.高结果 相关度的全文搜索功能.Sphinx可以非常容易的与SQL数据库和脚本语言集成.当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据.Sphinx创建索引的速度为:创建100万条记录的索引只需3-4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建一次只需几十秒.Sphinx的

python 读写txt文件并用jieba库进行中文分词

python用来批量处理一些数据的第一步吧. 对于我这样的的萌新.这是第一步. #encoding=utf-8 file='test.txt' fn=open(file,"r") print fn.read() fn.close() 在控制台输出txt文档的内容,注意中文会在这里乱码.因为和脚本文件放在同一个地方,我就没写路径了. 还有一些别的操作. 这是文件open()函数的打开mode,在第二个参数中设置.特别需要注意一下.具体还有一些别的细节操作. http://www.jb51

【Lucene】Apache Lucene全文检索引擎架构之中文分词和高亮显示

前面总结的都是使用Lucene的标准分词器,这是针对英文的,但是中文的话就不顶用了,因为中文的语汇与英文是不同的,所以一般我们开发的时候,有中文的话肯定要使用中文分词了,这一篇博文主要介绍一下如何使用smartcn中文分词器以及对结果的高亮显示. 1. 中文分词 使用中文分词的话,首先到添加中文分词的jar包. <!-- lucene中文分词器 --> <dependency> <groupId>org.apache.lucene</groupId> <

在Hadoop上运行基于RMM中文分词算法的MapReduce程序

原文:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-count-on-hadoop/ 在Hadoop上运行基于RMM中文分词算法的MapReduce程序 23条回复 我知道这个文章标题很“学术”化,很俗,让人看起来是一篇很牛B或者很装逼的论文!其实不然,只是一份普通的实验报告,同时本文也不对RMM中文分词算法进行研究.这个实验报告是我做高性能计算课程的实验里提交的.所以,下面的内容是从我的实验报告里摘录出来的,当作是我学

简单中文分词系统的实现

中文分词系统工程报告 一.研究背景 随着互联网的快速发展,信息也呈了爆炸式的增长趋势.在海量的信息中,我们如何快速抽取出有效信息成为了必须要解决的问题.由于信息处理的重复性,而计算机又善于处理机械的.重复的.有规律可循的工作,因此自然就想到了利用计算机来帮助人们进行处理.在用计算机进行自然语言处理时,主要使用的还是基于统计的方法,并且实际的使用中取得了不错的效果. 因为中文句子的特点——没有分隔符来分离句子中的词,所以在进行中文处理的时候,首先要做的就是如何对中文语句进行分词.这也是本次工程所要