最大匹配分词算法

全文检索有两个重要的过程：

　1分词

2倒排索引

我们先看分词算法

目前对中文分词有两个方向，其中一个是利用概率的思想对文章分词。也就是如果两个字，一起出现的频率很高的话，我们可以假设这两个字是一个词。这里可以用一个公式衡量：M(A,B)=P(AB)/P(A)P(B)，其中 A表示一个字，B表示一个字，P(AB)表示AB相邻出现的概率，P(A)表示A在这篇文章中的频度，P(B)表示B在这篇文章中的频度。用概率分词的好处是不需要借助词典的帮助，坏处是算法比较麻烦，效率不高，也存在一定的出错率。

另外的一个方向是使用词典分词。就是事先为程序准备一个词典，然后通过这个词典对文章分词。目前较流行的方式有正向最大匹配算法和逆向最大匹配算法。逆向最大匹配算法在准确性上要更好一些。

以 “我是一个坏人” 为例，并最大词长为３

正向的顺序为

我是一

我是

我 ===> 得到一个词

是一个

是一

是 ===>得到一个词

一个坏

一个===> 得到一个词

坏人===>得到一个词

结果我、是、一个、坏人

反向算法

个坏人

坏人==> 坏人

是一个

一个==> 一个

我是

是==> 是

我==> 我

结果我、是、一个、坏人

java代码如下

package data;

import java.util.Arrays;
import java.util.HashSet;
import java.util.Set;

/**
 * 最大匹配分词算法
 *
 * @author JYC506
 *
 */
public class SplitString {

	private Set<String> set = new HashSet<String>();
	private int positiveOver = 0;
	private int reverseOver = 0;

	/**
	 * 正向最大匹配
	 *
	 * @param str 要分词的句子
	 * @param num 词的最大长度
	 * @return
	 */
	public String[] positiveSplit(String str, int maxSize) {
		int tem = 0;
		int length = str.length();
		String[] ss = new String[length];
		char[] cc = str.toCharArray();
		for (int i = 0; i < length; i++) {
			positiveOver = 0;
			String sb = this.toStr(cc, i, maxSize);
			ss[tem++] = sb;
			i = i + positiveOver;
		}
		String[] ss2 = new String[tem];
		System.arraycopy(ss, 0, ss2, 0, tem);
		return ss2;
	}

	/**
	 * 添加词库
	 *
	 * @param words
	 */
	public void addWord(String[] words) {
		for (String st : words) {
			this.set.add(st);
		}
	}

	/**
	 * 逆向最大匹配
	 *
	 * @param str
	 * @param num
	 * @return
	 */
	public String[] reverseSplit(String str, int num) {
		int tem = 0;
		int length = str.length();
		String[] ss = new String[length];
		char[] cc = str.toCharArray();
		for (int i = str.length() - 1; i > -1; i--) {
			reverseOver = 0;
			String sb = this.toStr2(cc, i, num);
			tem++;
			ss[--length] = sb;
			i = i - reverseOver;
		}
		String[] ss2 = new String[tem];
		System.arraycopy(ss, str.length() - tem, ss2, 0, tem);
		return ss2;
	}

	private String toStr(char[] cs, int start, int num) {
		int num2 = num;
		out: for (int j = 0; j < num; j++) {
			StringBuffer sb = new StringBuffer();
			for (int i = 0; i < num2; i++) {
				if (start + i < cs.length) {
					sb.append(cs[start + i]);
				} else {
					num2--;
					j--;
					continue out;
				}
			}
			if (set.contains(sb.toString())) {
				positiveOver = num2 - 1;
				return sb.toString();
			}
			num2--;
		}
		return String.valueOf(cs[start]);
	}

	private String toStr2(char[] cs, int start, int num) {
		int num2 = num;
		for (int j = 0; j < num; j++) {
			StringBuffer sb = new StringBuffer();
			for (int i = 0; i < num2; i++) {
				int index = start - num2 + i + 1;
				if (index > -1) {
					sb.append(cs[index]);
				} else {
					num2--;
				}
			}
			if (set.contains(sb.toString())) {
				reverseOver = num2 - 1;
				return sb.toString();
			}
			num2--;
		}
		return String.valueOf(cs[start]);
	}

	public static void main(String[] args) {
		String[] words = new String[] { "我们", "我们五人", "五人一组", "一组" };
		SplitString ss = new SplitString();
	    /*添加词到词库*/
		ss.addWord(words);
		String st = "我们五人一组";
		System.out.println("要分词的句子：" + st);
		/*使用两种方式分词，下面我指定最大词长度为4*/
		String[] ss2 = ss.reverseSplit(st, 4);
		String[] ss1 = ss.positiveSplit(st, 4);
		System.out.println("正向最大匹配分词算法分词结果：" + Arrays.toString(ss1));
		System.out.println("逆向最大匹配分词算法分词结果：" + Arrays.toString(ss2));
	}

}

运行结果

时间： 2024-10-12 07:08:31

最大匹配分词算法

全文检索有两个重要的过程：

最大匹配分词算法的相关文章

逆向最大匹配分词算法C#

双向最大匹配分词算法

NLP: 中文分词算法--正向最大匹配 Forward Maximum Matching

Mmseg中文分词算法解析

浅谈分词算法（2）基于词典的分词方法

浅谈分词算法（1）分词中的基本问题

中文分词算法综述

机器学习基础——一文讲懂中文分词算法

在Hadoop上运行基于RMM中文分词算法的MapReduce程序