【中文自动分词算法】
当在搜索引擎中搜索“软件使用技巧”时,搜索引擎通常会帮你找出同时含有”软件“、”使用“、”技巧“的网页。一个好的新闻网站通常会有“相关文件推荐”的功能,这也要依赖于自动分词的算法。要想让计算机准确切分并不容易,例如某网站报道北京大学生,而相关文章里列出的全是北京大学的新闻。这多半是分词算法错误地把标题中的“北京大学”当成了一个词。
难题一,交集词。例如“结婚的和尚未结婚的”。“和尚”和“尚未”都是词。“中外科学名著”里,“中外”、“外科”、“科学”。。。全是词。类似的问题很多,“提高产品质量”、“鞭炮声响彻夜空”、“努力学习法语规则”。这些极端的例子下,分词算法的优劣一试便知。
一种改进方法是构造一个不单独成词表,比如“”民“、”尘“、”伟“,这些字通常不会单独划出来,都要跟旁边的字一块组成一个词。在分词过程中,一理发现这些字被孤单出来,都要重新考虑它与前面的字组词的可能性。
另一种改进方法是根据数据统计,计算出每个词出现的概率,来给一个句子打分。将句子中每种分词结果都打一个分,选取一个最高分。此种问题下,一些高频词会产生问题,如“的”字,考虑“的确”这个词组,“的”字总是以高分单独列出。
难题二,组合词。如“个人恩怨”、”这个人“中,虽然都有”个人“,都要拆分成2个词。
我们可以构造一个二元模型,P(w1,w2)表示w1后恰好是w2的概率。再定义一个句子的划分方案得分:P(s, w1)*P(w1, w2)。。。
更多资料参考《思考的乐趣》11篇《中文自动分词算法》
时间: 2024-11-06 21:48:23