算法+语料≈NLP这是一个六千万词汇量的分类词库,做HanLP这么久,我逐渐体会到,算法无法解决所有问题,词库也非常重要。通常一个算法可以解决80%的问题,剩下的20%无论怎么调节优化,都是拆东墙补西墙。比如上次我提到的“区人保”被HMM人名识别模块误命中的例子,这个词让HMM来看,“区”作为姓氏,“人”“保”作为名字的二三字的确非常有可能,但是正常人都不会取这个名字。要是我把“人”“保”这两个字的频度降低或删除的话,“袭人”“王保全”这些名字又无法识别。本来博客“自然语言处理”分类下就有“语料库”这一小类...
继续阅读:码农场 » 千万级巨型汉语词库分享
原文链接:http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html
时间: 2024-12-15 08:20:10