文本分词

分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,出现了一系列具有较高的分词准确率和快速的分词系统。并且在1992年我国就制订了《信息处理用现代汉语分词规范》[9],旨在为中文信息处理提供一个国家标准化的使用标准。本文即采用张华平的NLPIR/ICTCLAS2014分词系统来建设分词模块。

目前主要的分词方法:

(1) 基于字符串匹配的分词方法,即机械分词。是目前较为深入的研究课题,算法成熟使用广泛。其核心是通过邮件文本与词典词汇的匹配,实现分词,关键在于使用词典的完备程度,

(2) 基于理解的分词方法,即人工智能方法,(分词精度高,算法复杂)

(3) 基于统计的分词方法(优势在于识别未登录词和专有名词,训练文本量大)

1.1.1 中文分词算法

最大匹配算法[9](Maximum Marching Method,简称 MM法)是苏联的学家提出的最早的自动文本分词算法,是典型的机械分词算法。基本过程是:首先建立特征词库,词库中包含了一种语言所能使用的可能的词语,这些词语已经可以表达一种含义。对于测试的文本,按照正向(正向最大匹配算法[2])或者是逆向(逆向最大匹配算法)[10, 11],取出一段字符串,也可以是整个文本,与词库中的此进行比较,如果相等,这这段字符串可以代表一种含义的词语;如果没有匹配的则减少字符串长度,再次匹配,直到所有的字符串匹配完成[6, 10]

图 3?2 分词流程

最大匹配算法逻辑简洁,在机械匹配中易于实现,是使用较为广泛的机械分词算法。然而它的局限性也是十分明显的:过度的依靠词语库,词语库的完备程度直接影响文本的分词的准确度,并且,如果词语库的词语条十分庞大,那么匹配的速度也会因此而大大增加,它分词效率也会成为突出的问题。中文分词因为中文的特点[9],单纯的匹配词语库,并不能有效地表达文本的含义,因此匹配算法在中文分词中问题更加突出,为此我国的相关专家对中文的提出更有效的中文自动分词系统,对于中文文本提出处理歧义字段方案,提高分词的准确率和处理外联部的速度[7, 9]。此后,也出现的一部分其他的方法,比如最短匹配算法,或者采用语言歧义校正和文本预处理方法,利用显示标记或者是词语关联来提前划分文本的字符串,减少字符串的匹配次数,建立专业类别的词语库等。

除了机械分词算法以外,近年来基于理解的人工智能分词算法[2]和基于统计语言模型( Statistical Language Models SLM)的分词方法也在不断的发展中,但是由于算法复杂,统计困难等原因,无法实现大规模的应用。

时间: 2024-10-12 14:28:45

文本分词的相关文章

Studio 爬虫 文本分词 化词云个性化设计

Studio 爬虫 文本分词 化词云个性化设计 分析步骤 设置工作目录 下载依赖包 加载依赖包 设置爬虫数据的URL地址 爬取数据 数据清洗 产看数据 制作词云 加载停用词表 去掉停用词 查看数据 生成Top100 词云 生成完整词云 个性化设计 setwd() install.packages("rjava") install.packages("wordcound") install.packages("wordcound2") librar

搜索引擎与网页文本分词的原理

对于SEO人员来说,自己工作的主要目标就是搜索引擎,所以深刻理解搜索引擎运行机制有助于我们针对搜索引擎进行优化,这就相当于两国交兵,必须要知道对方的虚实,再分析自己的优势,然后才能够一举进兵消灭对方,如果你还不知道对方的虚实,别人以逸待劳,那你失败是肯定的了!而在分析搜索引擎方面,知道其运行机制和分词技术是非常重要的一环! 搜索引擎工作的第一步:提取页面文字 首先就是抓取页面的文字,一般而言搜索引擎会把相关关键词的对应文字提取出来,还有就是meta标签等等,还有就是关键词和描述以及图片的ATL属

seo与python大数据结合给文本分词并提取高频词

最近研究seo和python如何结合,参考网上的一些资料,写的这个程序. 目的:分析某个行业(例如:圆柱模板)用户最关心的一些词,根据需求去自动调整TDK,以及栏目,内容页的规划 使用方法: 1.下载安装cygwin:http://www.cygwin.com/ 2.cygwin安装时别忘记安装curl,wget,iconv,lynx,dos2unix,Python等常用工具,特别是Python,这次主要就是用它了. 3.去下载jieba中文分词组件: 首选:https://github.com

NLPIR_Init文本分词-总是初始化失败,false,Init ICTCLAS failed!

前段时间用这个分词用的好好的,突然间就总是初始化失败了: 网上搜了很多,但是不是我想要的答案,最终去了官网看了下:官网链接 发现哇,版本更新了啊,下载页面链接 麻利的下载好了最新的文档,一看压缩包名字:20161115173728_ICTCLAS2016分词系统下载包 现在是2016-11-17 11:49:08估计是刚更新的, 果然,将原来的Data文件夹删除之后,再将最新的Data文件夹放到原来的目录下就Ok了, 貌似初始化失败还有权限的问题什么的,,,遇上再总结,,, 初始化的时候还可能遇

[大数据]-Elasticsearch5.3.1 IK分词,同义词/联想搜索设置

--题外话:最近发现了一些问题,一些高搜索量的东西相当一部分没有价值.发现大部分是一些问题的错误日志.而我是个比较爱贴图的.搜索引擎的检索会将我们的博文文本分词.所以图片内容一般是检索不到的,也就是说同样的问题最好是帖错误代码,日志,虽然图片很直观,但是并不利与传播.希望大家能够优化一部分博文的内容,这样有价值的东西传播量可能会更高. 本文主要是记录Elasticsearch5.3.1 IK分词,同义词/联想搜索设置,本来是要写fscrawler的多种格式(html,pdf,word...)数据

R系列:分词、去停用词、画词云(词云形状可自定义)

附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b的压缩包是1.46G).包多(是真的多,各路好友会经常上传新的包). R的麻烦之处:经常升级,是经常,非常经常,这就导致你在加载一个包之前需要考虑这个包要在R的哪个版本上才能使用,而往往做一件事情都要加载10个包左右,一般比较方便的做法就是先升级到最新版,因为只有小部分的包在新版本上不能用. 言归正

几种开源分词工具的比較

搜集了一些资料,与同学一起进行了简单的測试,总结例如以下. 分词工  具 特点 支持语言 原理 词典及扩展性 StandardAnalyzer 中文.英文(unicode) 中文:单字符切分 英文:依据空格切分 ChineseAnalyzer 中文,不支持中文和英文及数字混合的文本分词 按字分词,与StandardAnalyzer对中文的分词没有大的差别 CJKAnalyzer 中文,英文,不支持中文和英文及数字混合的文本分词 採用的双字切分,也就是对一段文字按每两个字来进行切分 IKAnaly

文本特征词提取算法

在文本分类中,需要先对文本分词,原始的文本中可能由几十万个中文词条组成,维度非常高.另外,为了提高文本分类的准确性和效率,一般先剔除决策意义不大的词语,这就是特征词提取的目的.本文将简单介绍几种文本特征词提取算法. 信息增益(IG) 对于一个系统,其信息熵为\(H(S)=-\sum_{i}^{C}P_ilog_2(P_i)\).\(C\)表示类别个数,\(P_i\)表示第\(i\)的类别的概率.某个特征\(F\),有该特征和没有该特征,信息量的变化,就是信息增益. 对特征\(F\),它的取值有\

.NET下文本相似度算法余弦定理和SimHash浅析及应用

在数据采集及大数据处理的时候,数据排重.相似度计算是很重要的一个环节,由此引入相似度计算算法.常用的方法有几种:最长公共子串(基于词条空间).最长公共子序列(基于权值空间.词条空间).最少编辑距离法(基于词条空间).汉明距离(基于权值空间).余弦值(基于权值空间)等,今天我们着重介绍最后两种方式. 余弦相似性 原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度. 我们简单表述如下 文本1:我/爱/北京/天安门/