R分词

#用于下载安装rJava 和 Rwordseg,如果安装了就注释掉
install.packages("rJava")
install.packages("Rwordseg", repos="http://R-Forge.R-project.org", type="source")

#导入rJava 和Rwordseg
library(rJava)
library(Rwordseg)
#测试rJava 和Rwordseg是否安装好
teststring1 <- "我爱R语言，我爱文本挖掘"
segmentCN(teststring1)
#观察分词1000次花的时间
system.time(for(i in 1:1000) segmentCN(teststring1))
#segmentCN的详细解释
?segmentCN

#若输入参数为字符向量，则返回列表
segmentCN("结合成分子时")
segmentCN(c("说的的确在理","一次性交多少钱"))
#默认nosymbol为TURE 不输出标点，只能有汉字，英文，和数字
segmentCN("我喜欢读《圣经》，你呢？")
segmentCN("我喜欢读《圣经》，你呢？",nosymbol=FALSE)
#nature设置 是否输出词性 不是很智能 会出现错误
segmentCN("花了一元钱买了一朵美丽的花",nature=TRUE)

#参数isNameRecognition  可用来人的名字识别，
getOption("isNameRecognition") #默认是不进行人名识别,输出false
segmentCN("梅超风不是是桃花岛岛主")
segment.options(isNameRecognition = TRUE)
getOption("isNameRecognition")
segmentCN("梅超风是桃花岛岛主")

#对金庸的侠客行进行分词，分词的结果会输出到“侠客行.segment.txt”下
segmentCN("E://Rcode//source//侠客行.txt")
#“侠客行.txt” 364251个字， 大约用时间10S，还是很快的
system.time(segmentCN("E://Rcode//source//侠客行.txt"))

#查看词典
listDict()
segmentCN("湖北大鼓真是不错呀")
#导入~.dic词典，可以直接复制然后改名为.dic
installDict("E://Rcode//source//default.dic","default")
segmentCN("湖北大鼓真是不错呀")
#uninstallDict() 删除安装的词典
uninstallDict()
#listDict() 查看剩余的词典
listDict()

##用搜狗词库的时候 一定要在官网上下载  ~.scel 文件，
#不能直接将 下载的 ~.txt改为~.scel
segmentCN("床前明月光，凝视地上霜")
installDict("E://Rcode//source//李白诗集【官方推荐】.scel","libai",dicttype = "scel")
segmentCN("床前明月光，凝视地上霜")

segmentCN("天罡北斗阵和六脉神剑哪个更厉害")
listDict()
installDict("E://Rcode//source//金庸武功招式.scel","jinyong",dicttype = "scel")
segmentCN("天罡北斗阵和六脉神剑哪个更厉害")

#自定义词典
#手动添加或删除词汇，仅仅只在内存中临时添加，未记录下来
segmentCN("画角声断谯门")
insertWords("谯门")
insertWords("画角")
segmentCN("画角声断谯门")
deleteWords(c("谯门","画角"))
segmentCN("画角声断谯门")
#使用save参数，把操作记录下来，下回启动能直接用
insertWords(c("谯门","画角"),save=TRUE)
segmentCN("画角声断谯门")

时间： 2024-10-05 22:47:41

R分词的相关文章

R(八): R分词统计-老九门

整理笔记时,某人在看老九门,so 选它作例子.分析文本内容基本的步骤:提取文本中的词语 -> 统计词语频率 -> 词频属性可视化.词频:能反映词语在文本中的重要性,一般越重要的词语,在文本中出现的次数就会越多.词云:让词语的频率属性可视化,更加直观清晰.文本下载地址(http://www.yuandn.com/booktxt/59797/#download 效果图是将12章后面内容删除后结果) 目录: 效果示例图分词包介绍及安装词云包介绍安装分词统计词云展现效果示例图: 分词包介绍

Perl 调用R分词进行文本数据分析

最近有一个文本分析的需求,因分析系统用的是Perl,而Perl下优秀的中文文本分析包又少,所以调用R处理文本数据. 为什么不用Python 尽管Python拥有完备的NLP开源包支持,但是理由也很简单——因为Python目前接触不多,不敢班门弄斧,Python以后再说.目前,也只是需要的是一个快速原型,如果生产数据剧增,后期还需用c++重构下核心算法(顺便提一下,HMM就不重写了,吃力不讨好). 如何开始 1.安装R程序,将R程序安装路径加入环境变量. 2.测试命令行批跑功能 cmd 输入 Rs

R语言中文分词jiebaR

简介 "结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability), 隐式马尔科夫模型(Hidden Markov Model), 索引模型(QuerySegment), 混合模型(MixSegment), 共四种分词模式, 同时有词性标注,关键词提取,文本Simhash相似度比较等功能.项目使用了Rcpp和CppJieba进行开发. 特性支持 Windows , Linux操作系统(Mac 暂未测试). 通过Rcpp Modules实现同时加载多个分词系统

"结巴"中文分词的R语言版本：jiebaR

"结巴"中文分词的R语言版本,支持最大概率法(Maximum Probability),隐式马尔科夫模型(Hidden Markov Model),索引模型(QuerySegment),混合模型(MixSegment),共四种分词模式,同时有词性标注,关键词提取,文本Simhash相似度比较等功能.项目使用了Rcpp和CppJieba进行开发. 特性支持 Windows , Linux操作系统(Mac 暂未测试). 通过Rcpp Modules实现同时加载多个分词系统,可以分别使用不

中文分词实践（基于R语言）

背景:分析用户在世界杯期间讨论最多的话题. 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下: 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下. ================================================== * 中文分词常用实现: 单机:R语言+Rwordseg分词包 (建议数据量<1G) 分布式:Hadoop+Smallse

R系列：分词、去停用词、画词云（词云形状可自定义）

附注:不要问我为什么写这么快,是16年写的. R的优点:免费.界面友好(个人认为没有matlab友好,matlab在我心中就是统计软件中极简主义的代表).小(压缩包就几十M,MATLAB.R2009b的压缩包是1.46G).包多(是真的多,各路好友会经常上传新的包). R的麻烦之处:经常升级,是经常,非常经常,这就导致你在加载一个包之前需要考虑这个包要在R的哪个版本上才能使用,而往往做一件事情都要加载10个包左右,一般比较方便的做法就是先升级到最新版,因为只有小部分的包在新版本上不能用. 言归正

R语言中文分词包jiebaR

前言本文挖掘是数据挖掘中一个非常重要的部分,有非常广阔的使用场景,比如我们可以对新闻事件进行分析,了解国家大事:也可以对微博信息进行分析,通过社交舆情看看大家的关注点.通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章:同时可以对邮件分析,结合bayes算法判断哪些是垃圾邮件,哪些是有用的邮件. 本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果.R语言在分词方面有很好的支持,接下来就给大家介绍一个不错的R语言中文分词包"结巴分词"(jie

R语言进行中文分词

用两种方法进行中文分词:Rwordseg和jiebaR R语言的环境配置: R_Path: C:\Program Files\R\R-3.1.2 Path: %R_Path% 一.用Rwordseg包进行中文分词 (1)进行Java的环境变量配置: JAVA_HOME: C:\Program Files\Java\jdk1.8.0_31 Path: %JAVA_HOME%\bin;%JAVA_HOME%\jre\bin CLASSPATH: %JAVA_HOME%\lib\dt.jar;%JAV

R语言做文本挖掘 Part2分词处理

Part2分词处理在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包.参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看! 1. RWordseg功能说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍. 分词 > segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星