R语言做文本挖掘 Part1

Part1安装依赖包

R语言中中文分析的软件包是Rwordseg,Rwordseg软件包依赖rJava包,rJava需要本机中有安装Java。

 

第一步是安装Java,请安装JDK,JRE不行。请对应机型,下载安装32位的JDK。机器里已经有JDK的也请改成32位的,不然没办法使用Rwordseg,尝试使用过64位的,不可行。

下载地址:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

查看JAVA是否安装成功,运行cmd,输入java –version,如果能正常显示你的Java版本则安装正确。如下图:

 

第二步是安装rJava,这个直接在R或者RStudio里面安装软件包就行了。如果是刚安装完java记得重启你的R或者RStudio。

重点:一般在安装R的时候可以选择32位或者64位的,尽量都安装,运行Ri386 3.1.2。如果是你用的是RStudio,请设置为32位,设置方法,工具栏Tools > Global Options > General,R version,改成32-bit。

直接输入命令安装:Install.packages(“rJava”);或者在操作界面直接选择安装程序包,在CRAN上选择rJava安装。

安装完后需要添加下面环境变量配置在Path下(感觉路径配置没起作用,可以不配):

%JAVA_HOME%\jre\bin\client;

%JAVA_HOME%\jre\bin\server;

E:\programFiles\R\R-3.1.2\library\rJava\jri

加载rJava包,library(“rJava”),没提示错误则rJava安装成功。

R的下载地址:http://cran.rstudio.com/

RStudio的下载地址:http://www.rstudio.com/products/rstudio/#Desk

 

第三步是安装Rwordseg。

Rwordseg项目目前发布在R-forge上,所以不能直接在R或者Rstudio中用安装软件包功能。网上有说(参考http://jliblog.com/app/rwordseg):

在最新版本的R下可以直接安装:

1
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org")

如果是旧版本的R,可以通过source的方式进行安装:

1
install.packages("Rwordseg", repos = "http://R-Forge.R-project.org", type = "source")

但是这样安装不成功。后来尝试把软件包下载到本地后,从本地安装,可行。

下载地址:http://R-Forge.R-project.org/bin/windows/contrib/3.0/Rwordseg_0.2-1.zip

下载完成后,在R或者RStudio中选择从本地zip文件安装软件包。安装完成后,加载程序包library(“Rwordseg”)。尝试使用Rwordseg,如下一个简单的例子:

1
segmentCN(c("生命在于运动", "生活处处皆风景"))
[[1]]
[1] "生命" "在于" "运动"
 
[[2]]
[1] "生活" "处处" "皆"   "风景"

另外,该R包的中文文档下载地址:http://download.csdn.net/detail/cl1143015961/8436741

该文档中很详细地说明了软件包的功能,包括如何做分词,如何添加删除词语,如何添加删除字典,它支持的字典除了.dic格式之外,还有.scel(搜狗输入法的词库)。搜狗输入法的词库下载地址http://pinyin.sogou.com/dict/,选择你自己需要的分类去做尝试吧!

时间: 2024-10-07 06:51:49

R语言做文本挖掘 Part1的相关文章

R语言做文本挖掘 Part3文本聚类

Part3文本聚类 分类和聚类算法,都是数据挖掘中最常接触到的算法,分类聚类算法分别有很多种.可以看下下面两篇文章对常见的分类聚类算法的简介: 分类算法:http://blog.csdn.net/chl033/article/details/5204220 聚类算法:http://blog.chinaunix.net/uid-10289334-id-3758310.html 文本分类聚类会要用到这些算法去实现,暂时不用深究算法细节,R中已经有成熟的可以直接调用的这些算法了.大概说下分类和聚类的差

R语言做文本挖掘 Part2分词处理

Part2分词处理 在RStudio中安装完相关软件包之后,才能做相关分词处理,请参照Part1部分安装需要软件包.参考文档:玩玩文本挖掘,这篇文章讲用R做文本挖掘很详尽,并且有一些相关资料的下载,值得看看! 1.       RWordseg功能 说明文档可在http://download.csdn.net/detail/cl1143015961/8436741下载,这里只做简单介绍. 分词 > segmentCN(c("如果你因为错过太阳而流泪", "你也会错过星星

R语言做文本挖掘Part5

Part5情感分析 这是这个系列里面最后一篇文章了,其实这里文本挖掘每一个部分单拎出来都是值得深究和仔细研究的,我还处于初级研究阶段,用R里面现成的算法,来实现自己的需求,当然还参考了众多网友的智慧结晶,所以也想把我的收获总结出来分享给大家,希望也能像我一样在看大家的分享时得到自己的启发. 网上翻了下中文文本情感分析的一些文章,再回想了一下我自己做情感分析的方法,觉得我的想法真的是简单粗暴直接.这是一篇介绍中文文本情感分析倾向的论文.http://wenku.baidu.com/link?url

R语言做文本挖掘Part4

Part4文本分类 Part3文本聚类里讲到过,分类跟聚类的简单差异.所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本:测试集,可以就用训练集来替代:预测集,就是未分类的文本,是分类方法最后的应用实现. 1.       数据准备 训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理.这里还是使用的某品牌的官微数据,根据微博内容,我将它微博的主要内容分为了:促销资讯(promotion).产品推介(product).公益信息(publicWelfare

R语言做文本挖掘 Part4文本分类

Part4文本分类 Part3文本聚类提到过.与聚类分类的简单差异. 那么,我们需要理清训练集的分类,有明白分类的文本:測试集,能够就用训练集来替代.预測集,就是未分类的文本.是分类方法最后的应用实现. 1.       数据准备 训练集准备是一个非常繁琐的功能,临时没发现什么省力的办法,依据文本内容去手动整理.这里还是使用的某品牌的官微数据,依据微博内容.我将它微博的主要内容分为了:促销资讯(promotion).产品推介(product).公益信息(publicWelfare).生活鸡汤(l

[译]用R语言做挖掘数据《一》

介绍 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’即可进入交互式环境,下面的代码都是在交互式环境运行. 3. 环境使用 使用R语言交互式环境输入

[译]用R语言做挖掘数据《七》

时间序列与数据挖掘 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器3. R:在命令行输入‘R’进入交互式环境,下面的代码都是在交互式环境运行4. 数据:在命令行终端输入以下命令:

用R语言做挖掘数据《三》

决策树和随机森林 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器.3. R:在命令行终端输入‘R’,进入R的交互式环境,下面的代码都是在交互式环境运行. 3. 环境使用 使用

[译]用R语言做挖掘数据《五》

介绍 一.实验说明 1. 环境登录 无需密码自动登录,系统用户名shiyanlou,密码shiyanlou 2. 环境介绍 本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到程序: 1. LX终端(LXTerminal): Linux命令行终端,打开后会进入Bash环境,可以使用Linux命令2. GVim:非常好用的编辑器,最简单的用法可以参考课程[Vim编辑器](http://www.shiyanlou.com/courses/2)3. R:在命令行输入‘R’进入交互式环境,下