R文本挖掘之jiebaR包

library(jiebaRD)
library(jiebaR) ##调入分词的库
cutter <- worker()
mydata =read.csv(file.choose(),fileEncoding = ‘UTF-8‘,stringsAsFactors = FALSE,header=FALSE) ##读入数据(特别注意，read.csv竟然可以读取txt的文本)

content <-as.character(mydata) #将数据字符串化
segWords <- segment(content,cutter)

#读取停止词

#删除停用词（就是删除一些介词、叹词之类的词语，这些词语本身没多大分析意义，但出现的频率却很高，比如"的、地、得、啊、嗯、呢、了、还、于是、那么、然后"等等。前提是必须要有一个停用词库，网上搜索即可下载，也是一个txt的文本文件，每行一个词。网上有两种版本，一种是500多个词的，一种是1000多个词的）
f<- read.table(file = file.choose(), stringsAsFactors = FALSE) #stopword.txt
stopwords <- c(NULL) #定义一个空对象stopwords，并赋值为“空”
for(i in 1:length(f)){ #for循环，length（f）求得停止词库词条个数。
stopwords[i] <- f[i] #遍历停止词库，将第【i】个停止词赋值给stopwords
}

segWords <- gsub("[0-9a-zA-Z]+?","",segWords) #gsub用来去掉segWord文本中的数字，英文，但生成了空格，""产生了空格

library(stringr) #载入stringr包，仅用来去掉文本中的空格
segWords <- str_trim(segWords) #去掉segwords中的空格
txt.asvector <- unlist(segWords) #将segwords向量化
tableWord <- table(txt.asvector) #将txt.asvector生成为列联表
Wordresult<- tableWord[order(-tableWord)] #将tableword降序排列，从多到少排序

library(wordcloud2) #调入绘制词云的库
wordcloud2(Wordresult[1:100])

时间： 2024-10-13 16:22:46

R文本挖掘之jiebaR包的相关文章

R语言中文分词包jiebaR

前言本文挖掘是数据挖掘中一个非常重要的部分,有非常广阔的使用场景,比如我们可以对新闻事件进行分析,了解国家大事:也可以对微博信息进行分析,通过社交舆情看看大家的关注点.通过文本挖掘找到文章中的隐藏信息,对文章的结构进行分析,判断是不是同一个作者写文章:同时可以对邮件分析,结合bayes算法判断哪些是垃圾邮件,哪些是有用的邮件. 本文挖掘的第一步,就是要进行分词,分词将直接影响文本挖掘的效果.R语言在分词方面有很好的支持,接下来就给大家介绍一个不错的R语言中文分词包"结巴分词"(jie

eclipse android 不会自动生成R.java文件和包的解决办法

eclipse下编写android程序突然不会自动生成R.java文件和包的解决办法我的eclipse原来是好好的,什么问题都没有的,结果今天一打开新建一个android程序,发现工程里不会自动生成R.java文件了,导入其他工程也一样不行. 前几天安装了NDK开发环境,不知道是这个影响到的还是ADT升级了没有升级导致的. 这个问题网上搜索了下确定不是eclipse的问题,应该是ADT插件的问题,建议重新安装ADT插件. 我重装后先在好了,其他方法试了很多都不起作用.总结:eclipse不会自

R语言下解决包不能安装的问题

目的:这次主要是为了安装Rcpp包, 方法:install.packages("Rcpp") 结果:出错,,于是,我从官网下载Rcpp_0.11.2.tar.gz,在终端输入 R CMD INSTALL Rcpp_0.11.2.tar.gz,提示我的R语言版本太低,需要3.0以上改进:卸载R语言2.15版本后,重新安装 1: wget http://cran.r-project.org/src/base/R-2/R-3.1.0.tar.gz 2: tar -xzvf R-3.1.0.

R语言：recommenderlab包的总结与应用案例

R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路 recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架.它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造. (1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口.raringMatrix采用了很多类似矩阵对象的操作,如 dim(),dimnames() ,rowCo

R语言︱H2o深度学习的一些R语言实践——H2o包

R语言H2o包的几个应用案例笔者寄语:受启发想了解H2o平台的一些R语言实现,网上已有一篇H2o的demo文件.笔者在这多贴一些案例,并且把自己实践的一些小例子贴出来. 关于H2o平台长啥样,可以看H2o的官网,关于深度学习长啥样,可以看一些教程,比如ParallelR博客之中的解析. 下面主要是贴几个案例,让大家看看. ------------------------------------------------------------ Matt︱R语言调用深度学习架构系列引文 R语言︱H

在R中安装 sqldf包

安装这个包的时候直接 install.packages("sqldf")就可以不过可能会有点小插曲,就是会有报错: Error : .onLoad failed in loadNamespace() for 'tcltk', details:call: fun(libname, pkgname)error: Tcl/Tk support is not available on this systemError : package 'tcltk' could not be loaded

R语言文本挖掘+词云显示（jiebaR包+wordcloud2包）

利用2018年政府工作报告的例子向大家展示一下R语言如何进行文本挖掘的~用到的包有jiebaR和wordcloud2. 1.安装并加载jiebaR install.packages("jiebaR") library(jiebaR) 2.以2018年政府工作报告为文本,进行分词 (1)首先要将2018年政府工作报告以txt的形式下载到R语言的工作路径中读取文本: text<-readLines("E:/R-3.4.4/bin/workdirection/report.

R语言jiebaR包的分词学习

实训中的自然语言处理部分,首先就是要分词了,学习一下! 上手jiebaR 使用jiebaR的第一步当然是安装jiabaR包并加载咯安装: install.packages("jiebaR") 加载: library(jiebaR) 三种分词语句的写法: wk = worker() #方法1 wk["我希望未来会很好"] #方法2 wk<="我希望未来会很好" #此处用=的话可不行哟 #方法3 segment("我希望未来

重磅︱R+NLP：text2vec包简介（GloVe词向量、LDA主题模型、各类距离计算等）

词向量的表示主流的有两种方式,一种当然是耳熟能详的google的word2vec,还有一类就是GloVe.那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它就是text2vec啦.该包提供了一个强大API接口,能够很好地处理文本信息. 本包是由C++写的,流处理器可以让内存得到更好的利用,一些地方是用RcppParallel包进行并行化加乘,同时兼容各个系统的服务器.如果没有并行的地方,大家也可以自己用foreach包来自己加速. ----------

猜你喜欢

(转载)用vs2010开发基于VC++的MFC 串口通信一*****两台电脑同一个串口号之间的通信

此文章以visual C++数据採集与串口通信測控应用实战为參考教程此文章适合VC++串口通信入门一.页面布局及加入控件 1, 安装好vs2010如图 2, 新建一个基于VC++的MFC项目com ...

时间日期对话框

activity_ui2.xml <?xml version="1.0" encoding="utf-8"?> <LinearLayout x ...

进化策略-python实现

ESIndividual.py 1 import numpy as np 2 import ObjFunction 3 4 5 class ESIndividual: 6 7 ''' 8 indivi ...

hdoj 2473 Junk-Mail Filter【并查集节点的删除】

Junk-Mail Filter Time Limit: 15000/8000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others ...

自学.net（6）DBNULL

using System; using System.Collections.Generic; using System.Data; using System.Data.SqlClient; usin ...

hive 之简单查询报错

报错如下: 查看表数据存储的位置,文件情况发现hdfs 下该.gz压缩文件出现问题重新导入 load data local inpath '/home/dp/db_apptrack_mobile_p ...

S-Nim（hdu1536+SG函数）

S-Nim Time Limit: 5000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) Total Subm ...

算法4-6：关联数组的基本实现

本节主要介绍键值对表的基本实现方法. 链表法一种方法就是用链表进行实现.这样的方法的基本思想就是用链表储存键值对.当须要寻找一个值时,扫描整个链表,假设有匹配的键,就返回相应的值.当须要插入一个值时 ...

论文撰写

借用<微电子学与计算机>模板, 只用作学习

csv文件

CSV (Comma Separated Value,逗号分隔值) CSV文件实际上跟文本文件没什么区别,只是它里面的内容默认以","号隔开,系统默认用Excel打开. CSV是最 ...

一些flash和页面效果

人形时钟 <div height="120" width="150" align="center"><embed heig ...

解决php deprecated 的问题

Deprecated :意思是“不推荐” php 5.3 从一方面来讲,可以说在07年计划PHP6的中的一个pre版本,增加了很多功能,统一了很多语法,使PHP变得更加强大与简洁. 说到统计架构规划, ...

AngularJS中的transclusion案例

AngularJS中的transclusion类似于包含关系. 通常,这样定义一个directive: <mydirective someprop=""></my ...

由数字式子生成对应的二叉树

/*由式子生成二叉树*/ //例如输入:1-2*3+4/(5+6)-7*8# #include<stdio.h> #include<malloc.h> //////////// ...

JS 二维数组

给一个数组元素,赋一个数组的值,那么,这个数组就是“二维数组”. 二维数组,就得用两层循环来实现.也就是说循环套循环. 二维数组的循环,与二维表格的循环一模一样. 二维数组的访问:数组名后跟多个连续的 ...

Activiti 流程启动及节点流转源码分析

作者:jiankunking 出处:http://blog.csdn.net/jiankunking 本文主要是以activiti-study中的xiaomage.xml流程图为例进行跟踪分析具体的 ...

Haskell -- list

List 中的元素类型必须一致 List 中的 List 可以是不同长度,但必须得是相同的类型拼接操作符++ 另:字符串 "AB" 只是 ['A', 'B'] 的语法糖,可以用l ...

苹果iPhone 7发布:中国5388元起 9月16日上市

9月8日消息,苹果今天凌晨在美国召开秋季新品发布会,带着双摄像头.新配色.Lightning耳机接口.防水等等新特性,苹果iPhone 7/7 Plus如期而至,国行分别为5388元与6388元起,将 ...

linux下修改MAC地址方法

在/etc/rc.d/rc.local里加上这三句(也可以在/etc/init.d/network里加下面三行) ifconfig eth0 down ifconfig eth0 hw ether 1 ...

angular学习笔记1

Angular发展史: 12年,angularJS1.0.0正式版推出:亮点功能基本齐备,如双向绑定.依赖注入.指令等: AngularJS1.3.x放弃支持IE8,推出了单次绑定语法: Angula ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.