R - package'tm' DocumentTermMatrix get error

> dtm <- DocumentTermMatrix(corpus)
Error: 不是所有的inherits(doc, "TextDocument")都是TRUE

Solution:

It seems this would have worked just fine in tm 0.5.10 but changes in tm 0.6.0 seems to have broken it. The problem is that the functions tolower and trimwon‘t necessarily return TextDocuments (it looks like the older version may have automatically done the conversion). They instead return characters and the DocumentTermMatrix isn‘t sure how to handle a corpus of characters.

So you could change to

corpus_clean <- tm_map(news_corpus, content_transformer(tolower))

Or you can run

corpus_clean <- tm_map(corpus_clean, PlainTextDocument)

after all of your non-standard transformations (those not in getTransformations()) are done and just before you create the DocumentTermMatrix. That should make sure all of your data is in PlainTextDocument and should make DocumentTermMatrix happy.

From: http://stackoverflow.com/questions/24191728/documenttermmatrix-error-on-corpus-argument

R - package'tm' DocumentTermMatrix get error

时间： 2024-12-05 06:48:43

R - package'tm' DocumentTermMatrix get error的相关文章

bug of Alphahull in R package

I have define an area with alphahull but I can't get the right point in the area. for example: > z.def$x [,1] [,2] [1,] 13.61808 26.67013 [2,] 12.82682 23.04007 [3,] 12.96585 19.08577 [4,] 14.

R执行报错：Error in `[<-.ts`(`tmp`,...only replacement of elements is allowed

原因: pred$mean是Time-Series类型,rbind函数不支持.通过as.double将其转换成double类型即可. 修改前代码: all_predata_time <- data.frame(pd=0.1,Row=1,preRow=0,pt=0.1,stasid='1',InitDate='1'); all_predata_time <- all_predata_time[-1,] stasPowerPre_Time <- function(staid){ testSr

R语言文本挖掘 tm包使用

#清除内存空间 rm(list=ls()) #导入tm包 library(tm) library(SnowballC) #查看tm包的文档 #vignette("tm") ##1.Data Import 导入自带的路透社的20篇xml文档 #找到/texts/crude的目录,作为DirSource的输入,读取20篇xml文档 reut21578 <- system.file("texts", "crude", package = &quo

package(1):tm

tm包是R语言中为文本挖掘提供综合性处理的package,进行操作前载入tm包,vignette命令可以让你得到相关的文档说明.使用默认安装的R平台是不带tm package的,在安装的过程中,它会依赖于NLP','BH' ,'slam'包,所以最简单的方式就是采用在线安装. 在tm 中主要的管理文件的结构被称为语料库(Corpus),代表了一系列的文档集合 tm包安装在安装依赖的slam包时,出现如下异常,R版本3.2.5 > install.packages("slam"

Create and format Word documents using R software and Reporters package

http://www.sthda.com/english/wiki/create-and-format-word-documents-using-r-software-and-reporters-package Install and load the ReporteRs R package Create a simple Word document Add texts : title and paragraphs of texts Format the text of a Word docum

分类算法简介基于R

最近的关键字:分类算法,outlier detection, machine learning 简介: 此文将 k-means,decision tree,random forest,SVM(support vector mechine),人工神经网络(Artificial Neural Network,简称ANN )这几种常见的算法 apply 在同一个数据集 spam,看各种方法预测错误率,或准确率,旨在追求预测准确性,辨识出这几种方法的实用性,对背后的理论依据,大量的数学公式,不作讨论(能

R TUTORIAL: VISUALIZING MULTIVARIATE RELATIONSHIPS IN LARGE DATASETS

In two previous blog posts I discussed some techniques for visualizing relationships involving two or three variables and a large number of cases. In this tutorial I will extend that discussion to show some techniques that can be used on large datase

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

SparkR (R on Spark) 概述 SparkDataFrame 启动: SparkSession 从 RStudio 来启动创建 SparkDataFrames 从本地的 data frames 来创建 SparkDataFrames 从 Data Sources(数据源)创建 SparkDataFrame 从 Hive tables 来创建 SparkDataFrame SparkDataFrame 操作 Selecting rows(行), columns(列) Groupin

开发自己的R包(转)

R不必说,数据统计分析可视化的必备语言,R包开发的门槛比较低,所以现在随便一篇文章都会发表一个自己的R包,这样有好处(各种需求早有人帮你解决了)也有坏处(R包太多,混乱,新手上手较难).作为生信工程师,日常就是查看别人写的R包,分析数据,然后借鉴.修改,根据自己的需求开发新的R包. 前言R是一个世界范围开发者共同协作的产物,至2013年2月共计近5000个包可在互联网上自由下载.现在作为R的使用者,有朝一日也可以成为R的开发者,把我们自己的知识做成R包分享给世界. 今天我们简单介绍如何开发自己R

猜你喜欢

CentOS6下安装Java jdk1.7.0_10

安装步骤如下: 1. 下载JDK7.0_10 (jdk-7u10-linux-i586.tar.gz) 地址: 2. 卸载系统自带的开源JDK 查看是否安装JDK rpm -qa | grep jav ...

IOS内容属性总结

四个容易混淆的属性 1.textAlignment:文字的水平方向对齐方式 1>取值 NSTextAlignmentLeft NSTextAlignmentCenter NSTextAlignm ...

js调用打印机自动分页的功能（仅适用于IE浏览器）

做个功能需要打印的时候添加分页,哪怕是内容不够也需要分页. 浏览器上显示打印预览是这样的: 模拟打印出来是这样的都是显示的是5页,方法很简单.在需要分页的位置加上一行代码: <div cla ...

泛型编程接口编程 MVC原理 IIS原理 HttpModel HttpHandle Dictionary 持续集成(Continuous integration) 持续交付持续部署抽象类.接口

jquery清空textarea等输入框

转载自:http://blog.csdn.net/dyllove98/article/details/8870307 完整示例:http://www.keleyi.com/keleyi/phtml/c ...

MySQL学习笔记（2/2）

SQL种类 DDL/DML/DQL/DCL 数据定义语言(DDL):CREATE.DROP.ALTER 用于定义和管理数据对象(库,表,索引,视图),包括数据库.数据表等.例如:CREATE.DROP ...

JDBC链接数据库

一.接口: java.sql. DriverManager接口: java.sql. Driver 接口: java.sql.Connection接口: java.sql.Statement接口: j ...

去掉谷歌input记住账号或密码时默认出现的黄色背景

在谷歌浏览器会默认记住账号,而记住账号之后其input的背景会变成黄色,解决的办法如下: 方法一:直接用css的内阴影来覆盖黄色,代码如下: input:-webkit-autofill { -web ...

Time Limit: 3000/1500 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others) Total Submissi ...

Socket网络编程一

1.Socket参数介绍 A network socket is an endpoint of a connection across a computer network. Today, most ...

拓扑排序 - 并查集 - Rank of Tetris

Description 自从Lele开发了Rating系统,他的Tetris事业更是如虎添翼,不久他遍把这个游戏推向了全球. 为了更好的符合那些爱好者的喜好,Lele又想了一个新点子:他将制作一个全球 ...

iOS 9 升级过程汇中白苹果 iPhone或iPad 解决方案

最近想必有很多朋友升级了iOS 9,不过有部分朋友在升级过程中遇到了白苹果问题.也就是卡在升级过程中,不限重启.这时,你只能通过dfu进行升级了. ios9怎么进入dfu模式: 1.将你的iPhone ...

让程序员不再苦逼的神器(上)

乘风破浪,启航未来! 做程序猿「媛」是一个苦逼的活,大周六地早起在技术群里招呼,看到没有啥人响应,说了一句,「估计都没有醒」,然后一位哥们抛过来,「在加班」 ! 做 Web 开发更是一个苦逼的活,不像 ...

超不错的银灰色竖排折叠菜单

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "<a href="h ...

php创建udp Server

<?php//服务器信息$server = 'udp://127.0.0.1:7002';//----UDP Server$msgEof = "\n";$socket = s ...

Styling Chrome's console.log

Recently I read from a blog that console.log can log text with specific styles. By using "%c&qu ...

POJ 2155 Matrix (树状数组 && 区间计数)

题意 : 给出一个N*N的矩阵, 矩阵只有可能包含0或1, 一开始则全部是0.对于矩阵可以进行两种操作, 第一种是输入 C x1 y1 x2 y2 表示, 对以(x1, y1)为左上角, 以(x2, ...

BITMAPINFOHEADER、BITMAPV4HEADER和BITMAPV5HEADER三者联系区别

(一)BITMAPINFOHEADER 结构 typedef struct tagBITMAPINFOHEADER // bmih { DWORD biSize ; // size of the st ...

linux 安装xamp

前一久用上了ubuntu,想折腾下小窝,懒得自己去装Php啊,apache 之类的东西,刚才用上xampp,直接点,等以后要涉及深再弄,暂时先用着xampp.还不错,很好用,这里简单说下安装,(我是新 ...

Mongodb密码安全设置

先从官网下载mongo安装包(建议安装3.0之后的版本)版本选择下载链接: https://www.mongodb.org/dl/win32/x86_64-2008plus-ssl?_ga=2.210 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.