“ML_for_Hackers”[2]

今天在处理文本回归时，遇到一个问题，需要记录。

ranks <- read.csv(‘/Users/lvxubo/Desktop/ML_for_Hackers-master/06-Regularization/data/oreilly.csv‘,stringsAsFactors=FALSE)
library(‘tm‘)
documents <- data.frame(Text=ranks$Long.Desc.)
row.names(documents) <- 1:nrow(documents)

corpus <- Corpus(DataframeSource(documents))
corpus <- tm_map(corpus,tolower)
corpus <- tm_map(corpus,stripWhitespace)
corpus <- tm_map(corpus,removeWords,stopwords(‘english‘))
corpus <- tm_map(corpus, PlainTextDocument)

dtm <- DocumentTermMatrix(corpus)

如果没有标记的一句代码，会报错：

Error in UseMethod("meta", x) : "meta"没有适用于"character"目标对象的方法
此外: Warning message:
In mclapply(unname(content(x)), termFreq, control) :
  all scheduled cores encountered errors in user code

这是stackoverflow上的解决：

It seems this would have worked just fine in tm 0.5.10 but changes in tm 0.6.0 seems to have broken it. The problem is that the functions tolower and trim won‘t necessarily return TextDocuments (it looks like the older version may have automatically done the conversion). They instead return characters and the DocumentTermMatrix isn‘t sure how to handle a corpus of characters.

So you could change to

corpus_clean <- tm_map(news_corpus, content_transformer(tolower))

Or you can run

corpus_clean <- tm_map(corpus_clean, PlainTextDocument)

after all of your non-standard transformations (those not in getTransformations()) are done and just before you create the DocumentTermMatrix. That should make sure all of your data is in PlainTextDocument and should make DocumentTermMatrix happy.

时间： 2024-10-25 07:55:48

“ML_for_Hackers”[2]的相关文章

[读书笔记]机器学习：实用案例解析（5）

第5章回归模型:预测网页访问量回归模型:用已知数据集预测另外一个数据集,已知数据集称为输入,也叫预测变量或特征,想要预测的数据称为输出.回归模型与分类模型的不同之处在于回归模型的输出是有意义的数值. 基准模型:用均值作为预测 #machine learing for heckers #chapter 5 library(ggplot2) ages <- read.csv('ML_for_Hackers/05-Regression/data/longevity.csv') #密度图 ggpl

[读书笔记]机器学习：实用案例解析（7）

第7章优化:密码破译优化简介:最优点(optimum),优化(optimization) 本章研究的问题:构建一个简单的密码破译系统,把解密一串密文当做一个优化问题. 优化方法:网格搜索(grid search),主要问题是1.步长的选择:2.维度灾难(Curse of Dimensionality):问题规模过大 optim函数:比网格搜索更快,可以通过已经计算出的信息推断出下一步的方向,同时对所有变量一起优化.(根据书中后文,可能的原理是根据导数得出下一步的进行方向,因为该函数对于不可

[读书笔记]机器学习：实用案例解析（2）

第2章数据分析 #machine learing for heckers #chapter 2 library(ggplot2) heights.weights <- read.csv("ML_for_Hackers/02-Exploration/data/01_heights_weights_genders.csv", header = TRUE, sep = ",") #不同区间宽度的直方图 ggplot(heights.weights, aes(x

R语言：用简单的文本处理方法优化我们的读书体验

前言延续之前的用R语言读琅琊榜小说,继续讲一下利用R语言做一些简单的文本处理.分词的事情.其实就是继续讲一下用R语言读书的事情啦,讲讲怎么用它里面简单的文本处理方法,来优化我们的读书体验,如果读邮件和读代码也算阅读的话..用的代码超级简单,不涉及其他包这里讲两个示例,结尾再来吐槽和总结. 1)R-Blogger订阅邮件拆分 2) R代码库快速阅读方法不在博客园上阅读时才会看到的,这篇博文归 http://www.cnblogs.com/weibaar所有仅保证在博客园博客上的排版干净利索

[读书笔记]机器学习：实用案例解析（1）

第1章使用R语言 #machine learing for heckers #chapter 1 library(ggplot2) library(plyr) #.tsv文件用制表符进行分割#字符串默认为factor类型,因此stringsAsFactors置FALSE防止转换#header置FALSE防止将第一行当做表头#定义空字符串为NA:na.strings = "" ufo <- read.delim("ML_for_Hackers/01-Introduct

Machine Learning for hackers读书笔记(十二)模型比较

library('ggplot2')df <- read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\12-Model_Comparison\\data\\df.csv') #用glm logit.fit <- glm(Label ~ X + Y,family = binomial(link = 'logit'),data = df) logit.predictions <- ifelse(predict(logit

[读书笔记]机器学习：实用案例解析（4）

第4章排序:智能收件箱有监督学习与无监督学习:有监督学习已有明确的输出实例:无监督学习在开始处理数据时预先并没有已知的输出实例. 理论上邮件的优先级特征: 社交特征:收件人与发件人之间的交互程度内容特征:收件人对邮件采取行为(回复.标记等)与某些特征词之间相关线程特征:记录用户在当前线程下的交互行为标签特征:检查用户通过过滤器给邮件赋予的标签(标记) 由于数据量不足,本文用于替代的优先级特征:(需要抽取的元素) 社交特征:来自某一发件人的邮件量(发件人地址) 时间量度:(接受时间日期

[读书笔记]机器学习：实用案例解析（3）

第3章分类:垃圾过滤 #machine learing for heckers #chapter 3 library(tm) library(ggplot2) #设置路径变量 spam.path <- "ML_for_Hackers/03-Classification/data/spam/" spam2.path <- "ML_for_Hackers/03-Classification/data/spam_2/" easyham.path <-

Machine Learning for hackers读书笔记(十)KNN：推荐系统

#一,自己写KNN df<-read.csv('G:\\dataguru\\ML_for_Hackers\\ML_for_Hackers-master\\10-Recommendations\\data\\example_data.csv')head(df) #得出距离矩阵distance.matrix <- function(df){ #生成一万个NA,并转成100*100的矩阵 distance <- matrix(rep(NA, nrow(df) ^ 2), nrow = nrow

猜你喜欢

重写equals()方法和 hashCode()方法

java中判断两个对象是否相等的规则:首先,判断两个对象的hashCode是否相等如果不相等,认为两个对象也不相等如果相等,则判断两个对象用equals运算是否相等如果不相等,认为两个对象也不相 ...

继续发博客，开始全方面发展熟悉net开发

VS2017已折腾好几天,终于理顺了现在基本可以在原来基础上开发今天开通博客,每天记录学习情况总结前面学到的经验: 1.VS2017只用选择一个基本的windows窗体安装即可,才1-3G空间, ...

font awesome 符号字体

http://www.fontawesome.com.cn/ 引用CSS包之后根据图标库找到所需的图标代码使用i标签或者a标签皆可,符号为文字性质,可以直接通过修改text颜色从而修改符号颜色

该离开了吗？

好久没有写文章了,记得以前手放在键盘上,随便就能刷刷的勾勒出一篇文章,不管文采如何,倒是读起来也是朗朗上口.现在坐在电脑桌前,看看白白的屏幕,听着静静的音乐,手指始终难以按下一个字母. 人真的要老了, ...

从软件开发角度，审视编码规范

本文综述:编码实践中遇到的问题总结和分析(实践总结) 1. 将单一的功能独立出来,不要将代码写成一坨坨的:功能独立出来后,能够从主程序中看出主要的逻辑(易于整理处理文档),而不是什么都看不出来. 2. ...

ppt罗列项排版

关于罗列项的排版(1,....2,......3,......4,........)

242. Valid Anagram Add to List

Given two strings s and t, write a function to determine if t is an anagram of s. For example,s = &q ...

Android开发：java.lang.IllegalStateException报错

常见于ListView列表刷新数据时,更改UI. LOG: The content of the adapter has changed but ListView did not receive a ...

一种组合算法的实现

一种从n个数字选出m个数字的组合,算法如下: public class MathCombine { /** * @param args */ public static void main(Strin ...

关于Task的一点思考和建议

前言本打算继续写SQL Server系列,接下来应该是死锁了,但是在.NET Core项目中到处都是异步,最近在写一个爬虫用到异步,之前不是很频繁用到异步,当用到时就有点缩手缩尾,怕留下坑,还是小心 ...

如何保持缓存的一致性

一:系统中对谁进行了缓存在当前的系统中,在全部的控制器中,涉及到了用户,会存在一个 User2.GetCurrentSession() 方法,如下: public static User2 Ge ...

备忘录模式——HeadFirst设计模式学习笔记

备忘录模式:在不破坏封装性的前提下,捕获一个对象的内部状态,并在该对象之外保存这个状态.可以将该对象恢复到原先保存的状态 Java中可以使用序列化机制保存状态发起人:记录当前时刻的内部状态,负责定义 ...

Java-->用递归方法复制目录、子目录以及文件(文件用到IO流)

package com.dragon.java.newcopyfile; import java.io.File; import java.io.FileInputStream; import jav ...

IntelliJ IDEA 乱码解决方案（项目代码、控制台等）

最近IDE从eclipse改成IntelliJ IDEA 了,原因是公司大部分人都在用这个IDE,而且一直推荐用,所以尝尝鲜.换的第一天,就遇到了哪个IDE都会遇到的乱码问题,耗费了好多时间最终解决了 ...

HDOJ 题目2670 Girl Love Value（01背包）

Girl Love Value Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) ...

Hyper-V 2016 系列教程25 配置NFS 存储服务器

一般企业在虚拟化服务器上线后,会有一部分的物理服务器淘汰下来,而这些服务器有的性能虽然不是最好的,但是硬盘却是专业的RAID级别的,甚至还没有过厂家的保修期,所以如果能将这些资源充分利用起来,也能为企 ...

【CSS/JS学习】如何实现单行／多行文本溢出的省略（...）--老司机绕过坑道的正确姿势

引言: 写前端UI的朋友们也许都遇到过这样的问题:我们需要实现这样一个需求,在一个父级元素中隐藏一个可能过长的文本: 这个文本可能是单行的: 也可能是多行的: 下面我就给大家展示如何简单或优雅地实现这 ...

初次新建android项目时可能出现的错误

错误1:在新建android项目的时候,自动产生一个appcompat_v7项目,而且可能会报错,解决办法请参照:http://bbs.itcast.cn/thread-25953-1-1.html ...

python异步socket编程之一

异步网络能极大地提高程序的并行处理能力,所以写了一个专题来总结python中的异步通信. 一.同步client与同步server的通信 1.1. <python的socket通信实例>中的 ...

无线同步技术

无线同步技术最近,想写一些关于无线同步技术的文章,及相关应用,与大家共同学习. 自己先来个定义:无线同步技术,是指利用相互通信的两个或多个无线模块,达到时间同步的目标,从而实现无线同步的技术. 同步 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.