在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法

原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html

在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法。
1.查看数据

head(dataframe) # 查看数据前10行
tail(dataframe) # 查看数据后10行

2.合并数据
(1)data.frame(x,y)
x,y是dataframe或者一列数据,x和y的行数一样,该操作得到一个新的dataframe,
该dataframe是x和y拼合而成,行数与x/y的行数相同,列数为x和y的列数和。
例:

 > x<-c(1:10) > y<-x^2 > newdata<-data.frame(x,y) > head(newdata) x y 1 1 1 2 2 4 3 3 9 4 4 16 5 5 25 6 6 36 > z<-c(2:11) > newdata<-data.frame(newdata, z) > head(newdata) x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 

(2)cbind(x,y)
等同于data.frame(x,y)

(3)rbind(x,y)
x,y均为data.frame,要求x和y的列向量个数一致,该操作得到一个新的dataframe,
该dataframe是x和y的数据拼接起来,行数等于x和y的行数之和,列数等于x/y的列数
例:

 > t<-c(0,0,0) > newdata<-rbind(newdata, t) > newdata x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11 11 0 0 0 
 

3.筛选数据
(1)subset:从一个dataframe中筛选出符合条件的数据

 > newdata x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11 11 0 0 0
 > newdata.subset<-subset(newdata, z>5) > newdata.subset x y z 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 1
 > subset(newdata, z>6&x>8) x y z 9 9 81 10 10 10 100 11
 > subset(newdata, z>6|x!=0) x y z 1 1 1 2 2 2 4 3 3 3 9 4 4 4 16 5 5 5 25 6 6 6 36 7 7 7 49 8 8 8 64 9 9 9 81 10 10 10 100 11 
 

(2)transform:对一个dataframe做一些变换

 > newdata.tran x y z newx 1 1 1 2 -1 2 2 4 3 -2 3 3 9 4 -3 4 4 16 5 -4 5 5 25 6 -5 6 6 36 7 -6 7 7 49 8 -7 8 8 64 9 -8 9 9 81 10 -9 10 10 100 11 -10 11 0 0 0 0 > newdata.tran<-transform(newdata, newx=-x, newy=log(y)) > newdata.tran x y z newx newy 1 1 1 2 -1 0.000000 2 2 4 3 -2 1.386294 3 3 9 4 -3 2.197225 4 4 16 5 -4 2.772589 5 5 25 6 -5 3.218876 6 6 36 7 -6 3.583519 7 7 49 8 -7 3.891820 8 8 64 9 -8 4.158883 9 9 81 10 -9 4.394449 10 10 100 11 -10 4.605170 11 0 0 0 0 -Inf
 
 
 4.去除重复数据
 
 > x<-c(1,0,1,0); > y<-c(0,0,1,0) > test<-data.frame(x,y) > test x y 1 1 0 2 0 0 3 1 1 4 0 0 > duplicated(test) [1] FALSE FALSE FALSE TRUE

 > test1<-test[which(!duplicated(test)),] > test1 x y 1 1 0 2 0 0 3 1 1 

5.两种数据按照指定key聚合
(1)merge > z # z是一个dataframe
 

x y
1 1 5
2 2 9
3 3 4

> w # w是一个dataframe
w1 w2
1 5 2.5
2 4 2.0
3 9 3.0

现在想将w的第二列按照z的第二列和w的第一列的对应关系合并到z里面
即变成:
x y w2
1 1 5 2.5
2 2 9 3.0
3 3 4 2.0

merge(z, w, by.x=‘y‘, by.y=‘w1‘, sort=F)
  y x  w2
1 5 1 2.5
2 9 2 3.0
3 4 3 2.0

  6.数据聚合,融合(需要载入reshape包) 
  (1)melt(data, id.vars, measure.vars)      data以id.vars指定的列为key,将measure.vars指定的列做拆分,以前的key->a1,a2,...aN 拆成 key->a1, key->a2, ..., key->aN。在拆分   的时候增加一个label,表明a1,a2,...,aN来源于以前的data中的哪一列。  例:df是一个dataframe,包含x,y坐标,对应的label,以及用logit和svm预测的结果,我们希望按照x,y把一行数据按照label,logit,svm拆成三行数据,分别用不同的标号代表来源于label、logit还是svm,然后用另外一个标号表示原来label,logit,svm的取值,因此原来2500行的数据会被拆分成7500个(2500*3),同时原来5列变量变成4列变量(x,y,值来源于哪一列,该列的取值)
 > head(df) X Y Label Logit SVM 1 0.2655087 0.52601906 1 0 1 2 0.3721239 0.07333542 1 0 1 3 0.5728534 0.84974175 1 0 1 4 0.9082078 0.42305801 0 0 0 5 0.2016819 0.98809607 0 0 1 6 0.8983897 0.47887413 0 0 0 > dim(df) [1] 2500 5 > predictions <- melt(df, id.vars = c(‘X‘, ‘Y‘)) > head(predictions) X Y variable value 1 0.2655087 0.52601906 Label 1 2 0.3721239 0.07333542 Label 1 3 0.5728534 0.84974175 Label 1 4 0.9082078 0.42305801 Label 0 5 0.2016819 0.98809607 Label 0 6 0.8983897 0.47887413 Label 0 > dim(predictions) [1] 7500 4 > table(predictions$variable) Label Logit SVM 2500 2500 250 
 
(2)cast
 
head(installations)
# Package User Installed
#1 abind 1 1
#2 AcceptanceSampling 1 0
#3 ACCLMA 1 0
#4 accuracy 1 1
#5 acepack 1 0
#6 aCGH.Spline 1 0

# Ninth code snippet
library(‘reshape‘)

# user和Package构成一个矩阵,矩阵的数值用installed列对应的数填充,即matrix(i,j)表示用户i是否有安装packagej
user.package.matrix <- cast(installations, User ~ Package, value = ‘Installed‘) 

user.package.matrix[, 1] # 第一列表示user的编号
# [1] 1 3 4 5 6 7 8 9 11 13 14 15 16 19 21 23 25 26 27 28 29 30 31 33 34
#[26] 35 36 37 40 41 42 43 44 45 46 47 48 49 50 51 54 55 56 57 58 59 60 61 62 63
#[51] 64 65

user.package.matrix[, 2] # 后面n列表示每个user是否有按照某个Package包
# [1] 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 1 1 1 1 1 0 1 0 1 0 1 1 1 1 1 1
#[39] 1 1 1 1 1 1 1 1 0 1 1 1 1 1
时间: 2024-10-05 20:33:47

在使用R做数据挖掘时,最常用的数据结构莫过于dataframe了,下面列出几种常见的dataframe的操作方法的相关文章

R语言学习路线和常用数据挖掘包(转)

对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是——看书.目前,市面上介绍R语言的书籍很多,中文英文都有.那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问.有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路. 本文分为6个部分,分别介绍初级入门,高级入门,绘图与可

R语言数据挖掘实战系列(5)

R语言数据挖掘实战系列(5)--挖掘建模 一.分类与预测 分类和预测是预测问题的两种主要类型,分类主要是预测分类标号(离散属性),而预测主要是建立连续值函数模型,预测给定自变量对应的因变量的值. 1.实现过程 (1)分类 分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到预先定义好的类别.分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习. (2)预测 预测是建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制.

R语言数据挖掘实战系列(1)

R语言数据挖掘实战(1) 一.数据挖掘基础 数据挖掘:从数据中"淘金",从大量数据(包括文本)中挖掘出隐含的.未知的.对决策有潜在价值的关系.模式和趋势,并用这些知识和规则建立用于决策支持的模型,提供预测性决策支持的方法.工具和过程. 数据挖掘的任务 利用分类与预测.聚类分析.关联规则.时序模式.偏差检测.智能推荐等方法,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力. 数据挖掘建模过程 定义挖掘目标,即决定到底想干什么? 数据取样.抽取一个与挖掘目标相关的样本数据子集.抽取数据的

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类.决策树和CRISP-DM概念 接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例 一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘.本文主要讲解数据挖掘的基本规范流程.CRISP-DM和SEMMA是两种常用的数据挖掘流程. 数据

做dg时遇到的log_archive_dest、log_archive_dest_1、db_recovery_file_dest之间互相影响

前提:归档开启,默认不指定归档目录. 今晚遇到客户那里设置了闪回区和log_archive_dest,不停库做DG时,无法指定log_archive_dest_n参数,巨坑..实验了下,结论如下: 数据库版本:ORACLE10.2.0.1 1.未设置闪回区时,可以动态配置log_archive_dest或log_archive_dest_1 2.配置闪回区时,不可以动态配置log_archive_dest 3.配置了闪回区和log_archive_dest后,不可动态配置log_archive_

BI工具怎么做数据挖掘?

大数据价值的体现离不开数据挖掘,它的主要目的是从各种各样的数据来源中,提取出隐藏的信息,然后将这些信息合并发现其内在关系.数据挖掘任务除了专门的一些工具外,实际上BI工具也可以进行数据挖掘,市面上的一些BI工具不单单是数据分析工具,而且内置了很多模型算法,无需分析人员自己建模就可以完成数据挖掘,探索数据之间的关系.文章主要围绕数据挖掘方法和BI工具做数据挖掘的实例进行讲解. 数据挖掘的主要方法数据挖掘分为有指导的数据挖掘和无指导的数据挖掘.有指导的数据挖掘是利用可用的数据建立一个模型,这个模型是

VS2013 C# 调用 cognex 的QuickBuild做程序时发生一个错误

今天在用 VS2013 C# 调用 cognex 的QuickBuild做程序时发生一个错误,如下所示 混合模式程序集是针对"v2.0.50727"版的运行时生成的,在没有配置其他信息的情况下,无法在 4.0 运行时中加载该程序集 网上搜索得到解决办法: 在app.config中添加一个配置节:startup <startup useLegacyV2RuntimeActivationPolicy="true"> <supportedRuntime

Nginx/tengine做cache时缓存机制—存不存、存多久、用不用方法论(图自画)

Nginx/tengine(后面名称只写nginx了)单纯做cache性能比不过ats,特别是在磁盘处理方面,不过论综合能力nginx就是大拿了,他集web服务器.负载均衡.cache三种能力于一身,可以说是非常综合性的选手.比如说一个中型网站的场景选型,前端是负载,后端托着一堆apache服务器,现在该到前端负载选型的了,虽然lvs和ha单纯从负载的性能要比nginx好一些,但我还是会选nginx,因为nginx在做负载的同时,可以将热点的静态内容cache一遍,做一次加速,无形间减轻了后端w

以函数返回值做参数时,函数调用的顺序

环境:vs2013 在下面的代码中 1 //类似于下面的代码 2 3 foo(char*,char*,char*); 4 5 char* str ="A#B#C"; 6 7 foo(strtok(str,"#"),strtok(NULL,"#"),strtok(NULL,"#")); 预计让函数foo得到("A","B","C")的参数,程序编译的时候没问题,但是运行