tidyr包--数据处理包

tidyr包的作者是Hadley Wickham。这个包常跟dplyr结合使用。本文将介绍tidyr包中下述四个函数的用法:

  • gather—宽数据转为长数据。类似于reshape2包中的melt函数
  • spread—长数据转为宽数据。类似于reshape2包中的cast函数
  • unit—多列合并为一列
  • separate—将一列分离为多列

1.载入包

# 使用datasets包中的mtcars数据集做演示
library(tidyr)
library(dplyr)
head(mtcars)

# 为方便处理,在数据集中增加一列car
mtcars$car <- rownames(mtcars)
mtcars <- mtcars[, c(12, 1:11)]

View(mtcars)

2.gather--宽数据转为长数据

使用gather()函数实现宽表转长表,语法如下:
gather(data, key, value, …, na.rm = FALSE, convert = FALSE)
data:需要被转换的宽形表
key:将原数据框中的所有列赋给一个新变量key
value:将原数据框中的所有值赋给一个新变量value
…:可以指定哪些列聚到同一列中
na.rm:是否删除缺失值

开始使用:

# 除了car列外,其余列聚合成两列,分别命名为attribute和value
mtcarsNew <- mtcars %>% gather(attribute, value, -car)
head(mtcarsNew)

如你所见,除了car列外,其余列聚合成两列,分别命名为attribute和value。tidyr很好的一点是可以只gather若干列而其他列保持不变。如果你想gather在map和gear之间的所有列而保持carb和car列不变,可以像下面这样做:

# gather在map和gear之间的所有列而保持carb和car列不变
mtcarsNew <- mtcars %>% gather(attribute, value, mpg:gear)
head(mtcarsNew)

3.spread--长数据转为宽数据

有时,为了满足建模或绘图的要求,往往需要将长形表转换为宽形表,或将宽形表变为长形表。如何实现这两种数据表类型的转换。使用spread()函数实现长表转宽表,语法如下:

spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE)
data:为需要转换的长形表
key:需要将变量值拓展为字段的变量
value:需要分散的值
fill:对于缺失值,可将fill的值赋值给被转型后的缺失值

使用:

mtcarsSpread <- mtcarsNew %>% spread(attribute, value)
head(mtcarsSpread)
                 car carb  mpg cyl disp  hp drat    wt  qsec vs am gear
1        AMC Javelin    2 15.2   8  304 150 3.15 3.435 17.30  0  0    3
2 Cadillac Fleetwood    4 10.4   8  472 205 2.93 5.250 17.98  0  0    3
3         Camaro Z28    4 13.3   8  350 245 3.73 3.840 15.41  0  0    3
4  Chrysler Imperial    4 14.7   8  440 230 3.23 5.345 17.42  0  0    3
5         Datsun 710    1 22.8   4  108  93 3.85 2.320 18.61  1  1    4
6   Dodge Challenger    2 15.5   8  318 150 2.76 3.520 16.87  0  0    3

4.unite--多列合并为一列

unite的调用格式如下:

unite(data, col, …, sep = “_”, remove = TRUE)
data:为数据框
col:被组合的新列名称
…:指定哪些列需要被组合
sep:组合列之间的连接符,默认为下划线
remove:是否删除被组合的列

其作用是将多列合并为一列,举例如下:

# 虚构一些数据
set.seed(1)
date <- as.Date(‘2016-01-01‘) + 0:14
hour <- sample(1:24, 15)
min <- sample(1:60, 15)
second <- sample(1:60, 15)
event <- sample(letters, 15)
data <- data.frame(date, hour, min, second, event)
View(data)

# 把date,hour,min和second列合并为新列datetime
# R中的日期时间格式为"Year-Month-Day-Hour:Min:Second"
dataNew <- data %>%
  unite(datehour, date, hour, sep = ‘ ‘) %>%
  unite(datetime, datehour, min, second, sep = ‘:‘)
View(dataNew)

5.separate--将一列分离为多列

separate()函数可将一列拆分为多列,一般可用于日志数据或日期时间型数据的拆分,语法如下:

separate(data, col, into, sep = “[^[:alnum:]]+”, remove = TRUE,
convert = FALSE, extra = “warn”, fill = “warn”, …)
data:为数据框
col:需要被拆分的列
into:新建的列名,为字符串向量
sep:被拆分列的分隔符
remove:是否删除被分割的列 

举例如下:

# 可以用separate函数将数据恢复到刚创建的时候
# 首先,将datetime分为date列和time列 然后,将time列分为hour,min,second列
data1 <- dataNew %>%
  separate(datetime, c(‘date‘, ‘time‘), sep = ‘ ‘) %>%
  separate(time, c(‘hour‘, ‘min‘, ‘second‘), sep = ‘:‘)
data1

6.tidyr包0.5.0版本新特性

目前tidyr包已更新至0.5.1版本,接下来简要介绍0.5.0版本中三个有用的新特性:

准备工作:

library(‘tidyr‘)
library(tibble)

注:为了保持跟原文一致,本文用的是data.frame的精简版data_frame。需加载tibble包。

三个新特性

(1)separate_rows():通过分隔符将那些含有多个值的字段拆分为多行。

separate_rows(data, ..., sep = "[^[:alnum:].]+", convert = FALSE)
data:数据
...:需要被拆分的列
sep:分隔符

示例操作:

df <- data_frame(x = 1:2,y = c("a,b","d,e,f"));df
df %>% separate_rows(y,sep = ",")

 

df %>% separate(y,c("y1","y2","y3"),sep = ",",fill = "right")

(2)spread()函数增加了一个sep参数:用于将列名设置为“key|sep|value”格式。这在对字段为数值型数据做重塑时非常有用。

spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE,sep = NULL)
data:为需要转换的长形表
key:需要将变量值拓展为字段的变量
value:需要分散的值
fill:对于缺失值,可将fill的值赋值给被转型后的缺失值
sep:用于将列名设置为“key|sep|value”格式

示例:

df <- data_frame(x = c(1,2,1),
                 key = c(1,1,2),
                 val = c("a","b","c"));df
df %>% spread(key,val)
df %>% spread(key,val,sep = "_")

(3)unnest()函数增加了一个.sep参数。当数据框的多个列包含有相同变量名的时候非常有用:

unnest()嵌套list的列

unnest(data, ..., .drop = NA, .id = NULL, .sep = NULL)
data:数据框
...:要嵌套的列
.id:用于显示列表中定义的名称
.sep:当数据框的多个列包含相同变量名的时候非常有用

使用示例:

df <- data_frame(x = 1:2,
                 y1 = list(data_frame(y = 1),data_frame(y = 2)),
                 y2 = list(data_frame(y = "a"),data_frame(y = "b")))
df
df %>% unnest()
df %>% unnest(.sep = "_")

同时,unnest()函数添加了.id参数用于显示列表中定义的名称:

df <- data_frame(x = 1:2,
                 y = list(a = 1:3,b = 3:1));df
df %>% unnest()
df %>% unnest(.id = "id")

本文链接:http://www.cnblogs.com/homewch/p/5778405.html

时间: 2024-10-12 03:06:48

tidyr包--数据处理包的相关文章

Python标准库03 路径与文件 (os.path包, glob包)

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 路径与文件的简介请参看Linux文件系统 os.path包 os.path包主要是处理路径字符串,比如说'/home/vamei/doc/file.txt',提取出有用信息. import os.path path = '/home/vamei/doc/file.txt' print(os.path.basename(path)) # 查询路径中包含的文件名 print(os.p

各类计算机毕业设计代做,包代包过!

代做,定做毕业设计,论文.毕业生网站设计,系统开发.包代包过 QQ:80072496

关于war包 jar包 ear包 及打包方法

关于war包 jar包 ear包 及打包方法 war包:是做好一个web应用后,通常是网站打成包部署到容器中 jar包:通常是开发的时候要引用的通用类,打成包便于存放管理. ear包:企业级应用 通常是EJB打成ear包 各种包的打法: 转: 兄弟,对java着迷吗,或者是为了自己的生计,不论怎样都欢迎你进入精彩java世界,welcome!可能你刚刚对每个人说:Hello World!也或者……ok!这已经足够了.那就让我们开始吧,开始这个魔幻世界的旅程: jar文件听说过吗,没有?或者陌生!

如何处理在反编译时,原包验证包名问题

最近在反编译时,修改包名,反编译回去时,遇到一个问题: 这样看来应该是原包对包名进行了验证,那么该如何处理呢? 首先可以直接去public.xml里面去找一下"The Application bundle is has been modified. Please build the app again." 看看是不是在资源里面有这个字符串. 在里面并没有指定的字符串. 那么只能说明这一串字符是直接写到了代码里,此时可以使用Submine Text的find in files来找一下:

Python/模块与包之包

Python/模块与包之包 1. 包是一种通过使用模块名 来组织Python模块名称空间的方式,一个类似于目录并存有__init__.py文件的被称为包 包的本质就是一个包含__init__.py文件的目录.包A和包B下有同名模块也不会冲突,如A.a与B.a来自俩个命名空间 无论是import形式还是from...import形式,凡是在导入语句中(而不是在使用时)遇到带点的,都要第一时间提高警觉:这是关于包才有的导入语法 包 通常包总是一个目录,可以使用import导入包,或者from + i

PL/SQL 编程(三 )程序包和包体,触发器,视图,索引

一.程序包和包体 程序包(package):存储在数据库中的一组子程序.变量定义.在包中的子程序可以被其它程序包或子程序调用.但如果声明的是局部子程序,则只能在定义该局部子程序的块中调用该局部子程序. 它具有面向对象程序设计语言的特点,是对这些PL/SQL 程序设计元素的封装.包类似于JAVA语言中的类,其中变量相当于类中的成员变量,过程和函数相当于类方法. create or replace package stuinfo as type stucur is ref cursor; proce

记录一个UDP收包丢包的问题

这几天写GB28181平台接入层代码,对收到的PS包进行解包时,总是出现误码,最终导致rtsp点播服务中画面花屏. 分析了码流抓包数据之后,发现网络上没有丢包,遂认为PS流解包代码有bug,于是埋头分析了2个小时的解包函数后,没有发现问题.将抓包RTP负载中的PS包数据导出之后,专门利用PS解包代码写了一个小程序,对导出的数据进行处理,又没有问题——后来事实证明解包代码的确没有问题,而且这部分的代码是在其他项目中用过的.自己有些迷糊了,一时想不明白问题出在哪里. 起身转了几圈冷静后分析一下,认为

包和包体简介

包和包体的定义是分开的, 包中存储的是声明, 包体中存储的是存储过程的实现 举例:查询某个部门中的所有员工信息  ---> 返回集合 包头 CREATE OR REPLACE PACKAGE MYPACKAGE AS type empcursor is ref cursor; //自定义一个集合类型 procedure queryEmpList(dno in number,empList out empcursor); END MYPACKAGE; 包体 CREATE OR REPLACE PA

Linux程序设计学习笔记----网络编程之网络数据包拆封包与字节顺序大小端

网络数据包的封包与拆包 过程如下: 将数据从一台计算机通过一定的路径发送到另一台计算机.应用层数据通过协议栈发到网络上时,每层协议都要加上一个数据首部(header),称为封装(Encapsulation),如下图所示: 不同的协议层对数据包有不同的称谓,在传输层叫做段(segment),在网络层叫做数据包(packet),在链路层叫做帧(frame).数据封装成帧后发到传输介质上,到达目的主机后每层协议再剥掉相应的首部,最后将应用层数据交给应用程序处理. 上图对应两台计算机在同一网段中的情况,