dplyr的使用

做数据预处理一直用Hardly Wickham的plyr软件包，数据量稍微大点，基本就用data.table软件包。Hardly WickHam的dplyr软件包出来有一段时间了，在性能上又有了更大的提高。为了以后使用，做些笔记。

These five functions provide the basis of a language of data manipulation. At the most basic level, you can only alter a tidy data frame in five useful ways: you can reorder the rows (arrange()), pick observations and variables of interest (filter() and select()), add new variables that are functions of existing variables (mutate()) or collapse many values to a summary (summarise()). The remainder of the language comes from applying the five functions to different types of data, like to grouped data, as described next.

例子1：plyr::ddply和dplyr::group_by的比较

 1 system.time({
 2 plans <- group_by(flights, tailnum)
 3 delay <- summarise(plans,
 4 count = n(),
 5 dist = mean(distance, na.rm=T),
 6 delay = mean(arr_delay,na.rm = T)
 7 )
 8 })
 9
10 user system elapsed
11 0.092 0.003 0.097
12
13 system.time({
14 ddply(flights, ‘tailnum‘, function(x) data.frame(count=nrow(x), dist=mean(x$distance,na.rm=T), delay=mean(x$arr_delay,na.rm=T)))
15 })
16
17 user system elapsed
18 2.467 0.016 2.500

时间： 2024-10-05 06:53:56

dplyr的使用的相关文章

dplyr 数据操作常用函数（4）

接下来我们继续了解一些dplyr中的常用函数. 1.ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子. x <- c(5, 1, 3, 2, 2, NA) x row_number(x) row_number是对数据大小进行编号排序,遇到重复值,排序继续加1,缺失值不计入 min_rank(x) min_rank

dplyr包--数据操作与清洗

1.简介在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化.好在我们有其他选择.这里我们介绍 dplyr 包. 首先加载包: install.packages("dplyr") library(dplyr) 单表操作函数(one table verbs)如下: filter: 保留满足条件的行 select: 使用列名选出列 arrange: 对数据的所有

dplyr 数据操作常用函数（1）

上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到. 这里主要根据dplyr包作者的书籍目录来把它列出来. 1.add_rownames 添加行名称,把数据转换成列. add_rownames(df, var = "rowname") 下面来看个具体的例子 head(mtcars) add_rownames(mtcars,var="bl") 已经把原来的行数据转成列数据了. 2.between()函数可以用于选取数

dplyr 数据操作数据过滤 (filter)

在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2.reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁. 首先我们来了解下第一个函数filter() filter(.data, ...) 参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件. 下面看一些简单的例子 library(dplyr) x<-data.frame(id=1:6, nam

R(6): 数据处理包dplyr

dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法.dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参数.注意,传递给下一个函数的第一个参数,那么下一个函数的第一个参数就不用写. 目录: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总:

dplyr 数据操作常用函数（5）

继续来了解dplyr中的其他有用函数 1.sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框. sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame()) sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env = parent.frame()) 从参数来看,sample输入数据是tbl格式,size表示抽取

R取子集（dplyr方法）

首选用dplyr包查看hr有哪些字段名 > names(hr) [1] "satisfaction" "evaluation" "project" "monthlyhour" "serviceyear" "accident" "left" "promotion" "dept" "salary" &qu

dplyr 数据操作统计描述（summarise）

在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述. 不同的是summarise()更加的灵活多变,下面来看下summarise这个函数 summarise(.data, ...) 其灵活性和其他dplyr函数一样,主要在于条件的使用上下面看些具体的例子 library(dplyr) x<-data.frame(id=1:6, name=c("wang","zhang",&quo

Accessing data in Hadoop using dplyr and SQL

If your primary objective is to query your data in Hadoop to browse, manipulate, and extract it into R, then you probably want to use SQL. You can write SQL code explicitly to interact with Hadoop, or you can write SQL code implicitly with dplyr. The

猜你喜欢

浅谈Ubuntu PowerShell——小白入门教程

早在去年八月份PowerShell就开始开源跨平台了,但是一直没有去尝试,叫做PowerShell Core. 这里打算简单介绍一下如何安装和简单使用,为还不知道PowerShell Core on ...

容器的IOC应用

1.IOC概念 IOC全称Inversion of Control,被译为控制反转: IOC是指程序中的对象获取方式发生反转,有最初的new方式创建,转换为由第三框架创建.注入.第三框架一般是通过配置 ...

13. 泛型和枚举

html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,bi ...

很快就第4天了,原来人是有惰性的,博客现在就不想写了,真是悲催,坚持,憋住. 函数 def func(name): print(name) func("huihuang") 函数定 ...

iOS--小结系列八(继续)

一.什么是Segue (1) Storyboard上每一根用来界面跳转的线,都是一个UIStoryboardSegue对象(简称Segue) 二.Segue的属性 (1) 每一个Segue对象,都有3 ...

拍摄企业宣传片中摇摆使用技巧的介绍

摄像机重心的位置.所谓摄像机重心,也就是摄像机在x.y.z轴上三条重力平衡中线切面的交汇点.当然这里还要把托板架和托板的重量考虑在内.y轴上的平衡中线切面位置在摄像机及托板架总重量的二分之一处.也就是 ...

more exceptional c++简要笔记

1.流尽量提高可读性,避免撰写精简代码在c++中,有四种方法获得多态行为:虚函数.模板.重载和转换2.predicates:状态带来的问题 3.可扩充的模板:使用继承还是traits? 4.typ ...

尝试在电脑端使用调试模式修改手机游戏的参数达到外挂效果

本文主要内容:如何通过使用电脑端的chrome,修改手机端网页游戏的运行参数,达到开挂(或者让程序自动玩游戏)的效果附件:http://files.cnblogs.com/files/oushihu ...

Windows环境下C#操作oracle 10g/11g心得

从8月份开始接到一个项目,业务逻辑不复杂,因为之前没有什么C#l连接oracle的经验,所以做起来磕磕绊绊的,到现在总算完成了.现在梳理下这一路走来的心得. 首先是oracle下载安装.开始直接从官网 ...

jsp内置对象的使用范围和类型【说明】

jsp内置对象 jsp内置对象有以下9种,我们会在后面的章节中分别介绍他们.这9种对象例如以下: 名称类型使用范围 request javax.servlet.http.HttpServletRe ...

struts 1.x 方法探析

public ActionForward index(ActionMapping mapping, ActionForm form, HttpServletRequest request, HttpS ...

计算机五大单元

在学习Linux操作系统之前,我们先介绍一下计算机的基础知识.本文将为大家介绍计算机硬件的五大部件组成. 计算机硬件由运算器.控制器.存储器.输入设备.输出设备组成.下面分别为大家介绍. 计算机硬件五 ...

Webpack 基础使用

使用webstorm编译: 1.新建一个工程(最基本的工程) 2.在webstorm的控制台,使用命令行 cnpm install webpack -g 全局安装 3.安装完后,可以使用 ...

积极的心态要培养

幸福感受更多的不是因为外在世界的样子,而是我们如何看待这个世界. 对于中国人常说的“危机”一词,泰勒博士说,这个词不仅仅有“危险”,更含有“机会”,危险是未知的.可怕的,而机会却充满着希望,遗憾的是绝 ...

网上买手机被骗如何举报

全国免费报警电话17O9-O11O4OO百度推荐Q(1002732496)网警解决投诉.退货.提现.解冻.认证.账户激活.找回密码.解绑.卡单报警电话17O9O11O4OO防止电话诈骗报警请联系QQ: ...

CC150 3.3

3.3 Imagine a (literal) stack of plates. If the stack gets too high, it might topple. Therefore, in ...

juqery学习3之juqery对象条件筛选

代码例子:某个div块下的字体样式的控制. 1 //script代码 2 3 <script src="${sitePath}/cec_wcp/js/jquery-1.8.2.min. ...

LeetCode--Wrod Break

---恢复内容开始--- 1 class Solution { 2 public: 3 bool wordBreak(string s, unordered_set<string> &am ...

Log4j基本配置

4 Log4j基本配置 Log4j由三个重要的组件构成:Loggers,Appenders和Layouts,分别表示:日志信息的优先级,日志信息的输出目的地,日志信息的输出格式.支持ke ...

删除mac 自带的python2.7后，XCODE运行失败，如下图，重装python2.7后解决，以后不敢乱动了。

删除mac 自带的python2.7后,XCODE运行失败,如下图,重装python2.7后解决,以后不敢乱动了.

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.020 s.