dplyr 数据操作 统计描述(summarise)

在R中,summary()是一个基础包中的重要统计描述函数,同样的在dplyr中summarise()函数也可以对数据进行统计描述。

不同的是summarise()更加的灵活多变,下面来看下summarise这个函数

summarise(.data, ...)

其灵活性和其他dplyr函数一样,主要在于条件的使用上

下面看些具体的例子

library(dplyr)
x<-data.frame(id=1:6,
              name=c("wang","zhang","li","chen","zhao","song"),
              shuxue=c(89,85,68,79,96,53),
              yuwen=c(77,68,86,87,92,63))
x

summarise(x,sum(shuxue))

可以很好的配合聚合函数一起使用

summarise(group_by(x,name),sum(shuxue))

这里由于每个name对应的shuxue只有一个参数,所以sum的结果没变化。

summarise(group_by(x,name),sum(shuxue,yuwen))

可以看出shuxue和yuwen求和后的数据。

arrange(summarise(group_by(x,name),qiuhe=sum(shuxue,yuwen)),desc(qiuhe))

配合上前面的函数,就可以对求和后的数据进行排序,当然上面数据的可读性较低。

把他分为两个步骤,理解起来可能会相对比较容易。

y<-summarise(group_by(x,name),qiuhe=sum(shuxue,yuwen)) 求和过程

arrange(y,desc(qiuhe)) 排序过程

summarise(x,mean(shuxue),sd(shuxue))

求均值和方差

summarise(group_by(x,name),a=n(),b=a+2)

配合你n()可以对每个因子的出现次数进行统计。

summarise_all(group_by(x,name),mean)

对所有列按照name分组后求平均值

summarise_if(x,is.numeric,mean)

对所有是数值的列求平均值

summarise_at(x,c(3,4),mean)

对特定的列求平均值

类似结果的表达方式有:

summarise_at(x,vars(shuxue,yuwen),mean)
summarise_at(x,c("shuxue","yuwen"),mean)

summarise_all(select(x,c(1,3,4)),funs(min,max,mean,sum,sd))

使用funs,对数据进行多重聚合统计。

summarise_each(x[c(1,3,4)],funs(mean,sum))

summarise_each也可以达到类似的效果。

时间: 2024-11-05 12:32:22

dplyr 数据操作 统计描述(summarise)的相关文章

dplyr 数据操作 常用函数(5)

继续来了解dplyr中的其他有用函数 1.sample() 目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框. sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame()) sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env = parent.frame()) 从参数来看,sample输入数据是tbl格式,size表示抽取

dplyr 数据操作 常用函数(1)

上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到. 这里主要根据dplyr包作者的书籍目录来把它列出来. 1.add_rownames 添加行名称,把数据转换成列. add_rownames(df, var = "rowname") 下面来看个具体的例子 head(mtcars) add_rownames(mtcars,var="bl") 已经把原来的行数据转成列数据了. 2.between()函数可以用于选取数

dplyr 数据操作 数据过滤 (filter)

在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2.reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁. 首先我们来了解下第一个函数filter() filter(.data, ...) 参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件. 下面看一些简单的例子 library(dplyr) x<-data.frame(id=1:6, nam

dplyr 数据操作 常用函数(4)

接下来我们继续了解一些dplyr中的常用函数. 1.ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子. x <- c(5, 1, 3, 2, 2, NA) x row_number(x) row_number是对数据大小进行编号排序,遇到重复值,排序继续加1,缺失值不计入 min_rank(x) min_rank

数据模型所描述的内容包括三个部分:数据结构、数据操作、数据约束。

http://www.cnblogs.com/joechinochl/articles/5252518.html 1)数据结构:数据模型中的数据结构主要描述数据的类型.内容.性质以及数据间的联系等.数据结构是数据模型的基础,数据操作和约束都建立在数据结构上.不同的数据结构具有不同的操作和约束. 2)数据操作:数据模型中数据操作主要描述在相应的数据结构上的操作类型和操作方式. 3)数据约束:数据模型中的数据约束主要描述数据结构内数据间的语法.词义联系.他们之间的制约和依存关系,以及数据动态变化的规

作业一 统计软件简介与数据操作

spss软件 所属类别 : 软件 SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"社会科学"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正

数据资料的统计描述

一.集中趋势 1.算术平均数 1.1 简单的算术平均数 1.2 加权的算术平均数 均值的计算要根据分组的资料进行,要涉及到频数的考虑,即所谓的加权问题. 2.几何平均数 2.1 简单几何平均数 数据资料的统计描述

作业一 统计软件介绍与数据操作

一.软件介绍 1.spss SPSS原名StatisticalPackage for the Social Sciences(社会科学统计软件包),现在已被IBM收购,改名后仍然是叫SPSS,不过全称变更为StatisticalProduct and Service Solutions(统计产品与服务解决方案).SPSS是一个专业的统计分析软件.除了基本的统计分析功能之外,还提供非线性回归.聚类分析(Clustering).主成份分析(PCA)和基本的时序分析.SPSS在某种程度上可以进行简单的

包婷婷 (201550484)作业一 统计软件简介与数据操作

SPSS(Statistical Product and Service Solutions),"统计产品与服务解决方案"软件.最初软件全称为"(SolutionsStatistical Package for the Social Sciences),但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为"统计产品与服务解决方案",标志着SPSS的战略方向正在做出重大调整.为IBM公司推出的一系列用于统计学分析