dplyr 数据操作 常用函数(5)

继续来了解dplyr中的其他有用函数

1、sample()

目的是可以从一个数据框中,随机抽取一些行,然后组成新的数据框。

sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame())

sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env = parent.frame())

从参数来看,sample输入数据是tbl格式,size表示抽取的个数,replace指的是能否重复抽取,weight指的是抽取比重。

另外,sample_frac是按照比例进行抽样。

下面来看些具体的例子

sample_n(mtcars, 10)

sample_n(mtcars, 20, replace = TRUE)

sample_n(group_by(mtcars,cyl), 3)

对数据分组后,再进行抽样是按照每组个抽取size个数的数据进行抽样。

sample_frac(mtcars, 0.1)

表示从数据从随机抽取1%的数据。

2、对两个数据集进行操作的函数 

intersect(x, y, ...)

union(x, y, ...)

union_all(x, y, ...)

setdiff(x, y, ...)

setequal(x, y, ...)

intersect 用于求两个函数的交集部分数据,union求并集部分数据,union_all求两个数据集的合集,

setdiff求两个数据集差异部分,setequal判别两个数据集是否相同

下面来看些具体的例子

mtcars$model <- rownames(mtcars)
first <- mtcars[1:20, ]
second <- mtcars[10:32, ]

first 数据集打印结果

second数据集打印结果

intersect(first, second)

union(first, second)

setdiff(first, second)

setdiff(second, first)

这里值得注意的是,setdiff(first, second) 和 setdiff(second, first)的结果是不一样的。

setequal(mtcars, mtcars[32:1, ])

TRUE  

  

3、slice()

按照具体数据所在行进行抽取数据,即定向抽取数据。

slice(.data, ...)

下面来看些具体的例子

slice(mtcars, 1L)

抽取第一行数据

slice(mtcars, n())

抽取最后一行数据

slice(mtcars, 25:n())

抽取第25行到最后一行数据

slice(group_by(mtcars, cyl), 1:2)

按照cyl分组后,每组抽取前两行数据

当然以上各组数据的抽取也可以用filter函数进行实现

filter(mtcars, row_number() == 1L)
filter(mtcars, row_number() == n())
filter(mtcars, between(row_number(), 5, n()))

  

3、tally()

用于统计数据行数

tally(x, wt, sort = FALSE)

count(x, ..., wt = NULL, sort = FALSE)

直接根据实例来观察这个几个函数的区别

tally(mtcars)

直接返回mtcars总行数。

count(mtcars)

也是返回mtcars总行数

tally(mtcars,cyl)

 

返回cyl列所有数据求和后的结果

count(mtcars,cyl)

返回每个cyl并统计每个值得个数。

tally(group_by(mtcars,cyl))

与上面count(mtcars,cyl)的效果一致。

tally(group_by(mtcars,cyl),mpg)

 

根据cyl分组后,对mpg进行求和

count(group_by(mtcars,cyl),mpg)

进行多次分组统计。 

时间: 2024-12-18 20:49:27

dplyr 数据操作 常用函数(5)的相关文章

dplyr 数据操作 常用函数(4)

接下来我们继续了解一些dplyr中的常用函数. 1.ranking 以下各个函数可以实现对数据进行不同的排序 row_number(x) ntile(x, n) min_rank(x) dense_rank(x) percent_rank(x) cume_dist(x) 具体的看些例子. x <- c(5, 1, 3, 2, 2, NA) x row_number(x) row_number是对数据大小进行编号排序,遇到重复值,排序继续加1,缺失值不计入 min_rank(x) min_rank

dplyr 数据操作 常用函数(1)

上面介绍完dplyr中,几个主要的操作函数后,我们再进一步了解dplyr中那些函数可能我们会经常要用到. 这里主要根据dplyr包作者的书籍目录来把它列出来. 1.add_rownames 添加行名称,把数据转换成列. add_rownames(df, var = "rowname") 下面来看个具体的例子 head(mtcars) add_rownames(mtcars,var="bl") 已经把原来的行数据转成列数据了. 2.between()函数可以用于选取数

c语言文件操作常用函数及读写文件代码举列

文件操作常用函数 fopen() 打开流 fclose() 关闭流 fputc() 写一个字符到流中 fgetc() 从流中读一个字符 fseek() 在流中定位到指定的字符 fputs() 写字符串到流 fgets() 从流中读一行或指定个字符 fprintf() 按格式输出到流 fscanf() 从流中按格式读取 feof() 到达文件尾时返回真值 ferror() 发生错误时返回其值 rewind() 复位文件定位器到文件开始处 remove() 删除文件 fread() 从流中读指定个数

go语音之进阶篇字符串操作常用函数介绍

下面这些函数来自于strings包,这里介绍一些我平常经常用到的函数,更详细的请参考官方的文档. 一.字符串操作常用函数介绍 1.Contains func Contains(s, substr string) bool 功能:字符串s中是否包含substr,返回bool值 示例: fmt.Println(strings.Contains("seafood", "foo")) fmt.Println(strings.Contains("seafood&qu

dplyr 数据操作 数据过滤 (filter)

在R的使用过程中我们几乎都绕不开Hadley Wickham 开发的几个包,前面说过的ggplot2.reshape2以及即将要讲的dplyr 因为这几个包可以非常轻易的使我们从复杂的数据操作中逃离,操作过程简洁,最重要的是数据结果也异常简洁. 首先我们来了解下第一个函数filter() filter(.data, ...) 参数很简单,只有data,即要操作的数据对象,其他都是数据操作条件. 下面看一些简单的例子 library(dplyr) x<-data.frame(id=1:6, nam

PHP文件操作常用函数总结

一 .解析路径: 1 获得文件名: basename(); 给出一个包含有指向一个文件的全路径的字符串,本函数返回基本的文件名.如果文件名是以 suffix 结束的,那这一部分也会被去掉. eg: $path = "/home/httpd/html/index.php"; $file = basename($path,".php"); // $file is set to "index" 2 得到目录部分: dirname(); 给出一个包含有指

lua操作常用函数

(1)lua 和 C++之间的交互的基本知识: lua 和 C++ 之间的数据交互通过堆栈进行,栈中的数据通过索引值进行定位,(栈就像是一个容器一样,放进去的东西都要有标号)其中栈顶是-1,栈底是1,也就是第 1 个入栈的在栈底:也可以这么说:正数表示相对于栈底的位置(位移),负数表示相对于栈顶的位置(位移):(2)计算和清空栈中元素的操作:1.函数lua_gettop()用于返回栈中元素的个数,同时也是栈顶元素的索引,因为栈底是1,所以栈中有多少个元素,栈顶索引就是多少:呵呵2.函数lua_s

PHP的文件操作常用函数

PHP文件操作 1 获得文件名:basename - 返回路径中的文件名部分 给出一个包含有指向一个文件的全路径的字符串,本函数返回基本的文件名.如果文件名是以 suffix 结束的,那这一部分也会被去掉. string basename ( string $path [, string $suffix ] ) $path = "/home/cate/index/index2.php";$file = basename($path);echo $file.'<br>'; /

lua操作常用函数学习一

(1)lua 和 C++之间的交互的基本知识: lua 和 C++ 之间的数据交互通过堆栈进行,栈中的数据通过索引值进行定位,(栈就像是一个容器一样,放进去的东西都要有标号)其中栈顶是-1,栈底是1,也就是第 1 个入栈的在栈底:也可以这么说:正数表示相对于栈底的位置(位移),负数表示相对于栈顶的位置(位移):(2)计算和清空栈中元素的操作:1.函数lua_gettop()用于返回栈中元素的个数,同时也是栈顶元素的索引,因为栈底是1,所以栈中有多少个元素,栈顶索引就是多少:呵呵2.函数lua_s