R-- Dplyr包

Dplyr 包应用

1. 筛选 filter()
按照给定的逻辑判断选择出合适的数据子集
fliter(data,year==2015,month==1)
支持对同一对象的任意条件组合 fliter(data,year==2014|year==2015)
fliter(data,year==2014|year==2015,month==1&month==2)

2. 排序 arrange()
按指定的属性依次对所有行进行排序, arrange(data,year,month)
对排序属性加desc( ),按倒序排列 , arrange(data,desc(year,month))

3. 选择 select()
用列名作为参数选择子数据集
select(data,year,month,dayofweek)
用‘:’连接列名(类似于数字形式) select(data,year:dayofweek)
用‘-’删除列 select(data,-(year:month))

4. 去重 distinct ( )
去重 distinct (data[1:5,3:10]) ; distinct(select(data,year,month)

5. 变形 mutate()
对已有列进行算数运算,并作为新列添加到数据中,同时可以在同一语句中队新加的列进行操作。
mutate(data,newscore=(scoer1+score2)*scor3) ----newscore为新加入的列
mutate(data,newscore1=(scoer1+score2)*scor3,newsocre2=newscore1+score4)
----newscore1与newscore2为新加入的列

6. 分组 group_by()
对数据集添加分组信息,然后可以分别对各分组作用函数操作
newdata<-group_by(data,year) 按year对数据进行分组
datamean<-mean(newdata) 按照year分组后分别对每一组求平均

7. 函数结果汇总 summarise()
summarise(data,mean(scor1),sum(scor2))
summarise(group_by(data,year),mean(scor1),sum(scor2))

8. 连接符 %.%
用原始数据名作为开头,依次对数据进行操作,上一步操作的数据结果作为下一步操作应用的数据集
data%.%group_by(year)%.%summrise(newscore=mean(score))%.%arrange(desc(newscore))%.%head(5)
等价于head(arrange(summrise(newscore=mean(group_by(date,year))),desc(newscore)),5)

时间: 2024-10-07 15:36:34

R-- Dplyr包的相关文章

dplyr包--数据操作与清洗

1.简介 在我们数据分析的实际应用中,我们可能会花费大量的时间在数据清洗上,而如果使用 R 里面自带的一些函数(base 包的 transform 等),可能会觉得力不从心,或者不是很人性化.好在我们有其他选择.这里我们介绍 dplyr 包. 首先加载包: install.packages("dplyr") library(dplyr) 单表操作函数(one table verbs)如下: filter: 保留满足条件的行 select: 使用列名选出列 arrange: 对数据的所有

在windows下编写R程序包

每个R的使用者总会遇到这样的问题,用R时间长了攒了几个自己写的函数需要经常调用,用source命令调用感觉不够方便,最好怎么办呢?编一个自己的包,只需安装一次就可多次调用,方便自己和他人使用.我把自己制作R包的步骤记了下来,主要参考了统计之都的一篇帖子(http://cos.name/cn/topic/15991)和<Creating R Packages: A Tutorial>中的部分内容,对一些过时的东西做了更正,以供大家参考吧. 在windows下编写R程序包

R语言包相关命令

R的包(package)通常有两种:1 binary package:这种包属于即得即用型(ready-to-use),但是依赖与平台,即Win和Linux平台下不同.2 Source package: 此类包可以跨平台使用,但用之前需要处理或者编译(compiled)..libPaths():查看包的安装目录library():查看已经安装的包目录installed.packages():查看已安装包信息library(mypackage):载入mypackage包getOption("def

编写R程序包的步骤

编写R程序包的基本步骤和注意事项[简略版] home         about         publication         guestbook         vitae         categories         tags         links         subscribe 本文已经过期,请参考统计之都上的最新文章:开发R程序包之忍者篇. 这两天在忙着写一个R程序包“animation”,因此被迫得学习R包的基本写法,粗略看了看"Writing R Exte

R dplyr 修改值-替换值

有这么个需求:我有许多列,我打算找到某一列等于某个值,同时另外一列中等于某个值,这样的多个条件筛选的行,并替换筛选出来的这些这些值,显然使用dplyr包是最好的选择,因为速度快的飞起,即使我的数据有几百万行 代码如下: df.v %>% filter(to.x == 999, to.y==999) %>%       select(cnt,min ,max ,v_0.1,v_0.5,v_1) %>%       replace(values = -2) 这样就把符合条件(to.x ==

R语言包翻译——翻译

Shiny-cheatsheet                                                                                                                  作者:贾慧   作品来源:百度百科 .炫酷外观 皮肤skins 仪表盘包括很多的主题或者皮肤.默认的为blue蓝色,此外,还有其他的颜色,包括:black黑色,purple紫色,green绿色,red红色,yellow黄色等.可以使用das

R语言包翻译

Shiny-cheatsheet 作者:周彦通 1.安装 install.packages("shinydashboard")  2.基础知识 仪表盘有三个部分:标题.侧边栏,身体.下面是最最小的仪表面板页面的UI: # ui.R #library(shinydashboard) dashboardPage( dashboardHeader(), dashboardSidebar(), dashboardBody()) 通过shinyApp()函数可以快速查看R控制台: # app.R

R扩展包

log10(100) .libPaths()#查看R包目录 library()#查看以前安装的函数 search() #安装R包的方式 install.packages("car")#安装car包 update.packages()#更新已安装包 intalled.packages()#查看已安装的包 #如何匹配研究问题的R包 #一.cran.r-project.org(网站)——Task View——MachineLearning #二.使用搜索工具——searchaol.co.uk

R语言——包的添加和使用

R是开源的软件工具,很多R语言用户和爱好者都会扩展R的功能模块,我们把这些模块称为包.我们可以通过下载安装这些已经写好的包来完成我们需要的任务工作. 包下载地址:https://cran.r-project.org/web/packages/ 包是R函数.数据.预编译代码以一种定义完善的格式组成的集合.计算机上存储包的目录称为库(library),函数.library()显示库的位置.R自己有一些默认的包,其他的需要我们自己下载安装,安装完成后必须加载到当前会话中才能被使用.可以使用命令sear

R画图包ggplot2简介

一.简介: ggplot2是R语言中很受欢迎的一个画图package,使用起来非常友好.ggplot2的实现得益于Leland Wilkinson在他的著作<The Grammar of Graphics>中提出了一套图形语法,把图形元素抽象成可以自由组合的成分,Hadley Wickham把这套想法在R中实现.Hadley Wickham有本专门讲ggplot2的书------ggplot2: 数据分析与图形艺术,感兴趣可以阅读. 这里有一个入门PPT------30分钟学会ggplot2.