R语言实战 - 基本数据管理(3)

8. 数据排序

> leadership$age
[1] 32 45 25 39 NA
> newdata <- leadership[order(leadership$age),]
> newdata
  manager   testDate country gender age item1 item2 item3 item4 item5
3       3 2008-10-01      UK      F  25     3     5     5     5     2
1       1 2008-10-24      US      M  32     5     4     5     5     5
4       4 2008-10-12      UK      M  39     3     3     4    NA    NA
2       2 2008-10-28      US      F  45     3     5     2     5     5
5       5 2009-05-01      UK      F  NA     2     2     1     2     1
  stringAsFactors agecat
3           FALSE  Young
1           FALSE  Young
4           FALSE  Young
2           FALSE  Young
5           FALSE   <NA>
>
>
> attach(leadership)
The following objects are masked _by_ .GlobalEnv:

    age, country, gender, manager

> newdata <- leadership[order(gender, age),]
> detach(leadership)
> newdata
  manager   testDate country gender age item1 item2 item3 item4 item5
3       3 2008-10-01      UK      F  25     3     5     5     5     2
2       2 2008-10-28      US      F  45     3     5     2     5     5
5       5 2009-05-01      UK      F  NA     2     2     1     2     1
1       1 2008-10-24      US      M  32     5     4     5     5     5
4       4 2008-10-12      UK      M  39     3     3     4    NA    NA
  stringAsFactors agecat
3           FALSE  Young
2           FALSE  Young
5           FALSE   <NA>
1           FALSE  Young
4           FALSE  Young
>
> attach(leadership)
The following objects are masked _by_ .GlobalEnv:

    age, country, gender, manager

> newdata <- leadership[order(gender, -age),]
> detach(leadership)
> newdata
  manager   testDate country gender age item1 item2 item3 item4 item5
5       5 2009-05-01      UK      F  NA     2     2     1     2     1
2       2 2008-10-28      US      F  45     3     5     2     5     5
3       3 2008-10-01      UK      F  25     3     5     5     5     2
4       4 2008-10-12      UK      M  39     3     3     4    NA    NA
1       1 2008-10-24      US      M  32     5     4     5     5     5
  stringAsFactors agecat
5           FALSE   <NA>
2           FALSE  Young
3           FALSE  Young
4           FALSE  Young
1           FALSE  Young
>

9. 数据集的合并

9.1 添加列

> patientID <- c(1, 2, 3, 4)
> age <- c(25, 34, 28, 52)
> status <- c("poor", "improved", "excellent", "poor")
> gender <- c("F", "M", "M", "F")
> dataframeA <- data.frame(patientID, gender)
> dataframeA
  patientID gender
1         1      F
2         2      M
3         3      M
4         4      F
> dataframeB <- data.frame(patientID, age, status)
> dataframeB
  patientID age    status
1         1  25      poor
2         2  34  improved
3         3  28 excellent
4         4  52      poor
> total <- merge(dataframeA, dataframeB, by="ID")
Error in fix.by(by.x, x) : ‘by‘ must specify a uniquely valid column
> total <- merge(dataframeA, dataframeB, by="patientID")
> total
  patientID gender age    status
1         1      F  25      poor
2         2      M  34  improved
3         3      M  28 excellent
4         4      F  52      poor
> total <- merge(dataframeA, dataframeB, by=c("gender", "age"))
Error in fix.by(by.x, x) : ‘by‘ must specify a uniquely valid column
> total <- merge(dataframeA, dataframeB, by=c("patientID", "age"))
Error in fix.by(by.x, x) : ‘by‘ must specify a uniquely valid column
>
> total <- cbind(dataframeA, dataframeB)
> total
  patientID gender patientID age    status
1         1      F         1  25      poor
2         2      M         2  34  improved
3         3      M         3  28 excellent
4         4      F         4  52      poor
>

9.2 添加行

> total <- rbind(dataframeA, dataframeB)
Error in rbind(deparse.level, ...) :
  numbers of columns of arguments do not match

10. 数据集取子集

10.1 选入(保留)变量

10.2 剔除(丢弃)变量

10.3 选入观测

10.4 subset() 函数

10.5 随机抽样

时间: 2024-10-24 12:23:27

R语言实战 - 基本数据管理(3)的相关文章

R语言实战 - 高级数据管理(2)

2.4 字符处理函数 > x <- c("ab", "cde", "fghij") > length(x) [1] 3 > nchar(x[3]) [1] 5 > > > x <- "abcdef" > substr(x, 2, 4) [1] "bcd" > substr(x, 2, 4) <- "22222" >

R语言实战 - 基本数据管理(4)

11. 使用SQL语句操作数据框 > install.packages("sqldf") Installing package into 'C:/Users/WZhong/Documents/R/win-library/3.4' (as 'lib' is unspecified) also installing the dependencies 'rlang', 'bit', 'tibble', 'digest', 'bit64', 'blob', 'memoise', 'pkg

R语言实战 - 基本数据管理(2)

5. 缺失值 > y <- c(1,2,3,NA) > is.na(y) [1] FALSE FALSE FALSE TRUE > leadership manager testDate country gender age item1 item2 item3 item4 item5 1 1 10/24/08 US M 32 5 4 5 5 5 2 2 10/28/08 US F 45 3 5 2 5 5 3 3 10/1/08 UK F 25 3 5 5 5 2 4 4 10/1

R语言实战 - 高级数据管理(4)

6. 整合与重构 6.1 转置 > mtcars mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21 6 160 110 3.9 2.6 16 0 1 4 4 Mazda RX4 Wag 21 6 160 110 3.9 2.9 17 0 1 4 4 Datsun 710 23 4 108 93 3.8 2.3 19 1 1 4 1 Hornet 4 Drive 21 6 258 110 3.1 3.2 19 1 0 3 1 Hor

R语言实战 - 高级数据管理(1)

1. 一个数据处理难题 a. 确定一个单一的成绩衡量指标 b. 前20%的学生评定为A,接下来20%评定为B,以此类推 c. 按字母顺序对学生排序 2. 数值和字符处理函数 数值函数(数学,统计,概率) 字符处理函数 2.1 数学函数 > abs(-4) [1] 4 > > sqrt(25) [1] 5 > > ceiling(3.475) [1] 4 > > floor(3.475) [1] 3 > > trunc(5.99) [1] 5 >

R入门&lt;三&gt;-R语言实战第4章基本数据管理摘要

入门书籍:R语言实战 进度:1-4章 摘要: 1)实用的包 forecast:用于做时间序列预测的,有auto.arima函数 RODBC:可以用来读取excel文件.但据说R对csv格式适应更加良好,相应的导入导出均较为方便(read.table, write等) reshape:目前用到rename函数,可以方便的对数据变量重命名 fCalendar:在日期输入处提及,据说对日期运算有奇效,但无具体示例.同理如lubridate sqldf:在数据选取处提及,可代替subset以及各种whe

《R语言实战》(中文完整版)pdf

下载地址:网盘下载 基本介绍 编辑 原作名: R in Action[2] 作者: Robert I. Kabacoff 译者: 高涛 / 肖楠 / 陈钢 出版社: 人民邮电出版社 出版年: 2013-1 页数: 388 定价: 79.00元 装帧: 平装 ISBN: 978-711-529-990-1 内容简介 编辑 数据时代已经到来,但数据分析.数据挖掘人才却十分短缺.由于"大数据"对每个领域的决定性影响,相对于经验和直觉,在商业.经济及其他领域中基于数据和分析去发现问题并作出科学

《R语言实战》学习笔记fourth

又拖了好久继续写R 语言的学习笔记了啊 这次到了基本数据管理了,众所周知数据准备是数据分析的最重要的前提 书本是从一个例子开始本章的内容的,例子是一个类似调查问卷的 然后把回答标为从1到5,再进行分析(这让我想到了自学SPSS 的时候啊) > manager <- c(1, 2, 3, 4, 5) > date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08&q

R语言实战(五)方差分析与功效分析

本文对应<R语言实战>第9章:方差分析:第10章:功效分析 ==================================================================== 方差分析: 回归分析是通过量化的预测变量来预测量化的响应变量,而解释变量里含有名义型或有序型因子变量时,我们关注的重点通常会从预测转向组别差异的分析,这种分析方法就是方差分析(ANOVA).因变量不只一个时,称为多元方差分析(MANOVA).有协变量时,称为协方差分析(ANCOVA)或多元协方差分析