《R语言实战》读书笔记--第四章 基本数据管理

本章内容:

操纵日期和缺失值

熟悉数据类型的转换

变量的创建和重编码

数据集的排序,合并与取子集

选入和丢弃变量

多说一句,数据预处理的时间是最长的……确实是这样的,额。

4.1一个示例

4.2创建新变量

算术运算符:+、-、*、/、^(**)(求幂)、x %% y(取余运算)、x %/% y(整数除法)。

transform函数:

transform函数现在只用于数据框。对数据框进行操作。

例子:

mydata <- transform(mydata,
        sumx = x1+x2,
        meanx =(x1+x2)/2)
#这里的x1和x2是mydata的两列

对数据框的操作请多用transform函数。

时间: 2024-10-21 00:19:54

《R语言实战》读书笔记--第四章 基本数据管理的相关文章

R语言实战读书笔记(二)创建数据集

2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充 2.2.4 数据框 1.attach,detach()和with() attach():将数据框加入搜索路径 detach():将数据框移除出搜索路径 with():赋值仅在括号内有效,如果想在括号外生效也可以,用<<- 2.

R语言实战读书笔记(四)基本数据管理

4.2 创建新变量 几个运算符: ^或**:求幂 x%%y:求余 x%/%y:整数除 4.3 变量的重编码 with(): within():可以修改数据框 4.4 变量重命名 包reshape中有个函数rename,可以改名 rename(df,c(manage='managerID',date='testDate')) 或 names(df)[2]<-'newname' 4.5 缺失值 is.na():检查缺失值,是返回TRUE,否返回FALSE na.rm=TRUE选项可以用,比如 y<

R语言实战读书笔记1—语言介绍

第一章 语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") 1.3 管理R工作区间函数 1.3 输入和输出 1.3.1 输入 函数 source("filename") 可在当前会话中执行一个脚本.如果文件名中不包含路径,R将假设此脚本在当前工作目录中.举例来说, source("1.R") 将执行包含在文件1.R中的R语句集合

R语言实战读书笔记2—创建数据集(上)

第二章 创建数据集 2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字段(field) ,数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute) .如表2.1所示 在表2-1所示的数据集中, PatientID 是行/实例标识符, AdmDate 是日期型变量, Age 是连续型变量, Diabetes 是名义型变量, Statu

R语言实战读书笔记2—创建数据集(下)

2.3 数据输入 2.3.1 使用键盘输入数据 2.3.2 从带分隔符的文本文件导入数据 可以使用 read.table() 从带分隔符的文本文件中导入数据.此函数可读入一个表格格式 的文件并将其保存为一个数据框. 其中, file 是一个带分隔符的ASCII文本文件, header 是一个表明首行是否包含了变量名的逻辑值( TRUE 或 FALSE ) , sep 用来指定分隔数据的分隔符, row.names 是一个可选参数,用以指定一个或多个表示行标识符的变量. 2.3.3 导入Excel

R语言实战读书笔记(五)高级数据管理

5.2.1 数据函数 abs: sqrt: ceiling:求不小于x的最小整数 floor:求不大于x的最大整数 trunc:向0的方向截取x中的整数部分 round:将x舍入为指定位的小数 signif:舍入为指定的有效数字位数 cos,sin,tan acos,asin,atan:反正弦,反余弦,反正切 cosh,sinh,tanh:双曲余弦,双曲正弦和双曲正切 acosh,asinh,atanh:反双曲余弦,反双曲正弦和反双曲正切 log(x,n):以n为底 log: log10: ex

R语言实战读书笔记(七)基本统计分析

summary() sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计 mean sd:标准差 var:方差 min: max: median: length: range: quantile: vars <- c("mpg", "hp", "wt")head(mtcars[vars]) summary(mtcars[vars]) mystats <- function(x, na.omit = FALS

R语言实战读书笔记(十三)广义线性模型

# 婚外情数据集 data(Affairs, package = "AER") summary(Affairs) table(Affairs$affairs) # 用二值变量,是或否 Affairs$ynaffair[Affairs$affairs > 0] <- 1 Affairs$ynaffair[Affairs$affairs == 0] <- 0 Affairs$ynaffair <- factor(Affairs$ynaffair, levels =

《Linux内核设计与实现》读书笔记 第四章 进程调度

第四章进程调度 进程调度程序可看做在可运行太进程之间分配有限的处理器时间资源的内核子系统.调度程序是多任务操作系统的基础.通过调度程序的合理调度,系统资源才能最大限度地发挥作用,多进程才会有并发执行的效果. 最大限度地利用处理器时间的原则是,只要有可以执行的进程,那么总会有进程在执行. 4.1多任务 多任务操作系统就是能同时并发地交互执行多个进程的操作系统.多任务能使多个进程处于堵塞或者睡眠状态.就是任务位于内存内但是不被执行,直到某一事件发生. 分类: l  非抢占式:除非进程自己主动停止运行