R语言实战复习笔记——记录细节

> with(mtcars,summary(mpg,disp))
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  10.40   15.42   19.20   20.09   22.80   33.90

相当于attach 和detach

> mydata=transform(mtcars,sumx=mpg+disp)

　　向数据框中添加新变量与mydsta$sumx相同

> View(mydata)

　　将弹出小框，进行数据查看

> within(leadership,{
+ agecat=NA
+ agecat[age>75]=‘Elder‘
+ agecat[age<55]=‘Young‘})

　　with 和within的区别为，with不可对数据框进行修改，within 可以

#对变量的名称进行修改

1）>fix(data)　　#进行交互式修改

2) reshape包的rename　　rename(data,c(oldname=‘newname‘,oldname=‘newname‘))

3)names(data)[i]=‘newname‘

#移除含有缺失值的观测

1）na.nmit(data)

#日期的输出格式

>format(x,format=‘%d %m %y‘)

#输出系统日期

>Sys.Date()

#计算时间间隔

difftime(today,anotherday,units=‘weeks‘)　　#返回的为一种特定的类，如果需要请将其使用as.numeric进行转化

#数据排序

> order(mtcars$mpg) #返回的为mpg升序排列（默认，如需降序在变量前加符号，或设定参数）的索引号

[1] 15 16 24 7 17 31 14 23 22 29 12 13 11 6 5 10 25 30 1 2 4 32 21 3 9 8 27 26 19 28 18 20

所以要mtcars[order(mtcars$mpg),]才返回数据

#数据集的合并

>total=merge(dataframeA,dataframeB,by=‘ID‘) #数据依据‘ID’进行合并，相当于inner join

数据集包含的判断利用 %in%,返回的为逻辑向量

#删除变量可以用c(-1)或者var1=NULL

#依据条件选取观测值

newdata=subset(leadership,age>=35,select=c(q1,q2))

newdata=subset(leadership,age>=35,select=gender:q4) from to的形式仅在此处应用于变量的选取

> mtcars[1:10,‘mpg‘] 必须加双引号

#随机抽样

>sample(x, size, replace = FALSE, prob = NULL)

> sample(1:10,3)
[1] 5 7 3

"sqldf"包可以用来使用sql语句

时间： 2024-08-01 03:24:01

R语言实战复习笔记——记录细节的相关文章

R语言实战读书笔记(二)创建数据集

2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充 2.2.4 数据框 1.attach,detach()和with() attach():将数据框加入搜索路径 detach():将数据框移除出搜索路径 with():赋值仅在括号内有效,如果想在括号外生效也可以,用<<- 2.

R语言实战读书笔记2—创建数据集（上）

第二章创建数据集 2.1 数据集的概念不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字段(field) ,数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute) .如表2.1所示在表2-1所示的数据集中, PatientID 是行/实例标识符, AdmDate 是日期型变量, Age 是连续型变量, Diabetes 是名义型变量, Statu

R语言实战读书笔记1—语言介绍

第一章语言介绍 1.1 典型的数据分析步骤 1.2 获取帮助 help.start() help("which") help.search("which") 1.3 管理R工作区间函数 1.3 输入和输出 1.3.1 输入函数 source("filename") 可在当前会话中执行一个脚本.如果文件名中不包含路径,R将假设此脚本在当前工作目录中.举例来说, source("1.R") 将执行包含在文件1.R中的R语句集合

R语言实战读书笔记2—创建数据集(下)

2.3 数据输入 2.3.1 使用键盘输入数据 2.3.2 从带分隔符的文本文件导入数据可以使用 read.table() 从带分隔符的文本文件中导入数据.此函数可读入一个表格格式的文件并将其保存为一个数据框. 其中, file 是一个带分隔符的ASCII文本文件, header 是一个表明首行是否包含了变量名的逻辑值( TRUE 或 FALSE ) , sep 用来指定分隔数据的分隔符, row.names 是一个可选参数,用以指定一个或多个表示行标识符的变量. 2.3.3 导入Excel

R语言实战读书笔记(五)高级数据管理

5.2.1 数据函数 abs: sqrt: ceiling:求不小于x的最小整数 floor:求不大于x的最大整数 trunc:向0的方向截取x中的整数部分 round:将x舍入为指定位的小数 signif:舍入为指定的有效数字位数 cos,sin,tan acos,asin,atan:反正弦,反余弦,反正切 cosh,sinh,tanh:双曲余弦,双曲正弦和双曲正切 acosh,asinh,atanh:反双曲余弦,反双曲正弦和反双曲正切 log(x,n):以n为底 log: log10: ex

R语言实战读书笔记(七)基本统计分析

summary() sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计 mean sd:标准差 var:方差 min: max: median: length: range: quantile: vars <- c("mpg", "hp", "wt")head(mtcars[vars]) summary(mtcars[vars]) mystats <- function(x, na.omit = FALS

R语言实战读书笔记(四)基本数据管理

4.2 创建新变量几个运算符: ^或**:求幂 x%%y:求余 x%/%y:整数除 4.3 变量的重编码 with(): within():可以修改数据框 4.4 变量重命名包reshape中有个函数rename,可以改名 rename(df,c(manage='managerID',date='testDate')) 或 names(df)[2]<-'newname' 4.5 缺失值 is.na():检查缺失值,是返回TRUE,否返回FALSE na.rm=TRUE选项可以用,比如 y<

R语言实战读书笔记(十三)广义线性模型

# 婚外情数据集 data(Affairs, package = "AER") summary(Affairs) table(Affairs$affairs) # 用二值变量,是或否 Affairs$ynaffair[Affairs$affairs > 0] <- 1 Affairs$ynaffair[Affairs$affairs == 0] <- 0 Affairs$ynaffair <- factor(Affairs$ynaffair, levels =

《R语言实战》学习笔记seventh

由于在准备软考中级数据库系统工程师外加巩固SQL Server 2012,所以拖了好久一直没继续学R 下去所以今天重开R 的战事这次是关于基本统计分析的内容,即关于用于生成基本的描述性统计量和推断统计量的R 函数首先,将着眼于定量变量的位置和尺度的衡量方式然后将是生成类别型变量的频数表和列联表的方法(以及连带的卡方检验) 接下来将考察连续型和有序型变量相关系数的多种形式最后转而通过参数检验(t检验)和非参数检验(Mann-Whitney U检验.Kruskal-Wallis检验)方法研