R in action 读书笔记(1)--第五章:高级数据管理


5.2.1数学函数


函数


描述


abs(x)


绝对值


sqrt(x)


平方根


ceiling(x)


不小于x的最小整数


floor(x)


不大于x的最大整数


trunc(x)


向0的方向截取的X中的整数部分


round(x,digits=n)


将x舍入为指定位的小数


signif(x, digits=n)


将x舍入为指定的有效数字位数


cos(x)、sin(x)、tan(x)


余弦、正弦和正切


acos(x)、asin(x)、atan(x)


反余弦、反正弦和反正切


cosh(x)、sinh(x)、tanh(x)


双曲余弦、双曲正弦 双曲正切


acosh(x)、asinh(x)、atanh(x)


反双曲余弦、反双曲正弦和反双曲正切


log(x,base=n)


对x取以n为底的对数


log(x)


自然对数


log10(x)


常用对数


exp(x)


指数函数


5.2.2统计函数


mean(x)


平均数


median(x)


中位数


sd(x)


标准差


var(x)


方差


mad(x)


绝对中位差


quantile(x,probs)


求分位数


range(x)


求值域


sum(x)


求和


diff(x, lag=n)


滞后差分,lag用以指定滞后几项


minx)


求最小值


max(x)


求最大值


scale(x,center=TRUE,scale=TRUE)


为数据对象x按列进行中心化或标准化


5.2.3概率函数


Beta分布


beta


二项分布


binom


柯西分布


cauchy


(非中心)卡方分布


chisq


指数分布


exp


F分布


f


Gamma时于布


gamma


几何分布


geom


超几何分布


hyper


对数正态分布


lnorm


Logistic分布


logis


多项分布


multinom


负二项分布


nbinom


正态分布


norm


泊松分布


pois


Wilcoxon符号秩分布


signrank


t分布


t


均匀分布


unif


Weibull分布


weibull


Wilcoxon秩和分布


wilcox


5.2.4字符处理函数


nchar(x)


计算x中的字符数量


substr(x, start, stop)


提取或替换一个字符向量中的子串


grep(pattern, x, ignore.case=FALSE,fixed=FALSE)


在x中搜索某种模式。若fixed=FALSE,则pattern为一个正则表达式。若fixed=TRUE,则pattern为一个文本字符申。返回值为匹配的下标


sub (pattern, replacement, x,ignore.case=FALSE, fixed=FALSE)


在x中搜索pattern,并以文本replacement将其替换。若fixed=FALSE,则pattern为一个正则表达式若fixed=TRUE,则pattern为一个文本字符串


strsplit(x, split, fixed=FALSE)


在split处分割字符向量x中的元索。若fixed=FALSE,则pattern为一个正则表达式。若fixed=TRUE,则pattern为一个文本字符申


pas七e(…,sep=“”)


连接字符申,分隔符为sep


toupper(x)


大写转换


tolower(x)


小写转换


5.2.5其他实用函数


length(x)


对象x的长度


seq(from, to, by)


生成一个序列


rep(x, n)


将x重复n次


cut(x, n)


将连续型变量对于割为有着n个水平的因子


pretty(x, n)


创建美观的分割点。通过选取n+1个等间距的取整值,将一个连续型变量对于割为n个区间。


cat(…,file ="myfile",append =FALSE)


连接‘},的对象,井将其输出到屏幕上或文件‘},(如果声明了一个的话)

时间: 2024-10-03 18:19:31

R in action 读书笔记(1)--第五章:高级数据管理的相关文章

R in action读书笔记(2)-第五章:高级数据管理(下)

5.4 控制流 ? 语句(statement)是一条单独的R语句或一组复合语句(包含在花括号{ } 中的一组R语 句,使用分号分隔): ? 条件(cond)是一条最终被解析为真(TRUE)或假(FALSE)的表达式: ? 表达式(expr)是一条数值或字符串的求值语句: q    序列(seq)是一个数值或字符串序列. q  5.4.1重复和循环 q  1.for结构  循环重复地执行一个语句,直到某个变量的值不再包含序列seq中为止 q  语法:for(var in seq) statemen

R in action读书笔记(22)第十六章 高级图形进阶(下)

16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记(5)-第七章:基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars])                    mpg  hp    wt Mazda RX4         21.0 110 2.620 Mazda RX4 Wag     21.0 110 2.875 Datsun 710        22.8  93 2.320 Hornet 4 Drive    21.4 11

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记(17)第十二章 重抽样与自助法

12.4 置换检验点评 除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记(16)第十二章 重抽样与自助法之 置换检验

第十二章:重抽样与自助法 本章,我们将探究两种应用广泛的依据随机化思想的统计方法:置换检验和自助法 12.1 置换检验 置换检验,也称随机化检验或重随机化检验. 有两种处理条件的实验,十个受试者已经被随机分配到其中一种条件(A或B)中,相应的结果变量(score)也已经被记录.实验结果如下: 如果两种处理方式真的等价,那么分配给观测得分的标签(A处理或B处理)便是任意的.为检验两种处理方式的差异,我们可遵循如下步骤: (1) 与参数方法类似,计算观测数据的t统计量,称为t0: (2) 将10个得

R in action读书笔记(6)-第七章:基本统计分析(下)

7.3相关 相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡 量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记(13)第十章 功效分析

功效分析 功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量.反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率.如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择. 10.1假设检验速览 在研究过程时,研究者通常关注四个量:样本大小.显著性水平.功效和效应值.样本大小指的是实验设计中每种条件/组中观测的数目.显著性水平(也称为alpha)由I型错误的概率来定义.也可以把它看做是发现效应不发生的概率.功效通过1减去II型错误的概

R in action读书笔记(21)第十六章 高级图形进阶(上)

16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(install.packages("ggplot2")),第一次使用前还要进行加载(library(ggplot2)). 16.2 lattice 包 lattice包为单变量和多变量数据的可视化提供了一个全面的图形系统.在一个或多个其他变量的条件下,栅栏图形展示某个变量的分布或与其他变量间的关系