R in action -- 2.1 数据结构

1、R中用来存储数据的结构：标量、向量、数组、数据框、列表。

2、R中可以处理的数据类型：数值、字符、逻辑、复数、原生（字节）。

3、向量：

向量是用来存储数值型、字符型或逻辑型数据的一维数组。
c() 用来组合括号内的数据并创建向量。

# a <- c(1,2,3,5,8,11,19)

# b <- c("Python","go","R","C#","Ruby","swift")

# d <- c(TURE,TURE,FALSE,FALSE)
单个向量中的数据必须拥有相同的数据类型或模式，不可混杂。
标量指只含一个元素的向量，如 a01 <- 3。
向量中的数据可通过偏移量读取（偏移量从1开始）。

> a <- c(1,2,3,5,8,11,19)
> a[3]
[1] 3
> a[c(1,2,3,6)]
[1]  1  2  3 11
> a[c(3:6)]
[1]  3  5  8 11

4、矩阵

矩阵是一个二维数组，每个元素都有相同的模式

通过matrix创建数组，并可用下标访问，举例如下：

> test01matrix=matrix(1:20,nrow=4,ncol=5)
> test01matrix
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
> test01matrix[2,]
[1]  2  6 10 14 18
> test01matrix[3,]
[1]  3  7 11 15 19
> test01matrix[,3]
[1]  9 10 11 12
> test01matrix[2,3]
[1] 10
> test01matrix[2,c(2,3)]
[1]  6 10
>
>
> cells <- c(1,2,3,5,8,11)
> rnames <- c("R1","R2","R3")
> cnames <- c("C1","C2")
> test02matrix=matrix(cells,nrow=3,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))
> test02matrix
   C1 C2
R1  1  2
R2  3  5
R3  8 11
> test02matrix=matrix(cells,nrow=3,ncol=2,byrow=FALSE,dimnames=list(rnames,cnames))
> test02matrix
   C1 C2
R1  1  5
R2  2  8
R3  3 11

5、数组

数组是维度可以大于2的矩阵，通过array创建，举个栗子

> dim1 <- c("A1","A2")
> dim2 <- c("B1","B2","B3")
> dim3 <- c("C1","C2","C3","C4")
> test03array <- array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
> test03array
, , C1

   B1 B2 B3
A1  1  3  5
A2  2  4  6

, , C2

   B1 B2 B3
A1  7  9 11
A2  8 10 12

, , C3

   B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

   B1 B2 B3
A1 19 21 23
A2 20 22 24

6、数据框

数据框可包含不同模式的数据。可通过data.frame()创建。

每一列数据的模式必须一致

> ID <- c(1,2,3,4)
> age <- c(25,26,28,58)
> diabetes <- c("T1","T2","T1","T1")
> status <- c("good","none","none","poor")
> patientdata <- data.frame(ID,age,diabetes,status)
> patientdata
  ID age diabetes status
1  1  25       T1   good
2  2  26       T2   none
3  3  28       T1   none
4  4  58       T1   poor
> patientdata[1:2]
  ID age
1  1  25
2  2  26
3  3  28
4  4  58

> patientdata[c("diabetes","status")]
  diabetes status
1       T1   good
2       T2   none
3       T1   none
4       T1   poor
> patientdata$age
[1] 25 26 28 58
> table(patientdata$ID,patientdata$status)

    good none poor
  1    1    0    0
  2    0    1    0
  3    0    1    0
  4    0    0    1

函数attach()用来将数据框添加到路径中，detach()用来退出路径

函数with()也可达到同样的效果

时间： 2024-10-13 08:42:23

R in action -- 2.1 数据结构的相关文章

R in action -- 2.3 数据输入

R in action -- 2.3 数据输入 1.从CSV文件导入数据 > gtades <- read.table("1.csv",header=TRUE,sep=",") > gtades ID name age 1 1 qqw 15 2 2 eew 56 3 3 rrw 43 4 4 ttw 58 2.从Excel导入数据安装openxlsx包 > install.packages("openxlsx") Ins

R in action

第二章:创建数据集 2.1数据集的概念数据库中的记录与字段 2.2数据结构 2.2.1 向量:拥有相同数据类型的一维数组(可以使用类似python的切片功能) a<-(1,2,3,4); 2.2.2矩阵:拥有相同数据类型的二维数组,利用matrix创建 y<-matrix(1:20,nrow=5,ncol=4) #创建一个矩阵 2.2.3数组,利用array创建 2.2.4数据框 mydata<-data.frame(clo1,col2,col3);创建一个数据框 2.2.5因子:类别

R语言之数据类型和数据结构

一.数据类型 1.数字分为整数和小数,整数用integer表示,小数用numeric表示,如果一组数据同时包含整数与小数,那么R会将整数转换为小数,即添加一个小数位2.文本分为普通文本和因子.普通文本用character表示,因子用factor表示.普通文本就是通常所说的文字符号,带有引号标记,因子则没有引号标记, 可以使用as.xx函数对上述类型进行转换====================================== 二.数据结构数据可能以各种形式和结构存在,并且每一种都有特殊用

R in action读书笔记（22）第十六章高级图形进阶（下）

16.2.4 图形参数在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记（19）第十四章主成分和因子分析

第十四章:主成分和因子分析本章内容主成分分析探索性因子分析其他潜变量模型主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记（17）第十二章重抽样与自助法

12.4 置换检验点评除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记（6）-第七章：基本统计分析（下）

7.3相关相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记（5）-第七章：基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars]) mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 11

R in action读书笔记（13）第十章功效分析

功效分析功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量.反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率.如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择. 10.1假设检验速览在研究过程时,研究者通常关注四个量:样本大小.显著性水平.功效和效应值.样本大小指的是实验设计中每种条件/组中观测的数目.显著性水平(也称为alpha)由I型错误的概率来定义.也可以把它看做是发现效应不发生的概率.功效通过1减去II型错误的概