R in action -- 2.1 数据结构

R in action -- 2.1 数据结构

1、R中用来存储数据的结构:标量、向量、数组、数据框、列表。

2、R中可以处理的数据类型:数值、字符、逻辑、复数、原生(字节)。

3、向量:

  • 向量是用来存储数值型、字符型或逻辑型数据的一维数组。
  • c() 用来组合括号内的数据并创建向量。

# a <- c(1,2,3,5,8,11,19)

# b <- c("Python","go","R","C#","Ruby","swift")

  • # d <- c(TURE,TURE,FALSE,FALSE)
  • 单个向量中的数据必须拥有相同的数据类型或模式,不可混杂。
  • 标量指只含一个元素的向量,如 a01 <- 3。
  • 向量中的数据可通过偏移量读取(偏移量从1开始)。
> a <- c(1,2,3,5,8,11,19)
> a[3]
[1] 3
> a[c(1,2,3,6)]
[1]  1  2  3 11
> a[c(3:6)]
[1]  3  5  8 11

4、矩阵

矩阵是一个二维数组,每个元素都有相同的模式

通过matrix创建数组,并可用下标访问,举例如下:

> test01matrix=matrix(1:20,nrow=4,ncol=5)
> test01matrix
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    5    9   13   17
[2,]    2    6   10   14   18
[3,]    3    7   11   15   19
[4,]    4    8   12   16   20
> test01matrix[2,]
[1]  2  6 10 14 18
> test01matrix[3,]
[1]  3  7 11 15 19
> test01matrix[,3]
[1]  9 10 11 12
> test01matrix[2,3]
[1] 10
> test01matrix[2,c(2,3)]
[1]  6 10
>
>
> cells <- c(1,2,3,5,8,11)
> rnames <- c("R1","R2","R3")
> cnames <- c("C1","C2")
> test02matrix=matrix(cells,nrow=3,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames))
> test02matrix
   C1 C2
R1  1  2
R2  3  5
R3  8 11
> test02matrix=matrix(cells,nrow=3,ncol=2,byrow=FALSE,dimnames=list(rnames,cnames))
> test02matrix
   C1 C2
R1  1  5
R2  2  8
R3  3 11

5、数组

数组是维度可以大于2的矩阵,通过array创建,举个栗子

> dim1 <- c("A1","A2")
> dim2 <- c("B1","B2","B3")
> dim3 <- c("C1","C2","C3","C4")
> test03array <- array(1:24,c(2,3,4),dimnames=list(dim1,dim2,dim3))
> test03array
, , C1

   B1 B2 B3
A1  1  3  5
A2  2  4  6

, , C2

   B1 B2 B3
A1  7  9 11
A2  8 10 12

, , C3

   B1 B2 B3
A1 13 15 17
A2 14 16 18

, , C4

   B1 B2 B3
A1 19 21 23
A2 20 22 24

6、数据框

数据框可包含不同模式的数据。可通过data.frame()创建。

每一列数据的模式必须一致

> ID <- c(1,2,3,4)
> age <- c(25,26,28,58)
> diabetes <- c("T1","T2","T1","T1")
> status <- c("good","none","none","poor")
> patientdata <- data.frame(ID,age,diabetes,status)
> patientdata
  ID age diabetes status
1  1  25       T1   good
2  2  26       T2   none
3  3  28       T1   none
4  4  58       T1   poor
> patientdata[1:2]
  ID age
1  1  25
2  2  26
3  3  28
4  4  58

> patientdata[c("diabetes","status")]
  diabetes status
1       T1   good
2       T2   none
3       T1   none
4       T1   poor
> patientdata$age
[1] 25 26 28 58
> table(patientdata$ID,patientdata$status)

    good none poor
  1    1    0    0
  2    0    1    0
  3    0    1    0
  4    0    0    1

函数attach()用来将数据框添加到路径中,detach()用来退出路径

函数with()也可达到同样的效果

时间: 2024-10-13 08:42:23

R in action -- 2.1 数据结构的相关文章

R in action -- 2.3 数据输入

R in action -- 2.3 数据输入 1.从CSV文件导入数据 > gtades <- read.table("1.csv",header=TRUE,sep=",") > gtades ID name age 1 1 qqw 15 2 2 eew 56 3 3 rrw 43 4 4 ttw 58 2.从Excel导入数据 安装openxlsx包 > install.packages("openxlsx") Ins

R in action

第二章:创建数据集 2.1数据集的概念 数据库中的记录与字段 2.2数据结构 2.2.1 向量:拥有相同数据类型的一维数组(可以使用类似python的切片功能) a<-(1,2,3,4); 2.2.2矩阵:拥有相同数据类型的二维数组,利用matrix创建 y<-matrix(1:20,nrow=5,ncol=4) #创建一个矩阵 2.2.3数组,利用array创建 2.2.4数据框 mydata<-data.frame(clo1,col2,col3);创建一个数据框 2.2.5因子:类别

R语言之数据类型和数据结构

一.数据类型 1.数字分为整数和小数,整数用integer表示,小数用numeric表示,如果一组数据同时包含整数与小数,那么R会将整数转换为小数,即添加一个小数位2.文本分为普通文本和因子.普通文本用character表示,因子用factor表示.普通文本就是通常所说的文字符号,带有引号标记,因子则没有引号标记, 可以使用as.xx函数对上述类型进行转换====================================== 二.数据结构 数据可能以各种形式和结构存在,并且每一种都有特殊用

R in action读书笔记(22)第十六章 高级图形进阶(下)

16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记(17)第十二章 重抽样与自助法

12.4 置换检验点评 除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记(6)-第七章:基本统计分析(下)

7.3相关 相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡 量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记(5)-第七章:基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars])                    mpg  hp    wt Mazda RX4         21.0 110 2.620 Mazda RX4 Wag     21.0 110 2.875 Datsun 710        22.8  93 2.320 Hornet 4 Drive    21.4 11

R in action读书笔记(13)第十章 功效分析

功效分析 功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量.反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率.如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择. 10.1假设检验速览 在研究过程时,研究者通常关注四个量:样本大小.显著性水平.功效和效应值.样本大小指的是实验设计中每种条件/组中观测的数目.显著性水平(也称为alpha)由I型错误的概率来定义.也可以把它看做是发现效应不发生的概率.功效通过1减去II型错误的概