2.1 数据集的概念
数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。
R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。
R可以处理的数据类型(模式)包括数值型、字符型、逻辑型、复数型和原生型。
2.2 数据结构
R中的一些术语较为独特:
在R中,对象(object)是指可以赋值给变量的任何事物,包括常量,数据结构,函数甚至图形。
因子(factor)是名义型变量或有序型变量。
向量
- 向量是用来存储数值型,字符型或逻辑型数据的一维数组。
- 单个向量中的数据必须拥有相同的类型或模式。
- 标量是只含有一个元素的向量。
- 通过在方括号中给定元素所处位置的数值,我们可以访问向量中的元素。
矩阵
- 矩阵是一个二维数组,只是每个元素都拥有相同的模式。
- 可以通过matrix创建矩阵,一般格式为:matrix(vector, nrow=,ncol=,byrow=logical_value, dimnames=list(char_vector_rownames,char_vector_colnames))
- vector包含了矩阵的元素
- nrow和ncol用以指定行和列的维数
- dimnames包含了可选的以字符型向量表示的行名和列名
- byrow则表明矩阵应当按行填充还是按列填充(默认)
- 我们可以使用下标和方括号来选择矩阵中的行、列或元素。
数组
- 数组与矩阵类似,但是维度可以大于2
- 数组可以通过array创建,array(vector,dimensions,dimnames)
数据框
- 每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框
- 函数attach()可将数据框添加到R的搜索路径中,R在遇到一个变量名以后,将检查搜索路径中的数据框,以定位到这个变量。
- 函数detach()将数据框从搜索路径中移除。
因子
- 类别变量和有序型变量在R中称为因子。
- 函数factor()以一个整数向量的形式储存类别值,同时一个由字符串组成的内部向量将映射到这些整数上。
- factor(status,order=TRUE,levels=c("level1","level2","level3"))
列表
- 列表就是一些对象的有序集合。
- 列表允许你整合若干(可能无关的)对象到单个对象名下。
2.3 数据的输入
使用键盘输入数据
R中的edit()会自动调用一个允许手动输入数据的文本编辑器。
- 创建一个空数据框或矩阵,其中变量名和变量的模式需与理想中的最终数据集一致;
- 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回次数据对象中。
从带分隔符的文本文件导入数据
可以使用read.table(file,header=logical_value,sep="delimiter",row.names="name")
导入Excel数据
读取Excel文件的最好的方式,就是在Excel中将其导出作为一个逗号分隔符文件,并使用前文描述的方式将其导入R中。
在Windows系统中,你也可以使用RODBC包来访问Excel文件,电子表格的第一行应当包含变量/列的名称。
2.4 处理数据对象的实用函数
在本章节的末尾,我们来见到总结一下实用的数据对象处理函数。
时间: 2024-10-29 19:12:05