R-创建数据集-ch2

1、数据集的概念

R的数据结构:包括标量、向量、矩阵、数组、数据框和列表;

R的数据类型:包括数值型、字符型、逻辑型(TRUE/FALSE)、复数型(虚数)和原生型(字节);

不同的行业对于数据集的行和列叫法不同。统计学家称它们为观测(observation)和变量(variable),数据库分析师称记录和字段,数据挖掘和机器学习叫示例和属性。

2、数据的结构

对象(object)是指可以赋值给变量的任何事物,包括常量、数据结构、函数,甚至图形。

名义型变量或有序型变量称为因子(factor),它们在R中被特殊地存储和处理。

2.1 标量

标量是只含一个元素的向量,例如f <- 3,用于保存常量。

2.2 向量

向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量。单个向量中的数据必须拥有相同的类型。

注:访问向量中的元素,访问一个直接写元素所在序号,访问多个需要带着函数c()。

2.3 矩阵

矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)。可通过函数matrix创建矩阵。一般使用格式为:

其中vector包含了矩阵的元素,nrow和ncol用以指定行和列的维数,dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按列填充(byrow=FALSE),默认情况下按列填充。

使用下标和方括号来选择矩阵中的行、列或元素。

X[i,]指矩阵X中的第i 行,

X[,j]指第j 列,X[i, j]指第i 行第j 个元素,

选择多行或多列时,下标i 和j 可为数值型向量。例:y<-matrix   y[c(1,3),c(1,3)]

2.4 数组

数组(array)与矩阵类似,数组中的数据也只能拥有一种模式,但是维度可以大于2。数组可通过array函数创建,形式如下:

其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。

2.5 数据框

数据框是R中最常处理的数据结构,不同的列可以包含不同模式(数值型、字符型等)的数据。

数据框可通过函数data.frame()创建:

其中的列向量col1, col2, col3,… 可为任何类型(如字符型、数值型或逻辑型)

选取数据框中元素的方法:

(1)利用下标、列名查询

为了避免每次都写 数据框$列名 这样的格式冗杂,采取下面的方法:

(2)attach()、detach()

函数attach()可将数据框添加到R的搜索路径中,函数detach()将数据框从搜索路径中移除

局限性:函数attach()和detach()最好在你分析一个单独的数据框,并且不太可能有多个同名对象时使用

(3)with()

函数with()的局限性在于,赋值仅在此函数的括号内生效。

2.6因子

名义型变量是没有顺序之分的类别变量,有序型变量表示一种顺序关系,而非数量关系。

类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。

函数factor()以一个整数向量的形式存储类别值,整数的取值范围是[1... k ](其中k 是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。(不太懂?

例:status<-c("poor","improved","excellent","poor")

把status指定为一个普通因子:  status<-factor(status)

把status指定为一个有序因子:在函数factor()中加入order参数,order=TRUE表示默认按字母顺序排序。

想指定水平排序顺序,则为:

函数str(object)可以提供某个对象object的信息,此处提供因子status各水平的赋值。excellent=1,improved=2,poor=3

2.7列表

列表(list)是R的数据类型中最为复杂的一种,可以使用函数list()创建列表:

可以通过在双重方括号中指明代表某个成分的数字或名称来访问列表中的元素。

由于两个原因,列表成为了R中的重要数据结构。首先,列表允许以一种简单的方式组织和重新调用不相干的信息。其次,许多R函数的运行结果都是以列表的形式返回的。

注:R中的下标不是从0开始,而是从1开始;变量无法被声明,它们在首次被赋值时生成。

3、数据的输入

向R中导入数据的权威指南参见可在http://cran.r-project.org/doc/manuals/R-data.pdf下载的R Data Import/Export手册,中文名《R数据的导入和导出》。

3.1 使用键盘输入数据

R中的函数edit()会自动调用一个允许手动输入数据的文本编辑器。具体步骤如下:
         (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;
         (2) 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。

注:newobject <- edit(object) 编辑对象并另存为newobject
                  fix(object) 直接编辑对象
*以

3.2 从带分隔符的文本文件导入数据

使用read.table()从带分隔符的文本文件中导入数据。此函数可读入一个表格格式的文件并将其保存为一个数据框。其语法如下:

例子中,file为"studentgrade.csv"。在导入文本文件前,先切换到文本文件所在的工作目录,使用setwd("工作目录")函数

请注意,参数sep允许你导入那些使用逗号以外的符号来分隔行内数据的文件。你可以使用sep="\t"读取以制表符分隔的文件。此参数的默认值为sep="",即表示分隔符可为一个或多个空格、制表符、换行符或回车符。

3.3 导入excel数据

方法一:将excel文件导出为一个逗号分隔文件(csv),利用3.2的方法。

导出的方法是在另存为中操作。

方法二:安装xlsx包出现错误?  如果能安装载入成功,用函数read.xlsx(file, n)即可,其中file是Excel 2007工作簿的所在路径,n则为要导入的工作表序号。

3.4 导入XML数据

3.5 从网页抓取数据

3.6 导入SPSS数据

3.7 导入SAS数据

3.8 导入Stata数据

3.11 访问数据库管理系统

等等

4、 数据集的标注

5、 处理数据对象的实用函数

 

时间: 2024-07-31 18:34:54

R-创建数据集-ch2的相关文章

R语言实战读书笔记2—创建数据集(上)

第二章 创建数据集 2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字段(field) ,数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute) .如表2.1所示 在表2-1所示的数据集中, PatientID 是行/实例标识符, AdmDate 是日期型变量, Age 是连续型变量, Diabetes 是名义型变量, Statu

R语言 数据集

第二章 创建数据集 1.R语言的数据类型 数值型.字符型.逻辑型.复数型(虚数)和原生型(字节) 2.数据结构 a.向量:存储数值型.字符型和逻辑型数据的一维数组 > a=c(1,2,3,4,5)#创建 组合功能的函数c() > a [1] 1 2 3 4 5 > a[c(1,4)]#访问 方括号+向量中指定的元素 [1] 1 4 b.矩阵:二维数组 mymatrix=matrix(1:20,nrow=5,ncol=4,byrow=TRUE,dimnames=list(rnames,cn

sas高级编程(3)format过程,管理format、永久使用format给指定variable、控制format搜索顺序、fmterr、利用数据集创建format,由format创建数据集、制表过程

/***************************************************格式过程************************************************/ PROC FORMAT <option(s)>; EXCLUDE entry(s); INVALUE <$>name <(informat-option(s))>value-range-set(s); PICTURE name <(format-optio

《R语言实战》读书笔记--第二章 创建数据集

2.1数据集的概念 变量的类型是不同的,比如标示符.日期变量.连续变量.名义变量.有序型变量等,记得数据挖掘导论中有专门的描述. R可以处理的数据类型包括了数值型.字符型.逻辑型.复数型(虚数).原生型(字节). 2.2数据结构 R拥有很多存储数据的对象类型,包括 标量.向量.矩阵.数组.数据框.列表.它们可以用下图表示: 因子是R中的名义型或者有序型变量,比较特殊. 2.2.1向量 标量是只有一个元素的向量,一般用来保存常量.其他没什么说的. 2.2.2矩阵 矩阵创建函数: matrix(da

R语言实战之创建数据集

数据结构 向量: 向量是用于存储数值型.字符型或逻辑型数据的一维数组. 可通过函数c()可用来创建向量 实例操作: 矩阵: 矩阵是一个二位数组,只是每个元素都拥有相同的模式(数值型.字符型或逻辑型) 可通过函数matrix()创建矩阵 实例操作: 数组: 数组(array)与矩阵类似,但是维度可以大于2 数组可通过array函数创建 实例操作: 数据框 由于不同的列可以包含不同模式(数值型.字符型等)的数据,数据框的概念较矩阵来说更为一般.数据框是R中最常处理的数据结构 数据框可通过函数data

R语言实战读书笔记(二)创建数据集

2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充 2.2.4 数据框 1.attach,detach()和with() attach():将数据框加入搜索路径 detach():将数据框移除出搜索路径 with():赋值仅在括号内有效,如果想在括号外生效也可以,用<<- 2.

R语言实战读书笔记2—创建数据集(下)

2.3 数据输入 2.3.1 使用键盘输入数据 2.3.2 从带分隔符的文本文件导入数据 可以使用 read.table() 从带分隔符的文本文件中导入数据.此函数可读入一个表格格式 的文件并将其保存为一个数据框. 其中, file 是一个带分隔符的ASCII文本文件, header 是一个表明首行是否包含了变量名的逻辑值( TRUE 或 FALSE ) , sep 用来指定分隔数据的分隔符, row.names 是一个可选参数,用以指定一个或多个表示行标识符的变量. 2.3.3 导入Excel

第2章--创建数据集

2.1 数据集的概念 数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量. R中有许多用于存储数据的结构,包括标量.向量.数组.数据框和列表. R可以处理的数据类型(模式)包括数值型.字符型.逻辑型.复数型和原生型. 2.2 数据结构 R中的一些术语较为独特: 在R中,对象(object)是指可以赋值给变量的任何事物,包括常量,数据结构,函数甚至图形. 因子(factor)是名义型变量或有序型变量. 向量 向量是用来存储数值型,字符型或逻辑型数据的一维数组. 单个向量中的数据必须拥有相

R语言数据集的技术

特征值选择技术要点 特征值选择技术要点(特征值分解) 作者:王立敏 文章来源:xiahouzuoxin 一.特征值分解 1.特征值分解 线性代数中,特征分解(Eigendecomposition),又称谱分解(Spectral decomposition)是将矩阵分解为由其特征值和特征向量表示的矩阵之积的方法.需要注意只有对可对角化矩阵才可以施以特征分解. 设A有n个特征值及特征向量,则: 将上面的写到一起成矩阵形式: 若(x1,x2,...,xn)可逆,则左右两边都求逆,则方阵A可直接通过特征