第2章--创建数据集

2.1 数据集的概念

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示变量。

R中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。

R可以处理的数据类型(模式)包括数值型、字符型、逻辑型、复数型和原生型。

2.2 数据结构

R中的一些术语较为独特:

在R中,对象(object)是指可以赋值给变量的任何事物,包括常量,数据结构,函数甚至图形。

因子(factor)是名义型变量或有序型变量。

向量

  1. 向量是用来存储数值型,字符型或逻辑型数据的一维数组。
  2. 单个向量中的数据必须拥有相同的类型或模式。
  3. 标量是只含有一个元素的向量。
  4. 通过在方括号中给定元素所处位置的数值,我们可以访问向量中的元素。

矩阵

  1. 矩阵是一个二维数组,只是每个元素都拥有相同的模式。
  2. 可以通过matrix创建矩阵,一般格式为:matrix(vector, nrow=,ncol=,byrow=logical_value, dimnames=list(char_vector_rownames,char_vector_colnames))
    • vector包含了矩阵的元素
    • nrow和ncol用以指定行和列的维数
    • dimnames包含了可选的以字符型向量表示的行名和列名
    • byrow则表明矩阵应当按行填充还是按列填充(默认)
  3. 我们可以使用下标和方括号来选择矩阵中的行、列或元素。

数组

  1. 数组与矩阵类似,但是维度可以大于2
  2. 数组可以通过array创建,array(vector,dimensions,dimnames)

数据框

  1. 每一列数据的模式必须唯一,不过你却可以将多个模式的不同列放到一起组成数据框
  2. 函数attach()可将数据框添加到R的搜索路径中,R在遇到一个变量名以后,将检查搜索路径中的数据框,以定位到这个变量。
  3. 函数detach()将数据框从搜索路径中移除。

因子

  1. 类别变量和有序型变量在R中称为因子。
  2. 函数factor()以一个整数向量的形式储存类别值,同时一个由字符串组成的内部向量将映射到这些整数上。
  3. factor(status,order=TRUE,levels=c("level1","level2","level3"))

列表

  1. 列表就是一些对象的有序集合。
  2. 列表允许你整合若干(可能无关的)对象到单个对象名下。

2.3 数据的输入

使用键盘输入数据

R中的edit()会自动调用一个允许手动输入数据的文本编辑器。

  1. 创建一个空数据框或矩阵,其中变量名和变量的模式需与理想中的最终数据集一致;
  2. 针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回次数据对象中。

从带分隔符的文本文件导入数据

可以使用read.table(file,header=logical_value,sep="delimiter",row.names="name")

导入Excel数据

读取Excel文件的最好的方式,就是在Excel中将其导出作为一个逗号分隔符文件,并使用前文描述的方式将其导入R中。

在Windows系统中,你也可以使用RODBC包来访问Excel文件,电子表格的第一行应当包含变量/列的名称。

2.4 处理数据对象的实用函数

在本章节的末尾,我们来见到总结一下实用的数据对象处理函数。

时间: 2024-08-27 22:33:28

第2章--创建数据集的相关文章

《R语言实战》读书笔记--第二章 创建数据集

2.1数据集的概念 变量的类型是不同的,比如标示符.日期变量.连续变量.名义变量.有序型变量等,记得数据挖掘导论中有专门的描述. R可以处理的数据类型包括了数值型.字符型.逻辑型.复数型(虚数).原生型(字节). 2.2数据结构 R拥有很多存储数据的对象类型,包括 标量.向量.矩阵.数组.数据框.列表.它们可以用下图表示: 因子是R中的名义型或者有序型变量,比较特殊. 2.2.1向量 标量是只有一个元素的向量,一般用来保存常量.其他没什么说的. 2.2.2矩阵 矩阵创建函数: matrix(da

R语言实战读书笔记2—创建数据集(上)

第二章 创建数据集 2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字段(field) ,数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute) .如表2.1所示 在表2-1所示的数据集中, PatientID 是行/实例标识符, AdmDate 是日期型变量, Age 是连续型变量, Diabetes 是名义型变量, Statu

[Effective Java 读书笔记] 第二章 创建和销毁对象 第一条

第二章  创建和销毁对象 第一条 使用静态工厂方法替代构造器,原因: 静态工厂方法可以有不同的名字,也就是说,构造器只能通过参数的不同来区分不同的目的,静态工厂在名字上就能表达不同的目的 静态工厂方法不用每次调用的时候都创建新的对象(其实是因为它是static的,所以只能用static的,所以是一早就创建了,不需要重复创建吧..),比如书中 Boolean.valueOf(boolean) 1 public static final Boolean TRUE = new Boolean(true

【Oracle】第一章创建授权

ORACLE 第一章创建授权 通过命令查看控制文件,数据文件,日志文件: 控制文件 : Desc v$controlfile; 数据文件 :desc v$datafile; 日志文件: desc v$logfile; 1. 执行导入  .sql文件 命令语法如下: directory_path\store_schema.sql 其中 directory_path 是保存 store_schema.sql 脚本的目录和路径 例如:以下代码演示了导入C盘下的 sql 脚本文件: @c:\sql\st

目录: 第3章 创建新的 SQL Server实例

第3章  创建新的 SQL Server实例 3.1  使用安装向导 3.2  从命令行安装 3.3  在服务器核心中安装

Unity 2D游戏开发快速入门第1章创建一个简单的2D游戏

Unity 2D游戏开发快速入门第1章创建一个简单的2D游戏 即使是现在,很多初学游戏开发的同学,在谈到Unity的时候,依然会认为Unity只能用于制作3D游戏的.实际上,Unity在2013年发布4.3版本的时候,就开始提供对制作2D游戏的支持了.例如,提供了一些专用于开发2D游戏的Unity工具.现在Unity已经发布了版本4.5,对2D游戏的支持更是完善了不少.为了说明Unity对2D游戏所提供的支持,本章会使用这些在Unity中原生的工具,开发一个简单的2D游戏.本文选自<Unity

目录:第14章 创建故障转移群集

第14章 创建故障转移群集 14.1 将计算机加入域  http://mssqlmct.blog.51cto.com/9951484/1658539 14.2 添加群集功能  http://mssqlmct.blog.51cto.com/9951484/1658551 14.3 验证配置  http://mssqlmct.blog.51cto.com/9951484/1658557 14.4 创建群集 14.5 添加节点 15.6 添加存储和服务 15.7 关闭群集

第二章 创建对话框

1.子类化QDialog 第一个例子是完全使用C++编写的Find对话框. finddialog.h: 1 #ifndef FINDDIALOG_H 2 #define FINDDIALOG_H 3 4 #include <QDialog> 5 6 class QCheckBox; 7 class QLabel; 8 class QLineEdit; 9 class QPushButton; 10 11 class FindDialog : public QDialog 12 { 13 Q_O

[Effective Java]第二章 创建和销毁对象

第一章      前言 略... 第二章      创建和销毁对象 1.            考虑用静态工厂方法代替构造器 创建对象方法:一是最常用的公有构造器,二是静态工厂方法.下面是一个Boolean的简单示例: public static Boolean valueOf(boolean b) { return (b ? Boolean.TRUE : Boolean.FALSE); } l  静态工厂方法与构造器不同的第一大优势在于,它们有名称. 作用不同的公有构造器只能通过参数来区别(因