R实战 第三篇:数据处理(基础)

数据结构用于存储数据,不同的数据结构对应不同的操作方法,对应不同的分析目的,应选择合适的数据结构。在处理数据时,为了便于检查数据对象,可以通过函数attributes(x)来查看数据对象的属性,str(x)函数用于查看R对象的内部结构,通过print(x)函数,显示数据对象存储的内容,该函数把数据打印到控制台上,另外,RStudio提供了一个可视化查看数据的函数View(x)。

一,处理数据的函数

标量通常是常量,每一个标量都有特定的数据类型,常用的数据类型是数值类型,字符类型,逻辑类型和日期类型。

对于逻辑类型,可能的值是TRUE和FALSE,用于逻辑操作的运算符:与(&)、或(|)、非(!)

R语言中经常会遇到一些特殊值:

  • 缺失值 NA(Not Avaiable),是不可用的缩写,通过函数is.na(x)来测试变量的值是否为NA;
  • NaN为“不是一个数”,意味着计算没有数学意义;
  • NULL值,空值,表示一个空的变量,不会占用任何空间,通过函数is.null(x)来测试变量的值是否为NULL;
  • 特殊的数字:Inf、-Inf 表示正无穷,负无穷;

1,日期类型

日期类型比较特殊,日期值通常以字符串的形式输入到R中,然后使用as.Date()函数转换为以数值形式存储的日期变量,as.Date()函数的语法是:

as.Date(x, input_format)

参数input_format是日期值的输入格式,默认的输入格式是"yyyy-mm-dd":

mydate <- as.Date("2017-01-13")

输入参数可以自定义日期的输入格式:

  • %d:数字表示的天(0-31)
  • %a:缩写的星期名(Mon、Tue、Wed、Thur、Fri、Sat、Sun)
  • %m:月份(00、01、02等)
  • %b:缩写的月份(Jan、Feb、Mar等)
  • %B:英语月份(January、February 、March等)
  • %y:两位数的年份
  • %Y:四位数的年份

举个例子,把默认的日期格式转换为特定类型的日期格式:

as.Date("2018-03-05","%Y-%m-%d")

把日期类型转换为字符串类型,可以使用format()函数,指定日期的输出格式:

format(mydate,format="output_format")

例如,把当前日期按照特定的格式输出:

today<-Sys.Date()
format(today,format("%B %d %Y"))

也可以直接把日期类型转换为字符串类型:

strdate <- as.character(mydate)

2,字符类型

常用的字符类型的操作:

  • 查看字符数量: nchar(x)
  • 提取或替换字符的子串: substr(x, start,stop)
  • 匹配模式,返回下标:grep(pattern, x, ignore.case=FALSE, fixed=FALSE),从x中搜索匹配模式的字符的下标
  • 匹配模式,并替换:sub(pattern, replacement, x, ignore.case=FALSE, fixed=FALSE),从x中搜索匹配模式的字符,并以文本replacement替换
  • 分割字符: strsplit(x,split,fixed=FALSE)
  • 连接字符: paste(...,sep=" "),把多个字符连接成一个长的字符串,分隔符由参数sep指定
  • 字符的大小写转换: toupper(x),tolower(x)

3,数值类型

对于数值类型,常用的数学函数是:

  • 绝对值:abs(x)
  • 平方根:sqrt(x)
  • 不小于x的最小整数:ceiling(x)
  • 不大于x的最大整数:floor(x)
  • 把x舍入为指定位的小数:round(x,digits=n)
  • 把x摄入有效位数的小数:signif(x,digits=n)
  • 截取整数部分,舍弃小数部分:trunc(x)

常用的统计函数:

  • 平均值:mean(x)
  • 中位数:median(x)
  • 绝对中位数:mad(x)
  • 分位数:quantile(x,probs)
  • 标准差:sd(x)
  • 方差:var(x)
  • 值域:range(x)
  • 求和:sum(x)
  • 最值:min(x),max(x)
  • 标准化:scale(x, center=TRUE, scale=TRUE)

分割区间的函数:

  • 把连续型变量分割位有着n个水平的因子:cut(x, n, ordered_result)
  • 创建美观的分割点,通过选取n+1个等间距的取整值,把一个连续型变量分割位n个区间:pretty(x, n)

二,类型判断和转换

判断 转换
is.numeric(x) as.numeric(x)
is.character(x) as.character(x)
is.vector(x) as.vector(x)
is.matrix(x) as.matrix(x)
is.data.frame(x) as.data.frame(x)
is.factor(x) as.factor(x)
is.logical(x) as.logical(x)

三,随机抽样

从海量的数据抽取一定数量的样本数据,以创建分析模型,抽样的函数是:

sample(x, size, replace = FALSE, prob = NULL)

参数注释:

  • x:样本空间
  • size:抽取的样本数量
  • replace:如果为TRUE,表示放回抽样;如果为FALSE,表示无放回抽样;

举个例子,采用放回抽样,把样本重复12次,得到一个矩阵,并转换为数据框类型:

> d <-data.frame(matrix(sample(c(NA, 1:4), 12, replace = TRUE), 4))
> d
  X1 X2 X3
NA  4  1
 1  2 NA
 1  4  2
NA NA  4

四,伪随机数

函数runif()用于生成服从正态分布的伪随机数,n是生成随机数的个数,min和max是随机数的最值。

runif(n, min = 0, max = 1)

在每次生成随机数时,函数都会使用一个不同的种子,因此会产生不同的结果,通过函数set.seed(n)显式指定种子,让结果可以重现。

举个例子,设置随机数种子,使用runif()函数生成0-1区间上服从均匀分布的伪随机数:

set.seed(n)
runif(5)

设置R会话的小数点数量,生成整数伪随机数:

> options(digits=0)
> set.seed(1)
> runif(10,min=1,max=100)
 [1] 27 38 58 91 21 90 95 66 63  7

五,控制流

常用的控制流是循环和条件执行

1,for循环结构

for循环重复执行一个语句,直到迭代变量的值不再包含序列seq中为止:

for( var in seq)
{statement}

举个例子,迭代一个序列,打印出迭代器的计算值:

for( i in 1:10)
{
print(i^i)
}

2,条件执行

if (condition) statement
if (condition) statement1 else statement2

第二个条件执行语句可以简写为ifelse结构:

ifelse(condition,statement1,statement2)

六,创建自定义函数

参考我的博客《R语言学习 第四篇:函数,分支和循环

原文地址:https://www.cnblogs.com/ljhdo/p/4929622.html

时间: 2024-11-06 07:25:36

R实战 第三篇:数据处理(基础)的相关文章

(C/C++)基于SharpUI控件库的插件式框架开发--第三篇框架基础服务库

一个框架基础的东西,一般也是操作的最基础的类,比如char.int.bool等,有时出现内存泄露的问题导致错误的抛出,但是C++开发有的时候就算是抛出异常,那也是靠经验来积累才能非常快速准确的找出错误所在,这就需要在框架中需要添加日志管理的接口,日志管理的好处就是开发者自身在找异常时提供参考,另一个就是如果用户操作时出现问题,也可将日志反馈,帮助快速解决问题:总之了为了更好的扩展完善我的框架,我详细列一下这个基础服务库(XPCore)包含内容: 虽说sharpui控件库内封闭好string类,但

Linux实战第三篇:RHEL7.3 yum更换实战

个人笔记分享(在线阅读): http://note.youdao.com/noteshare?id=cdae09cf51bf77a4e94a2e2865562dbb PDF版本下载 http://down.51cto.com/data/2323064

maven实战第三篇_03_yucong_项目的基本坐标groupId,artifactId和version

<groupId>com.yucong.commonmaven</groupId><artifactId>commonmaven</artifactId><version>0.0.1-SNAPSHOT</version><packaging>jar</packaging> <name>common_maven</name> 1 groupId 定义了项目属于哪个组,举个例子,如果你的公司

第三篇 -- HTML基础

买的课程学习 Web 前端标准 web前端技术指的不是某一项技术,而是一系列技术的集合,主要包括: html -- 结构标准:负责网页结构的搭建 css -- 样式标准/表现标准:负责网页的美化工作 js -- 行为标准:负责网页的行为动作 行业词条 1.internet --> 互联网 2.www --> 万维网(资料空间)World Wide Web 万维网,简称WWW或3W 3.URL --> 统一资源定位器(网络地址) 4.HTTP --> 超文本传输协议 5.W3C --

Python之路【第三篇】:Python基础(二)

Python之路[第三篇]:Python基础(二) 内置函数 一 详细见python文档,猛击这里 文件操作 操作文件时,一般需要经历如下步骤: 打开文件 操作文件 一.打开文件 1 文件句柄 = file('文件路径', '模式') 注:python中打开文件有两种方式,即:open(...) 和  file(...) ,本质上前者在内部会调用后者来进行文件操作,推荐使用 open. 打开文件时,需要指定文件路径和以何等方式打开文件,打开后,即可获取该文件句柄,日后通过此文件句柄对该文件操作.

EnjoyingSoft之Mule ESB基础系列第三篇:Mule message structure - Mule message结构

目录 1. 探索Mule Message结构 2. Mule Message的Payload 3. Mule Message的Property 4. Mule Message的Attachment 5. Mule的Variable 6. 使用Java操作Mule Message Mule ESB是一个使用Java语言编写的开源企业服务总线,企业服务总线英文Enterprise Service Bus,简称ESB.其相关源代码也托管在GitHub上,可以在https://github.com/mu

NHibernate 映射基础(第三篇) 简单映射、联合主键

NHibernate 映射基础(第三篇) 简单映射.联合主键 NHibernate完全靠配置文件获取其所需的一切信息,其中映射文件,是其获取数据库与C#程序关系的所有信息来源. 一.简单映射 下面先来一个简单的例子,然后随着不断地对这个例子修修改改,从而真正了解映射文件.具体的资料可以查看http://www.cnblogs.com/kissdodog/archive/2013/02/21/2919886.html 先来看一张表: 映射文件Product.hbm.xml: <?xml versi

《R实战》读书笔记三

第二章  创建数据集 本章概要 1探索R数据结构 2使用数据编辑器 3数据导入 4数据集标注 本章所介绍内容概括如下. 两个方面的内容. 方面一:R数据结构 方面二:进入数据或者导入数据到数据结构 理解数据集 一个数据集通常由一个表格组合而成,行表示观测,列表示变量.病人的数据集如表1所示. 表1 病人数据集 数据集能够反映数据结构.数据类型和内容. 数据结构 R数据结构如图2所示. 图2:R数据结构 数据结构即数据的组织方式,R数据结构包括向量.矩阵.数组.数据框和列表等. R向量 R向量是一

HTML5 Canvas(画布)实战编程初级篇:基本介绍和基础画布元素

欢迎大家阅读HTML5 Canvas(画布)实战编程初级篇系列,在这个系列中,我们将介绍最简单的HTML5画布编程.包括: 画布元素 绘制直线 绘制曲线 绘制路径 绘制图形 绘制颜色,渐变和图案 绘制图片 绘制文本 相关要求 环境要求:Google Chrome, Firefox, Safari, Opera, 或者 IE9以上的现代浏览器 编程要求:需要有基础的HTML和Javascript编程经验,相关的画布编程将调用Javascript API来处理 HTML Canvas基本元素 HTM