R基本数据管理(学习笔记)

对于数据的管理,有一些个人的理解,再次申明,这只是我个人的学习笔记,不喜勿喷.

1、变量的重编码:

solution one:

类似于python的列表表达式,其加强版为within(),在使用这种方法的时候,千万要注意语句的执行顺序,这个对最终的结果影响很大

example:

对于women这个dataframe,

data<-women

data<-within(data,
+ {
+ level<-"low"
+ level[height<60]<-"mid"
+ level[height<70]<-"normal"
+ level[height>=70]<-"high"
+ })

这种写法是不行的,原因是:后一个赋值会覆盖掉前面的赋值: level[height<70]<-"normal"会覆盖掉 level[height<60]<-"mid"(小于60的必然会小于70)

这样, level[height<60]<-"mid"就不会起作用。

solution two:

使用car包的recode()函数
solution three:
使用doBy的recodevar()函数
solution four:
使用自带的函数cut()
时间: 2024-10-31 13:47:34

R基本数据管理(学习笔记)的相关文章

R语言可视化学习笔记之添加p-value和显著性标记

R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline 上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍.利用数据集ToothGrowth进行演示 #先加载包 library(ggpubr) #加载数据集ToothGrowth data("ToothGrowth") head(ToothGrowth) ## len supp do

从零开始系列-R语言基础学习笔记之二 数据结构(一)

在上一篇中我们一起学习了R语言的环境搭建,这次我们开始学习R语言的数据结构第一部分:向量.数组和矩阵. 一.向量 向量是一维数组,其内容可以是数值.字符或布尔值,但所有数据的类型必须一致.创建向量使用的关键字是c,访问向量中的元素使用[],具体如下: 创建数值向量a<-c(1,2,3,4,5,6) 创建字符向量b<-c("a","b","c") 创建布尔向量c<-c(TRUE,FALSE) 访问向量: a[3] 得到的值是3,注

R语言入门学习笔记 - 对R软件的认识

1.安装R:自行百度? 2.R控制台(R Console)和R程序脚本: 打开R软件,就会直接打开控制台,控制台可以显示程序运行的结果.错误提示等信息,也可以直接输入想要执行的操作并立即返回运行结果,箭头">"表示等待输入. 程序脚本通过点击右上角"文件" - "新建程序脚本"来建立.如果想要长久的保存已经提交的程序代码,那么可以在程序脚本中编写,点击保存的时候会另存为一个后缀为".R"的数据文件,如果直接在控制台编写代

R数据分析实战学习笔记(2)

3.17 程序结构 有3种结构: 顺序结构:A---B 选择结构:只有满足一定条件时才会执行的程序模块. 循环结构:只要满足一定的条件,程序模块就会不断的执行. 3.18 for循环  遍历 seq:序列.seq()函数创建序列. 注:seq为各种序列时,则为各序列的名字:seq为数字时,则写成 for(i in 1:n). 对于数据框data frame,使用for循环默认是按列遍历的.如何按行遍历.使用: 3.19 while循环  条件为真 while (condition) expr 一

《R语言实战》学习笔记fourth

又拖了好久继续写R 语言的学习笔记了啊 这次到了基本数据管理了,众所周知数据准备是数据分析的最重要的前提 书本是从一个例子开始本章的内容的,例子是一个类似调查问卷的 然后把回答标为从1到5,再进行分析(这让我想到了自学SPSS 的时候啊) > manager <- c(1, 2, 3, 4, 5) > date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08&q

《R语言实战》学习笔记seventh

由于在准备软考中级数据库系统工程师外加巩固SQL Server 2012,所以拖了好久一直没继续学R 下去 所以今天重开R 的战事 这次是关于基本统计分析的内容,即关于用于生成基本的描述性统计量和推断统计量的R 函数 首先,将着眼于定量变量的位置和尺度的衡量方式 然后将是生成类别型变量的频数表和列联表的方法(以及连带的卡方检验) 接下来将考察连续型和有序型变量相关系数的多种形式 最后转而通过参数检验(t检验)和非参数检验(Mann-Whitney U检验.Kruskal-Wallis检验)方法研

R语言学习笔记2——绘图

R语言提供了非常强大的图形绘制功能.下面来看一个例子: > dose <- c(20, 30, 40, 45, 60)> drugA <- c(16, 20, 27, 40, 60)> drugB <- c(15, 18, 25, 31, 40) > plot(dose, drugA, type="b") > plot(dose, drugB, type="b") 该例中,我们引入了R语言中第一个绘图函数plot.pl

R语言学习笔记

參考:W.N. Venables, D.M. Smith and the R DCT: Introduction to R -- Notes on R: A Programming Environment for Data Analysis and Graphics,2003. http://bayes.math.montana.edu/Rweb/Rnotes/R.html 前言:关于R 在R的官方教程里是这么给R下注解的:一个数据分析和图形显示的程序设计环境(A system for data

R语言学习笔记 之 可视化地研究参议员相似性

基于相似性聚类 很多时候,我们想了解一群人中的一个成员与其他成员之间有多么相似.例如,假设我们是一家品牌营销公司,刚刚完成了一份挂怒有潜力新品牌的研究调查问卷.在这份调查问卷中,我们向一群人展示了新品牌的几个特征,并且要求他们对这个新品牌的每个特征按五分制打分.同时也收集了目标人群的社会经济特征,例如:年龄.性别.种族.住址的邮编以及大概的年收入. 通过这份调查问卷,我们想搞清楚品牌如何吸引不同社会经济特征的人群.最重要的是,我们想要知道这个品牌是否有很大的吸引力.换个角度想这个问题,我们想看看