R in action

第二章:创建数据集

2.1数据集的概念

数据库中的记录与字段

2.2数据结构

2.2.1 向量:拥有相同数据类型的一维数组(可以使用类似python的切片功能)

a<-(1,2,3,4);

2.2.2矩阵:拥有相同数据类型的二维数组,利用matrix创建

y<-matrix(1:20,nrow=5,ncol=4) #创建一个矩阵

2.2.3数组,利用array创建

2.2.4数据框

mydata<-data.frame(clo1,col2,col3);创建一个数据框 

2.2.5因子:类别数量和有序数量在R中称谓因子

status<-c("Type1“,"Type2“,"Type1“,"Type1“)
语句status<-factor(status,ordered=TRUE)会将此向量存储为(1,2,1,1)

2.2.6列表:是一些对象的有序集合

mylist<-list(obj1,obj2)

2.3数据分输入

2.3.1 键盘输入:输入下列语句时会自动跳出输入框,可以适应键盘输入

mydata <-data.frame(age=numeric(0),
                    gender=character(0),
                    height=numeric(0))
mydata<-edit(mydata)

2.3.2 带分隔符的文本文件导入:header 是一个表明首行是否包含了变量名的逻辑值( TRUE 或 FALSE ), sep 用来指定分隔数据的分隔符, row.names 是一个可选参数,用以指

定一个或多个表示行标识符的变量。  

mydata <-read.table(file,header = logical_value,
                    sep="delimiter",row.names = "name")

2.3.3 访问数据库:安装RODBC包,然后链接数据库取值

install.packages(RODBC)
library(RODBC)
myconn<-odbcConnect("mydsn",uid="tom",pwd = "xxxxx")
crimdat<-sqlFetch(myconn,Crime)
pundat<-sqlQuery(myconn,"select * from Punishment")
close(myconn)

 2.4处理数据对象的实用函数

  

时间: 2024-10-26 22:22:21

R in action的相关文章

R in action -- 2.3 数据输入

R in action -- 2.3 数据输入 1.从CSV文件导入数据 > gtades <- read.table("1.csv",header=TRUE,sep=",") > gtades ID name age 1 1 qqw 15 2 2 eew 56 3 3 rrw 43 4 4 ttw 58 2.从Excel导入数据 安装openxlsx包 > install.packages("openxlsx") Ins

R in action -- 2.1 数据结构

R in action -- 2.1 数据结构 1.R中用来存储数据的结构:标量.向量.数组.数据框.列表. 2.R中可以处理的数据类型:数值.字符.逻辑.复数.原生(字节). 3.向量: 向量是用来存储数值型.字符型或逻辑型数据的一维数组. c() 用来组合括号内的数据并创建向量. # a <- c(1,2,3,5,8,11,19) # b <- c("Python","go","R","C#","Ru

R in action读书笔记(22)第十六章 高级图形进阶(下)

16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记(17)第十二章 重抽样与自助法

12.4 置换检验点评 除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记(6)-第七章:基本统计分析(下)

7.3相关 相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡 量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记(5)-第七章:基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars])                    mpg  hp    wt Mazda RX4         21.0 110 2.620 Mazda RX4 Wag     21.0 110 2.875 Datsun 710        22.8  93 2.320 Hornet 4 Drive    21.4 11

R in action读书笔记(13)第十章 功效分析

功效分析 功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量.反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率.如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择. 10.1假设检验速览 在研究过程时,研究者通常关注四个量:样本大小.显著性水平.功效和效应值.样本大小指的是实验设计中每种条件/组中观测的数目.显著性水平(也称为alpha)由I型错误的概率来定义.也可以把它看做是发现效应不发生的概率.功效通过1减去II型错误的概

R in action读书笔记(21)第十六章 高级图形进阶(上)

16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(install.packages("ggplot2")),第一次使用前还要进行加载(library(ggplot2)). 16.2 lattice 包 lattice包为单变量和多变量数据的可视化提供了一个全面的图形系统.在一个或多个其他变量的条件下,栅栏图形展示某个变量的分布或与其他变量间的关系