R in action读书笔记(4)-第六章:基本图形(下)

6.3直方图

hist()

其中的x是一个由数据值组成的数值向量。参数freq=FALSE表示根据概率密度而不是频数绘制图形。参数breaks用于控制组的数量。在定义直方图中的单元时,默认将生成等距切分。

par(mfrow=c(2,2))

hist(mtcars$mpg)#简单直方图

hist(mtcars$mpg#指定组数和颜色

        breaks=12

        col="red"

        xlab="Miles Per Gallon"

        main="Colored histogram wi七h 12 bins

hist(mtcars$mpg#添加轴须图

        freq=FALSE,

        breaks=12

        col=”red"

        xlab="Miles Per Gallon"

      main="His七ogram, rug plo七,densi七y curve"

rug(jitter(mtcars$mpg))

lines(density(mtcars字mpg),col="blue",lwd=2)

 

x<一mtcars$mpg#添加正态密度曲线和外框

h<-hist(x,

            breaks=12

            col=”red"

            xlab="Mfiles Per Gallon"

            main="Histogramwith normal curve and box"

xfit<一seq(min(x),max(x),length=40)

yfit<-dnorm(xfit, mean=mean(x),sd=sd(x))

yfit<一yfit*diff(h$mids[1:2])*length(x)

lines(xfit, yfit, col="blue",lwd=2)

box()

6.4核密度图

核密度估计是用于估计随机变量概率密度函数的一种非参数方法。绘制密度图的方法(不叠加到另一幅图上方)为: plot(density(x)) 其中的x是一个数值型向量。

par(mfrow=c(2,1))

d<一density(mtcars$mpg)

plot(d)

d<一density(mtcars$mpg)

plot(d, main=”Kernel Density of Miles Per Gallon"

polygon(d, col=”red",border="blue”)# polygon()函数根据顶点的x和y坐标(本例中由density()函数提供)绘制了多边形。

rug(mtcars$mpg, col=”brown”)

使用sm包中的sm.density.compare()函数可向图形叠加两组或更多的核密度图。使用格式为:

sm .density .compare(x, factor)

其中的x是一个数值型向量,factor是一个分组变量。

par(lwd=2)# 双倍线条宽度

library(sm)

attach(mtcars)

cyl.f<-factor(cyl,levels=c(4,6,8),labels=c("4 cylinder","6 cylinder","8 cylinder"))#创建分组因子

sm .density .compare(mpg, cyl,xlab=”Miles Per Gallon”)# 绘制密度图

title(main="MPG Distribution by Car Cylinders”)

colfill<-c(2:(1+length(levels(cyl.f)))) #通过鼠标单击添加图例

legend(locator(1),levels(cyl .f),fill=colfill)

detach(mtcars)

6.5箱线图

箱线图(又称盒须图)通过绘制连续型变量的五数总括,即最小值、下四分位数(第25百分

位数)、中位数(第50百分位数)、上四分位数(第75百分位数)以及最大值,描述了连续型变量

的分布。箱线图能够显示出可能为离群点(范围±1.5*IQR以外的值,IQR表示四分位距,即上

四分位数与下四分位数的差值)的观测。例如:

boxplot(mtcars$mpg,main=”box plot”,ylab=”miles per gallon”)

6.5.1使用并列箱线图进行跨组比较

箱线图可以展示单个变量或分组变量。使用格式为:

boxplot(formula,data=data framel)

其中的formula是一个公式,dataframe代表提供数据的数据框(或列表)。一个示例公式为y ~

A,这将为类别型变量A的每个值并列地生成数值型变量y的箱线图。公式y ~ A*B则将为类别型

变量A和B所有水平的两两组合生成数值型变量y的箱线图。添加参数varwidth=TRUE 将使箱线图的宽度与其样本大小的平方根成正比。参数horizontal=TRUE可以反转坐标轴的方向。

boxplot(mpg~cyl,data=mtcars,main="Car mileage data",xlab="number of cylinders",ylab="miles per gallon")

箱线图灵活多变,通过添加notch=TRUE,可以得到含凹槽的箱线图。若两个箱的凹槽互不

重叠,则表明它们的中位数有显著差异

boxplot(mpg~cyl,data=mtcars,notch=TRUE,varwidth=TRUE,col="red",main="Car Mileage Data",xlab="Number of Cylinders",ylab="Miles Per Gallon")

两个交叉因子的箱线图:

mtcars$cyl.f<-factor(mtcars$cyl,levels=c(4,6,8),labels=c("4","6","8"))#创建汽缸数量的因子

mtcars$am.f<-factor(mtcars$am,levels=c(0,1),labels=c("auto","standard"))#创建变速箱类型的因子

boxplot(mpg~am.f*cyl.f,data=mtcars,varwidth=TRUE,col=c("gold","darkgreen"),main="MPG Distribution by Auto Type",xlab="Auto Type")#生成箱线图

6.5.2小提琴图

小提琴图是箱线图与核密度图的结合。你可以使用vioplot包中的vioplot()函数绘制它。

>x1<-mtcars$mpg[mtcars$cyl==4]

> x2<-mtcars$mpg[mtcars$cyl==6]

> x3<-mtcars$mpg[mtcars$cyl==8]

> vioplot(x1,x2,x3,names=c("4 cyl","6 cyl","8 cly"),col="gold")

> title("violin plots of miles per gallon")

6.6点图

点图提供了一种在简单水平刻度上绘制大量有标签值的方法。你可以使用dotchart()函数创建点图,格式为:dotchart(x,labels=)其中的x是一个数值向量,而labels则是由每个点的标签组成的向量。你可以通过添加参数groups来选定一个因子,用以指定x中元素的分组方式。如果这样做,则参数gcolor可以控制不同组标签的颜色,cex可控制标签的大小。

dotchart(mtcars$mpg,labels=row.names(mtcars),cex=0.7,main="gas mileage for car nolels",xlab="miles per gallon")

分组、排序、着色后的点图

> x<-mtcars[order(mtcars$mpg),]

> x$cyl<-factor(x$cyl)

> x$color[x$cyl==4]<-"red"

> x$color[x$cyl==6]<-"blue"

> x$color[x$cyl==8]<-"darkgreen"

>dotchart(x$mpg,labels=row.names(x),cex=.7,groups=x$cyl,gcolor="black",color=x$color,pch=19,main="gas fo car models\ngrouped by cylinder",xlab="miles per gallon")

时间: 2024-08-24 03:28:26

R in action读书笔记(4)-第六章:基本图形(下)的相关文章

R in action读书笔记(3)-第六章:基本图形

第六章  基本图形 6.1条形图 条形图通过垂直的或水平的条形展示了类别型变量的分布(频数).函数:barplot(height) 6.1.1简单的条形图 6.1.2推砌条形图和分组条形图 如果height是一个矩阵而不是一个向量,则绘图结果将是一幅堆砌条形图或分组条形图.若beside=FALSE(默认值),则矩阵中的每一列都将生成图中的一个条形,各列中的值将给出堆砌的“子条”的高度.若beside=TRUE,则矩阵中的每一列都表示一个分组,各列中的值将并列而不是堆砌. 6.1.3均值条形图

R in action读书笔记(22)第十六章 高级图形进阶(下)

16.2.4 图形参数 在lattice图形中,lattice函数默认的图形参数包含在一个很大的列表对象中,你可通过trellis.par.get()函数来获取,并用trellis.par.set()函数来修改.show.settings()函数可展示当前的图形参数设置情况.查看当前的默认设置,并将它们存储到一个mysettings列表中: > show.settings() > mysettings<-trellis.par.get() 查看叠加点的默认设置值: > mysett

R in action读书笔记(21)第十六章 高级图形进阶(上)

16.1 R 中的四种图形系统 基础图形函数可自动调用,而grid和lattice函数的调用必须要加载相应的包(如library(lattice)).要调用ggplot2函数需下载并安装该包(install.packages("ggplot2")),第一次使用前还要进行加载(library(ggplot2)). 16.2 lattice 包 lattice包为单变量和多变量数据的可视化提供了一个全面的图形系统.在一个或多个其他变量的条件下,栅栏图形展示某个变量的分布或与其他变量间的关系

R in action读书笔记(19)第十四章 主成分和因子分析

第十四章:主成分和因子分析 本章内容 主成分分析 探索性因子分析 其他潜变量模型 主成分分析(PCA)是一种数据降维技巧,它能将大量相关变量转化为一组很少的不相关变量,这些无关变量称为主成分.探索性因子分析(EFA)是一系列用来发现一组变量的潜在结构的方法.它通过寻找一组更小的.潜在的或隐藏的结构来解释已观测到的.显式的变量间的关系. PCA与EFA模型间的区别 主成分(PC1和PC2)是观测变量(X1到X5)的线性组合.形成线性组合的权重都是通过最大化各主成分所解释的方差来获得,同时还要保证个

R in action读书笔记(14)第十一章 中级绘图 之一:散点图(高能预警)

第十一章中级绘图 本章内容: 二元变量和多元变量关系的可视化 绘制散点图和折线图 理解相关图 学习马赛克图和关联图 本章用到的函数有: plot hexbin ablines iplot scatterplot scatterplot3d pairs plot3d scatterplotMatrix scatter3d cpairs symbols smoothScatter   11.1散点图 添加了最佳拟合曲线的散点图 > attach(mtcars) > plot(wt,mpg,main

R in action读书笔记(17)第十二章 重抽样与自助法

12.4 置换检验点评 除coin和lmPerm包外,R还提供了其他可做置换检验的包.perm包能实现coin包中的部分功能,因此可作为coin包所得结果的验证.corrperm包提供了有重复测量的相关性的置换检验. logregperm包提供了Logistic回归的置换检验.另外一个非常重要的包是glmperm,它涵盖了广义线性模型的置换检验依靠基础的抽样分布理论知识,置换检验提供了另外一个十分强大的可选检验思路.对于上面描述的每一种置换检验,我们完全可以在做统计假设检验时不理会正态分布.t分

R in action读书笔记(6)-第七章:基本统计分析(下)

7.3相关 相关系数可以用来描述定量变量之间的关系.相关系数的符号(±)表明关系的方向(正相关或负相关),其值的大小表示关系的强弱程度(完全不相关时为0,完全相关时为1).除了基础安装以外,我们还将使用psych和ggm包. 7.3.1 相关的类型 1.Pearson.Spearman和Kendall相关 Pearson积差相关系数衡量了两个定量变量之间的线性相关程度.Spearman等级相关系数则衡 量分级定序变量之间的相关程度.Kendall’s Tau相关系数也是一种非参数的等级相关度量.

R in action读书笔记(5)-第七章:基本统计分析

7.1描述性统计分析 > vars<-c("mpg","hp","wt") > head(mtcars[vars])                    mpg  hp    wt Mazda RX4         21.0 110 2.620 Mazda RX4 Wag     21.0 110 2.875 Datsun 710        22.8  93 2.320 Hornet 4 Drive    21.4 11

R in action读书笔记(13)第十章 功效分析

功效分析 功效分析可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量.反过来,它也可以帮助你在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率.如果概率低得难以接受,修改或者放弃这个实验将是一个明智的选择. 10.1假设检验速览 在研究过程时,研究者通常关注四个量:样本大小.显著性水平.功效和效应值.样本大小指的是实验设计中每种条件/组中观测的数目.显著性水平(也称为alpha)由I型错误的概率来定义.也可以把它看做是发现效应不发生的概率.功效通过1减去II型错误的概