【数据分析 R语言实战】学习笔记 第五章 数据的描述性分析(上)

5.1R内置的分布

分布是描述一个样本数据最核心、最重要的方式。R内嵌了很多常用的统计分布,提供了四类函数:概率密度函数(density),累积分布函数(probability)、分位数(quantile)和伪随机数(random)。在R中分别用d,p,q,r表示这4个项目,后面接分布的英文名称或缩写。

5.2集中趋势的分析

5.2.1集中趋势的测度

描述统计分布集中趋势的指标主要是平均数、中位数、众数,也称为“平均指标”。这些指标的主要作用包括:

反映总体各单位变量分布的集中趋势和一般水平;

便于比较同类现象在不同单位之间的水平;

便于比较同类现象在不同时期的发展变化趋势或规律;

用于分析现象之问的依存关系。

5.2.2 R语言实现

函数summary()可以计算出一组数据的五数和均值。

>summary(cars$speed)

Min.1stQu.MedianMean3rdQu.Max.

4.012.015.015.419.025.0

5.3 离散趋势的分析

5.3.1 离散趋势的测度

数据分布的离散程度主要靠极差、四分差、平均差、方差、标准差等统计指标来度量。在实际分析中,离散程度分析主要有以下作用:

衡量平均指标的代表性;

反映社会经济活动的均衡性;

研究总体标志值分布偏离正态的情况;

抽样推断等统计分析的一个基本指标。

5.3.2 R语言实现

可以通过函数range()计算极差。给出最小值和最大值两个点,再相减得到:

>m=range(cars$speed)
>m[2]-m[1]
[1]21

四分位差同样需要手动计算,比较便捷的方法是直接使用函数fivenum()

>q=fivenum(cars$speed)
>q[4]-q[2]
[1]7

R中的方差函数和标准差函数分别是var()和sd()R还有一个比较特殊的函数,即离差mad(),它用于计算中位数绝对偏差,具有渐近正态的一致性。

5.4数据的分布分析

5.4.1分布情况的测度

(1)偏度

(2)峰度

5.4.2R语言实现

在程序包timeDate中(或直接加载fBasics程序包),有直接计算偏度和峰度系数的函数,为skewness()和kurtosis()

>skewness(cars$speed)
[1]-0.1105533
attr(,"method")
[1]"moment"
>kurtosis(cars$speed)
[1]-0.6730924
attr(,"method")
[1]"excess"

5.5图形分析及R实现

5.5.1直方图和密度函数图

>hist(cars$speed,breaks=50,prob=T)#参数breaks设1直方图的组距,prob=T规定绘制密度直方图
>lines(density(cars$speed),col=‘blue‘)#用核密度估计函数density(),绘制密度曲线图

5.5.2 QQ图

QQ图用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一族的分布。在教学和软件中常用QQ散点图来检验数据是否来自于正态分布。QQ图是正态分位数-分位数图,横轴是理论值,纵轴是样本值,若样本数据近似服从正态分布,那么QQ图上的散点应均匀地分布在直线y=xσ+μ附近,这条直线的斜率是正态分布的

标准差J,截距是均值刀。

>qqnorm(cars$speed)
>qqline(cars$speed)

5.5.3茎叶图

R中用函数stem()绘制茎叶图

stem(x,scale=1,width=80,atom=1e-08)

其中,x是数据向量,scale控制茎叶图的长度,width控制绘图的宽度,atom是容差。

> set.seed(111)
> s=sample(cars$speed,25)
> stem(s)
  The decimal point is 1 digit(s) to the right of the |
  0 | 44
  0 | 779
  1 | 011233344
  1 | 5557889
  2 | 0344

5.5.4箱线图

> boxplot(cars$speed)

5.5.5经验分布图

在R中函数ecdf()给出样本的经验分布,通过plot()绘制

ecdf(x)

plot (x,…,ylab="Fn (x)”,verticals=FALSE,col.01line="gray70”,peh=19)

时间: 2024-08-22 11:45:55

【数据分析 R语言实战】学习笔记 第五章 数据的描述性分析(上)的相关文章

R语言可视化学习笔记之添加p-value和显著性标记

R语言可视化学习笔记之添加p-value和显著性标记 http://www.jianshu.com/p/b7274afff14f?from=timeline 上篇文章中提了一下如何通过ggpubr包为ggplot图添加p-value以及显著性标记,本文将详细介绍.利用数据集ToothGrowth进行演示 #先加载包 library(ggpubr) #加载数据集ToothGrowth data("ToothGrowth") head(ToothGrowth) ## len supp do

【数据分析 R语言实战】学习笔记 第十一章 对应分析

11.2对应分析 在很多情况下,我们所关心的不仅仅是行或列变量本身,而是行变量和列变量的相互关系,这就是因子分析等方法无法解释的了.1970年法国统计学家J.P.Benzenci提出对应分析,也称关联分析.R-Q型因子分析,其是一种多元相依变量统计分析技术.它通过分析由定性变量构成的交互汇总表,来揭示同一变量各类别之间的差异,以及不同变量各类别之间的对应关系,这是一种非常好的分析调查问卷的手段. 对应分析是一种视觉化的数据分析方法,其基木思想是将一个联列表的行和列中各元素的比例结构以点的形式在较

【数据分析 R语言实战】学习笔记 第四章 数据的图形描述

4.1 R绘图概述 以下两个函数,可以分别展示二维,三维图形的示例: >demo(graphics) >demo(persp) R提供了多种绘图相关的命令,可分成三类: 高级绘图命令:在图形设备上产生一个新的图区,它可能包括坐标轴.标签.标题等. 低级绘图命令:在一个己经存在的图形上加上更多的图形元素,如额外的点.线和标签. 交互式图形命令:允许交互式地用鼠标在一个已经存在的图形.上添加图形信息或者提取图形信息. 使用R语言作图,主要按照以下步骤进行: ①取原始数据,准备好绘图需要的变量. ②

【数据分析 R语言实战】学习笔记 第三章 数据预处理 (下)

3.3缺失值处理 R中缺失值以NA表示,判断数据是否存在缺失值的函数有两个,最基本的函数是is.na()它可以应用于向量.数据框等多种对象,返回逻辑值. > attach(data) The following objects are masked fromdata (pos = 3): city, price, salary > data$salary=replace(salary,salary>5,NA) > is.na(salary) [1] FALSEFALSE TRUE

从零开始系列-R语言基础学习笔记之二 数据结构(一)

在上一篇中我们一起学习了R语言的环境搭建,这次我们开始学习R语言的数据结构第一部分:向量.数组和矩阵. 一.向量 向量是一维数组,其内容可以是数值.字符或布尔值,但所有数据的类型必须一致.创建向量使用的关键字是c,访问向量中的元素使用[],具体如下: 创建数值向量a<-c(1,2,3,4,5,6) 创建字符向量b<-c("a","b","c") 创建布尔向量c<-c(TRUE,FALSE) 访问向量: a[3] 得到的值是3,注

R语言实战读书笔记(二)创建数据集

2.2.2 矩阵 matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames) 其中: byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充 2.2.4 数据框 1.attach,detach()和with() attach():将数据框加入搜索路径 detach():将数据框移除出搜索路径 with():赋值仅在括号内有效,如果想在括号外生效也可以,用<<- 2.

《Spring实战》学习笔记-第五章:构建Spring web应用

之前一直在看<Spring实战>第三版,看到第五章时发现很多东西已经过时被废弃了,于是现在开始读<Spring实战>第四版了,章节安排与之前不同了,里面应用的应该是最新的技术. 本章中,将会接触到Spring MVC基础,以及如何编写控制器来处理web请求,如何通明地绑定请求参数到业务对象上,同时还可以提供数据校验和错误处理的功能. Spring MVC初探 跟踪Spring MVC请求 在请求离开浏览器时,会带有用户所请求内容的信息,例如请求的URL.用户提交的表单信息. 请求旅

R语言实战读书笔记2—创建数据集(上)

第二章 创建数据集 2.1 数据集的概念 不同的行业对于数据集的行和列叫法不同.统计学家称它们为观测(observation)和变量(variable) ,数据库分析师则称其为记录(record)和字段(field) ,数据挖掘/机器学习学科的研究者则把它们叫做示例(example)和属性(attribute) .如表2.1所示 在表2-1所示的数据集中, PatientID 是行/实例标识符, AdmDate 是日期型变量, Age 是连续型变量, Diabetes 是名义型变量, Statu

西门子PLC学习笔记十五-(数据块及数据访问方式)

一.数据块 数据块是在S7 CPU的存储器中定义的,用户可以定义多了数据块,但是CPU对数据块数量及数据总量是有限制的. 数据块与临时数据不同,当逻辑块执行结束或数据块关闭,数据块中的数据是会保留住的. 数据块分共享数据块.背景数据块.用户自定义数据块,下面分别介绍. 1.共享数据块(全局数据块) 其用于存储全局数据,所有逻辑块(OB.FC.FB)都可以访问共享数据块中的数据. 2.背景数据块(私有存储区) 其用做功能块(FB)的"存储器".FB的参数和静态变量安排在它的背景数据块中.