《爱上统计学》笔记(二) 理解变异性

变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量。

如果把变异性看作是每个数值与特定值的差异程度可能更精确。那么你认为哪个“数值”可能被作为那个特定值呢?通常情况下这个特定值就是均值。因此,变异性成为测量数据组中每一个数值与均值的差异性的数量。

变异性的三种量数通常用于反映一组数据的变异性、散布或者离散度。这三种量数就是极差、标准差和方差。

我们最初正常的想法可能是计算数据组的均值,接着用均值减去每一个数值。然后计算这些距离的平均数。但实际上这并不管用,举个例子看看

数组:5,8,5,4,6,7,8,8,3,6

这个数组的均值是6,那么按照我们的想法用均值减去每一个值(-1+2-1-2+0+1+2+2-3+0)结果为0

其实这种计算方法的大多数结果都为零,因此我们要找到一个方法,消除负号,使结果不为零。

计算极差:

极差是对变异性最笼统的测量。极差可让你了解数值之间彼此差异的程度。极差是通过数据分布中的最大值减去最小值来计算。

一般来说,极差的计算公式如下: r = h - l

其中,r 是极差,h是数据集中的最大值,l是数据集中的最小值。

计算标准差:

最常用到的变异性量数是标准差。

标准差(缩写为s或SD)表示一个数据组中变异性的平均数量。实际的含义是与均值的平均距离。

标准差越大,每一个数据点与数据分布的均值的平均距离越大。

其中:

s 是标准差

∑是西格玛,表示将其后所有数值累加求和

x是具体的数值

x上一条横线是所有数据的均值

n是样本规模

1)列出每一个数值。数值如何排序不重要

2)计算数据组的均值

3)每一个数值减去均值

4)计算每一个差值的平方。

5)计算所有与均值的偏差的平方的总和。

6)平方除以n - 1

7)计算平方根

  • 作为一个变异性的量数,标准差可以告诉我们数据组的每一个数值与均值的偏差平均数。
  • 标准差是作为偏离均值的平均距离计算的。因此,你首先需要计算作为集中趋势量数的均值。因此计算标准差时不需要在中位数和众数上浪费时间。
  • 标准差越大,数值分布越广,则数值之间的差异越大
  • 和均值一样,标准差对极值很敏感。当你计算样本的标准差时    ,若数据中存在极值,你就要在数据中报告这一点。
  • 如果s=0,数据组中就绝对没有变异性,而且在数值上完全一致,这种情况很少发生。

方差:

方差是标准差的平方。

时间: 2024-10-12 23:45:28

《爱上统计学》笔记(二) 理解变异性的相关文章

Emacs 笔记二

Emacs 笔记二 Table of Contents 1. 前言 2. emacs基本操作(常用快捷键) 3. emacs模式讲解 4. emacs缓冲区 5. org mode 5.1. 列表 5.2. 快键键 5.3. 内嵌元素(插入代码什么的) 5.4. 表格 1 前言 最近在学着写博客,发现MarkDown真乃神器,于是去找了很多markdown的工具,发现作业部落 最好的那个,而无意间又发现了org-mode火爆到极致 非常被人推崇,其实作业部落 已经是能很完美的满足我的需求了,但是

小猪的数据结构学习笔记(二)

小猪的数据结构学习笔记(二) 线性表中的顺序表 本节引言: 在上个章节中,我们对数据结构与算法的相关概念进行了了解,知道数据结构的 逻辑结构与物理结构的区别,算法的特性以及设计要求;还学了如何去衡量一个算法 的好坏,以及时间复杂度的计算!在本节中我们将接触第一个数据结构--线性表; 而线性表有两种表现形式,分别是顺序表和链表;学好这一章很重要,是学习后面的基石; 这一节我们会重点学习下顺序表,在这里给大家一个忠告,学编程切忌眼高手低,看懂不代表自己 写得出来,给出的实现代码,自己要理解思路,自己

《R实战》读书笔记二

第一章 R简介 本章概要 1安装R 2理解R语言 3运行R程序 本章所介绍的内容概括如下. 一个典型的数据分析步骤如图1所示. 图1:典型数据分析步骤 简而言之,现今的数据分析要求我们从多种数据源中获取数据.数据合并.标注.清洗和分析,并且把分析的结果进行展示,形成报告或者系统,辅助决策.R能够满足现今数据分析的要求. 为什么用R? R是一个适合统计分析和绘图的环境与语言.它是开源.免费的,获得世界范围社区支持.统计分析和绘图工具已经很多了,例如:SPSS,SAS,Excel,Stata和Min

加壳学习笔记(二)-汇编基础

7.简单的汇编语法:   堆栈平衡  PUSH,POP功能: 把操作数压入或取出堆栈语法: PUSH 操作数 POP 操作数格式: PUSH r PUSH M PUSH data POP r POP mPUSHF,POPF,PUSHA,POPA功能: 堆栈指令群格式: PUSHF POPF PUSHA POPAADD,ADC功能: 加法指令语法: ADD OP1,OP2 ADC OP1,OP2格式: ADD r1,r2 ADD r,m ADD m,r ADD r,data影响标志: C,P,A,

iOS9-by-Tutorials-学习笔记二:App-Search

iOS9-by-Tutorials-学习笔记二:App-Search 本文版权归作者所有,如需转载请联系孟祥月 CSDN博客:http://blog.csdn.net/mengxiangyue 独立博客:http://mengxiangyue.com 本文为自己读书的一个总结,可能与原书有一定出入 iOS 9推出了搜索技术,能够让用户在Spotlight中搜索到APP内部的内容.苹果提供了三个APP Search API: * NSUserActivity * Core Spotlight *

学习Logistic Regression的笔记与理解(转)

学习Logistic Regression的笔记与理解 1.首先从结果往前来看下how logistic regression make predictions. 设我们某个测试数据为X(x0,x1,x2···xn),Θ(θ0,θ1,θ2,···θn)为我们的学习算法所学到的参数,那么 写成向量的话就变成 Z就是我们得到的结果,但是logistic regression只能处理二值数据,这个Z是一个连续值,它的范围可以很广.为了把这个Z化为二值变量,引人Sigmoid函数 这个函数的图形如下所示

构建之法--阅读笔记二

阅读笔记二—代码规范 代码的风格的原则就是:简明,易读,无二义性.我虽然是计算机系的学生,但是我以前却没有秉着这个原则来编写代码,现在阅读了构建之法后,我明白了如何让你的代码变得简明,更容易理解. 代码在编写的过程中注意: 用Tab键缩进 要注意行宽,最多限定100字符的行宽 在复杂的条件表达式中,用括号清楚地表达逻辑优先级 要注意断行与空白的{ }行,有明确的“{”和“}”来判断程序的结构 不要把过多的语句放在同一行上 对变量命名要有实际的意义 用下划线来分隔变量名字中的作用域标注和变量的语义

linux学习笔记二:硬盘信息查询

在linux管理中,硬盘管理是很重要的一部分.包括阵列,分区,逻辑卷等操作,在对硬盘操作前,需要充分的了解硬盘的信息.常用的硬盘查询有以下几种: 1.df  查看文件系统空间使用情况: linux-lszd-db:~ # dfFilesystem     1K-blocks     Used Available Use% Mounted on/dev/sda6      809262496 37615092 770825244   5% /udev             8076412    

python之数据类型(学习笔记二)

python之数据类型(学习笔记二) 在Python中,能够直接处理的数据类型有以下几种: (1)整数 Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例 如: 1 , 100 , ‐8080 , 0 ,等等. 计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用 0x 前缀和0-9,a-f表示,例 如: 0xff00 , 0xa5b4c3d2 ,等等. (2)浮点数 浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时