《爱上统计学》笔记(二) 理解变异性

变异性(也叫散步或离散度)可被看作是对不同数值之间的差异性的测量。

如果把变异性看作是每个数值与特定值的差异程度可能更精确。那么你认为哪个“数值”可能被作为那个特定值呢？通常情况下这个特定值就是均值。因此，变异性成为测量数据组中每一个数值与均值的差异性的数量。

变异性的三种量数通常用于反映一组数据的变异性、散布或者离散度。这三种量数就是极差、标准差和方差。

我们最初正常的想法可能是计算数据组的均值，接着用均值减去每一个数值。然后计算这些距离的平均数。但实际上这并不管用，举个例子看看

数组：5，8，5，4，6，7，8，8，3，6

这个数组的均值是6，那么按照我们的想法用均值减去每一个值（-1+2-1-2+0+1+2+2-3+0)结果为0

其实这种计算方法的大多数结果都为零，因此我们要找到一个方法，消除负号，使结果不为零。

计算极差:

极差是对变异性最笼统的测量。极差可让你了解数值之间彼此差异的程度。极差是通过数据分布中的最大值减去最小值来计算。

一般来说，极差的计算公式如下： r = h - l

其中，r 是极差，h是数据集中的最大值，l是数据集中的最小值。

计算标准差：

最常用到的变异性量数是标准差。

标准差(缩写为s或SD)表示一个数据组中变异性的平均数量。实际的含义是与均值的平均距离。

标准差越大，每一个数据点与数据分布的均值的平均距离越大。

其中：

s 是标准差

∑是西格玛，表示将其后所有数值累加求和

x是具体的数值

x上一条横线是所有数据的均值

n是样本规模

1)列出每一个数值。数值如何排序不重要

2)计算数据组的均值

3)每一个数值减去均值

4)计算每一个差值的平方。

5)计算所有与均值的偏差的平方的总和。

6)平方除以n - 1

7)计算平方根

作为一个变异性的量数，标准差可以告诉我们数据组的每一个数值与均值的偏差平均数。
标准差是作为偏离均值的平均距离计算的。因此，你首先需要计算作为集中趋势量数的均值。因此计算标准差时不需要在中位数和众数上浪费时间。
标准差越大，数值分布越广，则数值之间的差异越大
和均值一样，标准差对极值很敏感。当你计算样本的标准差时，若数据中存在极值，你就要在数据中报告这一点。
如果s=0,数据组中就绝对没有变异性，而且在数值上完全一致，这种情况很少发生。

方差：

方差是标准差的平方。

时间： 2024-10-12 23:45:28

《爱上统计学》笔记(二) 理解变异性的相关文章

Emacs 笔记二

Emacs 笔记二 Table of Contents 1. 前言 2. emacs基本操作(常用快捷键) 3. emacs模式讲解 4. emacs缓冲区 5. org mode 5.1. 列表 5.2. 快键键 5.3. 内嵌元素(插入代码什么的) 5.4. 表格 1 前言最近在学着写博客,发现MarkDown真乃神器,于是去找了很多markdown的工具,发现作业部落最好的那个,而无意间又发现了org-mode火爆到极致非常被人推崇,其实作业部落已经是能很完美的满足我的需求了,但是

小猪的数据结构学习笔记(二)

小猪的数据结构学习笔记(二) 线性表中的顺序表本节引言: 在上个章节中,我们对数据结构与算法的相关概念进行了了解,知道数据结构的逻辑结构与物理结构的区别,算法的特性以及设计要求;还学了如何去衡量一个算法的好坏,以及时间复杂度的计算!在本节中我们将接触第一个数据结构--线性表; 而线性表有两种表现形式,分别是顺序表和链表;学好这一章很重要,是学习后面的基石; 这一节我们会重点学习下顺序表,在这里给大家一个忠告,学编程切忌眼高手低,看懂不代表自己写得出来,给出的实现代码,自己要理解思路,自己

《R实战》读书笔记二

第一章 R简介本章概要 1安装R 2理解R语言 3运行R程序本章所介绍的内容概括如下. 一个典型的数据分析步骤如图1所示. 图1:典型数据分析步骤简而言之,现今的数据分析要求我们从多种数据源中获取数据.数据合并.标注.清洗和分析,并且把分析的结果进行展示,形成报告或者系统,辅助决策.R能够满足现今数据分析的要求. 为什么用R? R是一个适合统计分析和绘图的环境与语言.它是开源.免费的,获得世界范围社区支持.统计分析和绘图工具已经很多了,例如:SPSS,SAS,Excel,Stata和Min

加壳学习笔记(二)-汇编基础

7.简单的汇编语法: 堆栈平衡 PUSH,POP功能: 把操作数压入或取出堆栈语法: PUSH 操作数 POP 操作数格式: PUSH r PUSH M PUSH data POP r POP mPUSHF,POPF,PUSHA,POPA功能: 堆栈指令群格式: PUSHF POPF PUSHA POPAADD,ADC功能: 加法指令语法: ADD OP1,OP2 ADC OP1,OP2格式: ADD r1,r2 ADD r,m ADD m,r ADD r,data影响标志: C,P,A,

iOS9-by-Tutorials-学习笔记二：App-Search

iOS9-by-Tutorials-学习笔记二:App-Search 本文版权归作者所有,如需转载请联系孟祥月 CSDN博客:http://blog.csdn.net/mengxiangyue 独立博客:http://mengxiangyue.com 本文为自己读书的一个总结,可能与原书有一定出入 iOS 9推出了搜索技术,能够让用户在Spotlight中搜索到APP内部的内容.苹果提供了三个APP Search API: * NSUserActivity * Core Spotlight *

学习Logistic Regression的笔记与理解(转)

学习Logistic Regression的笔记与理解 1.首先从结果往前来看下how logistic regression make predictions. 设我们某个测试数据为X(x0,x1,x2···xn),Θ(θ0,θ1,θ2,···θn)为我们的学习算法所学到的参数,那么写成向量的话就变成 Z就是我们得到的结果,但是logistic regression只能处理二值数据,这个Z是一个连续值,它的范围可以很广.为了把这个Z化为二值变量,引人Sigmoid函数这个函数的图形如下所示

构建之法--阅读笔记二

阅读笔记二—代码规范代码的风格的原则就是:简明,易读,无二义性.我虽然是计算机系的学生,但是我以前却没有秉着这个原则来编写代码,现在阅读了构建之法后,我明白了如何让你的代码变得简明,更容易理解. 代码在编写的过程中注意: 用Tab键缩进要注意行宽,最多限定100字符的行宽在复杂的条件表达式中,用括号清楚地表达逻辑优先级要注意断行与空白的{ }行,有明确的“{”和“}”来判断程序的结构不要把过多的语句放在同一行上对变量命名要有实际的意义用下划线来分隔变量名字中的作用域标注和变量的语义

linux学习笔记二：硬盘信息查询

在linux管理中,硬盘管理是很重要的一部分.包括阵列,分区,逻辑卷等操作,在对硬盘操作前,需要充分的了解硬盘的信息.常用的硬盘查询有以下几种: 1.df 查看文件系统空间使用情况: linux-lszd-db:~ # dfFilesystem 1K-blocks Used Available Use% Mounted on/dev/sda6 809262496 37615092 770825244 5% /udev 8076412

python之数据类型（学习笔记二）

python之数据类型(学习笔记二) 在Python中,能够直接处理的数据类型有以下几种: (1)整数 Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如: 1 , 100 , ‐8080 , 0 ,等等. 计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用 0x 前缀和0-9,a-f表示,例如: 0xff00 , 0xa5b4c3d2 ,等等. (2)浮点数浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时