期望,方差,标准差,标准误,离差,残差,协方差

开博第二篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:期望,方差,标准差,离差,残差,协方差。

0 离散型随机变量,连续型随机变量

随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。

一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。

离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。

连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。

1 期望

先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E)是试验中每次某个可能结果的概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。

离散型随机变量期望的公式化表示为如下,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),对应发生概率\({p}_{i}(i = 1, 2, ... , n)\),\(E(X)\)为随机变量的期望:

\(E(X) = \sum_{i=1}^{N}{p}_{i}{x}_{i}\)

当\({p}_{i}(i = 1, 2, ... , n)\)相等时,也即\({p}_{i}=\frac{1}{n}\)时,\(E(X)\)可以简化为:

\(E(X) = \frac{1}{n}\sum_{i=1}^{N}{x}_{i}\)

连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设\(X\)为连续性随机变量,\(f(x)\)为对应的概率密度函数,则期望\(E(X)\)为:

\(E(X) = \int xf(x) dx\)

2 方差

在概率论和数理统计中,方差(Variance,符号D)用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。

依旧以离散型随机变量为例,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)为随机变量的数学期望(均值),那么离散型随机变量\(X\)的方差可以表示为:

\(D(X) = \frac{1}{n}\sum_{i=1}^{n}{({x}_{i} - \mu)}^{2}\)

时间: 2024-10-08 09:45:40

期望,方差,标准差,标准误,离差,残差,协方差的相关文章

2.13 描述性统计(平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差))

统计分析包括描述统计和推断统计两个部分. 对已有的数据整理,计算数据指标,平均数,中位数,中数,数据的离散度(极差,平均绝对偏差,方差标准差)是最常用的技术手段,也是最容易的. # hanbb # come on!!! import tushare as ts import matplotlib.pyplot as plt # 股票数据获取 data_zglt = ts.get_hist_data('600050',start='2015-06-23',end='2017-11-16') dat

C语言之文件操作07——读取文件数据并计算均值方差标准差

//文件 /* =============================================================== 题目:从文本文件"high.txt"中取出运动员的身高数据,并计算平均值,方差和标准差! =============================================================== */ #include<stdio.h> #include <math.h> #define hh pr

方差+标准差+四分位数+z-score公式

一.方差公式 $S^2 = \frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2 = \frac{1}{N}[(X_1-\mu)^2 + (X_2-\mu)^2 + ... + (X_N - \mu)^2]$ 其中公式中μ为平均数,N为这组数据的个数,x1.x2.x3--xN为这组数据具体数值. 二.标准差公式 $S = \sqrt{S^2} = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(X_i - \mu)^2}$ 其中公式中数值X1,X2,X3,

机器学习的数学基础 - 期望、方差、协方差

期望 方差 协方差 原文地址:https://www.cnblogs.com/DicksonJYL/p/9547352.html

均值、方差、协方差等定义与基本运算

一.均值 定义: 设P(x)是一个离散概率分布函数自变量的取值范围是.那么其均值被定义为: 设P(x)是一个连续概率分布函数 ,那么他的均值是: 性质: 1.线性运算: 期望服从先行性质,因此线性运算的期望等于期望的线性运算: 我们可以把它推广到任意一般情况: 2.函数的期望: 设f(x)是x的函数,则f(x)的期望为: 离散: 连续: 3.乘积的期望: 一般来说,乘积的期望不等于期望的乘积,除非变量相互独立.因此,如果x和y相互独立,则 期望的运算构成了统计量的运算基础,因为方差.协方差等统计

方差、协方差、协方差矩阵的概念及意义

期望 离散型随机变量的一切可能的取值xi与对应的概率Pi(=xi)之积的和称为该离散型随机变量的数学期望(设级数绝对收敛),记为 E(x).随机变量最基本的数学特征之一.它反映随机变量平均取值的大小.又称期望或均值. 若随机变量X的分布函数F(x)可表示成一个非负可积函数f(x)的积分,则称X为连续性随机变量,f(x)称为X的概率密度函数(分布密度函数). 方差 方差是各个数据与平均数之差的平方的平均数.在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间

均方误差、平方差、方差、均方差、协方差(转)

一,均方误差 作为机器学习中常常用于损失函数的方法,均方误差频繁的出现在机器学习的各种算法中,但是由于是舶来品,又和其他的几个概念特别像,所以常常在跟他人描述的时候说成其他方法的名字. 均方误差的数学表达为:  如上图所示,通过计算每个预测值和实际值之间的差值的平方和再求平均,机器学习中它经常被用于表示预测值和实际值相差的程度. 二,平方差 平方差的定义很简单,顾名思义就是两个数先做平方然后再求差值:  三,方差以及期望 方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量.概率论中方

平均值μ;方差σ2;标准差σ

目录 1.平均值\(\mu\):方差\(\sigma^2\):标准差\(\sigma\)数学公式 平均数(又叫数学期望) 方差和标准差 2.案例计算--以Matlab为工具 计算平均数: 计算标准差和方差 3.信息提取 平均数 标准差 1.平均值\(\mu\):方差\(\sigma^2\):标准差\(\sigma\)数学公式 平均数(又叫数学期望) 对于数据: \[x_1 \ x_2\ x_3\ x_4\cdots \ x_n\] 平均数: \[\mu= \frac{1}{n}\cdot \su

协方差/相关矩阵/相关系数

通过两组统计数据计算而得的协方差可以评估这两组统计数据的相似程度. 样本: A = [a1, a2, ..., an] B = [b1, b2, ..., bn] 平均值: ave_a = (a1 + a2 +...+ an)/n ave_b = (b1 + b2 +...+ bn)/m 离差(用样本中的每一个元素减去平均数,求得数据的误差程度): dev_a = [a1, a2, ..., an] - ave_a dev_b = [b1, b2, ..., bn] - ave_b 协方差 协方