开博第二篇依旧回顾下数据分析涉及到的统计学中最基本的概念,包含了以下几个概念:期望,方差,标准差,离差,残差,协方差。
0 离散型随机变量,连续型随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。例如某一时间内公共汽车站等车乘客人数,每次投掷骰子出现的点数等,都是随机变量的实例。
一个随机试验可能结果(称为基本事件)的全体组成一个基本空间Ω。随机变量X是定义基本空间Ω上的取值为实数的函数,即基本空间Ω中每一个点,也就是每个基本事件都有实轴上的点与之对应。例如,掷一颗骰子,它的所有可能结果是出现1点、2点、3点、4点、5点和6点 ,若定义X为掷一颗骰子时出现的点数,则X为一随机变量,出现1,2,3,4,5,6点时X分别取值1,2,3,4,5,6。
离散型随机变量:随机变量取值离散,只能取离散且有限个可列的数值。例如,掷一颗骰子,只能取1,2,3,4,5,6等6个自然数,不可能取到3.5这个数字的值;一个人的年龄,只能取0~150岁之间的可列数值;汽车厂一年生产的汽车数目,只能是从0到某个可数的自然数范围内。
连续型随机变量:如果随机变量可以在某个区间内取任一实数,且该区间内的实数数目趋于无限个,则称变量的取值是连续的,称为连续性随机变量。例如,统计一块田中小麦的生长高度,高度取值范围可以从[20,100]cm,在这个范围内的小麦生长高度都是可以取到的;统计18岁以上男子的身高,取值范围从[100,240]cm,在这个范围内的每个实数都可以取到,也称作连续性随机变量。
1 期望
先讨论离散型随机变量的期望。在概率论和统计学中,一个离散性随机变量的期望(Expectation,符号E)是试验中每次某个可能结果的概率乘以这个结果数值的总和。如果假设每次试验出现结果的概率相等,期望就是随机试验在同样的机会下重复多次的结果相加,计算出的等概率“期望”的平均值。需要注意的是,期望值也许与每一个结果都不相等,因为期望值是该变量输出值的平均数,期望值并不一定包含于变量的输出值集合里。
离散型随机变量期望的公式化表示为如下,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),对应发生概率\({p}_{i}(i = 1, 2, ... , n)\),\(E(X)\)为随机变量的期望:
\(E(X) = \sum_{i=1}^{N}{p}_{i}{x}_{i}\)
当\({p}_{i}(i = 1, 2, ... , n)\)相等时,也即\({p}_{i}=\frac{1}{n}\)时,\(E(X)\)可以简化为:
\(E(X) = \frac{1}{n}\sum_{i=1}^{N}{x}_{i}\)
连续型随机变量的期望,可以使用求随机变量取值与对应概率乘积的积分求得,设\(X\)为连续性随机变量,\(f(x)\)为对应的概率密度函数,则期望\(E(X)\)为:
\(E(X) = \int xf(x) dx\)
2 方差
在概率论和数理统计中,方差(Variance,符号D)用来度量随机变量与其数学期望(即均值)之间的偏离程度,在计算上,方差是各个数据分别与其平均数之差的平方的和的平均数。方差是衡量数据离散程度的一个标准,用来表示数据与数据中心(均值)的偏离程度,方差越大,则数据偏离中心的程度越大。
依旧以离散型随机变量为例,假设随机变量为\(X\),取值\({x}_{i}(i = 1, 2, ... , n)\),\(\mu\)为随机变量的数学期望(均值),那么离散型随机变量\(X\)的方差可以表示为:
\(D(X) = \frac{1}{n}\sum_{i=1}^{n}{({x}_{i} - \mu)}^{2}\)