均值方差斜度峭度

参考『http://stat-design.blogspot.sg/search?updated-min=2011-01-01T00:00:00-06:00&updated-max=2012-01-01T00:00:00-06:00&max-results=4』

We know that the Mean gives us the central tendency of the data, the Standard Deviation explains the dispersion about the Mean, the Skewness represents the symmetry/asymmetry of the data, and the Kurtosis is related to the shape or peakedness characteristics.

图：常见分布的斜度和峭度值

一个随机变量可以用一个分布PDF(Probability Density Function)来描述。分布PDF可以用以下变量来描述：

均值mean

方差或标准差variance or standard deviation

斜度skewness

峭度kurtosis

如果mean, standard deviation, skewness, kurtosis已知，那么分布的相对位置，形状以及比例就可以计算出来。

均值mean的计算公式为：

\bar{x}=\frac{\sum_{i=1}^n{x_i}}{n}

其中x_i是第i个点的值。mean也被叫做一个分布关于0的一阶矩。

图：不同分布的mean值（红线代表均值）

随机变量的展开情况可以用方差来描述，方差开根号得到标准差。方差相当于求分布关于均值的二阶矩。

方差variance的计算公式为：

\sigma^2=m_2=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}

图：分布（方差由小变大），红线为均值：

随机变量分布对称性的描述成为斜度skewness，是{b_i}^0.5，是由分布关于均值的二阶矩和三阶矩计算得来。如果{b_i}^0.5<0，则分布是负斜度的，也就是tail在左边；如果{b_i}^0.5>0则分布是正斜度的，即tail在右边。斜度的计算方式如下：

\begin{multiline}

m_3=\frac{\sum_{i=1}^n(x_i-\bar{x})^3}{n}\\

\sqrt{b_1}=\frac{m_3}{(m_2)^{\frac32}}=\frac{m_3}{\sigma^3}

\end{multiline}

图：(a)正斜度的分布，长尾在右边；(b) 斜度为0； (c) 负斜度的分布，长尾在左边。红线为均值。

随机变量在均值附近的尖锐程度称为峭度kurtosis b_2，是由是由分布关于均值的四阶矩和二阶矩计算得来。如果b_2>>3,分布有一个尖峰；b_2=1.8分布是平坦；b=3，分布是高斯。峭度的计算方式如下：

\begin{multiline}

m_4=\frac{\sum_{i=1}^n(x_i-\bar{x})^4}{n}\\

b_2=\frac{m_4}{(m_2)^2}=\frac{m_4}{\sigma^4}

\end{multiline}

图：(a)峭度值b_2>>3；(b) 高斯分布，峭度b_2=3； (c) 平均分布，峭度为0。红线为均值。

均值方差斜度峭度,布布扣,bubuko.com

时间： 2024-12-18 20:33:13

均值方差斜度峭度

均值方差斜度峭度的相关文章

python计算均值方差

DAY13 彩色图片分别显示RGB三个通道图片求图像的均值方差熵

200229（matlab的读文件夹，字符串分割，F1的实现，excel写入加减形式均值方差）

C语言之文件操作07——读取文件数据并计算均值方差标准差

【zz】matlab 均值方差

scikit-learn中自带的均值方差归一化函数

利用Python读取CSV文件并计算某一列的均值和方差

机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例

独立成分分析（Independent Component Analysis）