均值方差斜度峭度

参考『http://stat-design.blogspot.sg/search?updated-min=2011-01-01T00:00:00-06:00&updated-max=2012-01-01T00:00:00-06:00&max-results=4』

We know that the Mean gives us the central tendency of the data, the Standard Deviation explains the dispersion about the Mean, the Skewness represents the symmetry/asymmetry of the data, and the Kurtosis is related to the shape or peakedness characteristics.

图:常见分布的斜度和峭度值

一个随机变量可以用一个分布PDF(Probability Density Function)来描述。分布PDF可以用以下变量来描述:

均值mean

方差或标准差variance or standard deviation

斜度skewness

峭度kurtosis

如果mean, standard deviation, skewness, kurtosis已知,那么分布的相对位置,形状以及比例就可以计算出来。

均值mean的计算公式为:

\bar{x}=\frac{\sum_{i=1}^n{x_i}}{n}

其中x_i是第i个点的值。mean也被叫做一个分布关于0的一阶矩。

图:不同分布的mean值(红线代表均值)

随机变量的展开情况可以用方差来描述,方差开根号得到标准差。方差相当于求分布关于均值的二阶矩。

方差variance的计算公式为:

\sigma^2=m_2=\frac{\sum_{i=1}^n(x_i-\bar{x})^2}{n}

图:分布(方差由小变大),红线为均值:

随机变量分布对称性的描述成为斜度skewness,是{b_i}^0.5,是由分布关于均值的二阶矩和三阶矩计算得来。如果{b_i}^0.5<0,则分布是负斜度的,也就是tail在左边;如果{b_i}^0.5>0则分布是正斜度的,即tail在右边。斜度的计算方式如下:

\begin{multiline}

m_3=\frac{\sum_{i=1}^n(x_i-\bar{x})^3}{n}\\

\sqrt{b_1}=\frac{m_3}{(m_2)^{\frac32}}=\frac{m_3}{\sigma^3}

\end{multiline}

图:(a)正斜度的分布,长尾在右边;(b) 斜度为0; (c) 负斜度的分布,长尾在左边。红线为均值。

随机变量在均值附近的尖锐程度称为峭度kurtosis b_2,是由是由分布关于均值的四阶矩和二阶矩计算得来。如果b_2>>3,分布有一个尖峰;b_2=1.8分布是平坦;b=3,分布是高斯。峭度的计算方式如下:

\begin{multiline}

m_4=\frac{\sum_{i=1}^n(x_i-\bar{x})^4}{n}\\

b_2=\frac{m_4}{(m_2)^2}=\frac{m_4}{\sigma^4}

\end{multiline}

图:(a)峭度值b_2>>3;(b) 高斯分布,峭度b_2=3; (c) 平均分布,峭度为0。红线为均值。

均值方差斜度峭度,布布扣,bubuko.com

时间: 2024-10-13 11:54:13

均值方差斜度峭度的相关文章

python计算均值方差

用Python求均值与方差,可以自己写,也可以借助于numpy,不过到底哪个快一点呢? 我做了个实验,首先生成9百万个样本: ? 1 2 3 nlist=range(0,9000000) nlist=[float(i)/1000000 for i in nlist] N=len(nlist) 第二行是为了让样本小一点,否则从1加到9百万会溢出的. 自己实现,遍历数组来求均值方差: ? 1 2 3 4 5 6 7 sum1=0.0 sum2=0.0 for i in range(N):     s

DAY13 彩色图片分别显示RGB三个通道图片 求图像的均值 方差 熵

% 读取一张彩色图片 分别显示RGB三个通道图片% 将彩色图片换成灰度图像 求图像的均值 方差 熵im=(imread('robot.jpg'));figure,imshow(im); % Step1 分别显示RGB三个通道图片subplot(2,2 ,1),imshow(im); %原始彩色图像subplot(2, 2 ,2),imshow(im(:,:,1)); %R通道 im(:,:,1) 表示三维图像 第一个参数表示获取全部行subplot(2 ,2 ,3),imshow(im(:,:,

200229(matlab的读文件夹,字符串分割,F1的实现,excel写入加减形式均值方差)

批量读入文件夹文件并保存相应处理完后的结果 filePath = fullfile('E:\...'); %引号内是需要遍历的路径,填绝对路径,然后保存在fileFolderdirOutput = dir(fullfile(filePath,'*.mat')); %读取相应后缀文件fileNames = {dirOutput.name}; %取出其中的文件名属性all_accFile = fileNames(strncmp("all",fileNames,3)); % 根据文件名前三个

C语言之文件操作07——读取文件数据并计算均值方差标准差

//文件 /* =============================================================== 题目:从文本文件"high.txt"中取出运动员的身高数据,并计算平均值,方差和标准差! =============================================================== */ #include<stdio.h> #include <math.h> #define hh pr

【zz】matlab 均值方差

转自:http://blog.sina.com.cn/s/blog_4936c31d01011v8j.html 1. 均值 Matlab函数:mean >>X=[1,2,3] >>mean(X)=2 如果X是一个矩阵,则其均值是一个向量组.mean(X,1)为列向量的均值,mean(X,2)为行向量的均值. >>X=[1 2 3 4 5 6] >>mean(X,1)=[2.5, 3.5, 4.5] >>mean(X,2)=[2 5] 若要求整个矩

scikit-learn中自带的均值方差归一化函数

一:所在包 from sklearn.preprocessing import StandardScaler. 二:步骤 a.将训练集进行fit操作 b.在将训练集进行transform操作,得到均值为0,方差为1的数据集. c.对测试集进行transform操作,但是不需要在进行fit,应使用训练集fit后得出的参数. 三:代码 import numpy as np from sklearn import datasets from sklearn.neighbors import KNeig

利用Python读取CSV文件并计算某一列的均值和方差

近日朋友需要帮忙对excel的csv文件进行处理,求取某银行历年股价的均值方差等一系列数据 文件的构成很简单,部分如下所示 总共有接近七千行数据,主要的工作就是将其中的股价数据提取出来,放入一个数组之中,然后利用numpy模块即可求出需要的数据. 这里利用了csv模块来对文件进行处理,最终实现的代码如下: import csv import numpy as np with open('pingan_stock.csv') as csv_file: row = csv.reader(csv_fi

机器学习实战5:k-means聚类:二分k均值聚类+地理位置聚簇实例

k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一 经典的k-均值聚类 思路: 1 随机创建k个质心(k必须指定,二维的很容易确定,可视化数据分布,直观确定即可): 2 遍历数据集的每个实例,计算其到每个质心的相似度,这里也就是欧氏距离:把每个实例都分配到距离最近的质心的那一类,用一个二维数组数据结构保存,第一列是最近质心序号,第二列是距离: 3 根据二维数组保存的数据,重新计算每个聚簇新的质心: 4 迭代2 和 3,直到收敛

独立成分分析(Independent Component Analysis)

ICA是一种用于在统计数据中寻找隐藏的因素或者成分的方法.ICA是一种广泛用于盲缘分离的(BBS)方法,用于揭示随机变量或者信号中隐藏的信息.ICA被用于从混合信号中提取独立的信号信息.ICA在20世纪80年代提出来,但是知道90年代中后期才开始逐渐流行起来. ICA的起源可以来源于一个鸡尾酒会问题,我们假设三个观测点x1,x2,x3,放在房间里同时检测三个人说话,另三个人的原始信号为s1,s2,s3,则求解的过程可以如下图所示: 定义 假设n个随机变量x1,x2,-.xn,由n个随机变量s1,