机器学习中的数学系列-概率与统计

1,基本概念

(1)期望

\( E(X)=\sum_i{x_ip_i} \)

------------------- important ----------------

E(kX) = kE(X)

E(X+Y) = E(X)+E(Y)

当X和Y相互独立:E(XY)=E(X)E(Y) (这个不能反向推哦)

-----------------------------------------------

(2)方差

\( D(X)=\sum_i{(x_i-E(X))^2p_i} \)

从这个式子可以看出方差是变量与随机变量差值平法的期望,它表征的是随机变量的波动情况。

还有另外一个:\( D(X)=E(X^2)-E^2X \) 这个很简洁,也很常用

------------------- important ----------------

D(c) = 0

D(X+c) = D(X)

D(kX) = k2D(X)

如果X与Y相互独立:D(X+Y) = D(X)+D(Y)

-----------------------------------------------

(3)协方差

\( COV(X,Y)=E[(X-E(X))(Y-E(Y))] \)

协方差是两个随机变量X和Y具有相同方向变化趋势的度量。当Cov(X,Y)=0的时候,X和Y不相关,大于0正相关,小于0负相关。

Pearson相关系数:

\( \rho_{XY}=\frac{COV(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \)

这是-1到+1之间的值,-1表示线性负相关,0不相关,+1表示线性正相关。

协方差矩阵:

随机变量X1,X2....Xn,协方差矩阵\( c_{ij}=Cov(X_i,X_j) \)

------------------- important ----------------

Cov(X,Y) = Cov(Y,X)

Cov(aX+b,cY+d)=acCov(X,Y)

Cov(X1+X2,Y) = Cov(X1,Y)+Cov(X2,Y)

Cov(X,Y) = E(XY) - E(X)E(Y),可见,当X和Y独立时,Cov(X,Y)=0

------------------------------------------------

这里有关于相关性的东东:《这里是链接》

(4)矩

随机变量的k阶原点矩为:\( E(X^k) \)

随机变量的k阶中心矩为:\( E{[X-E(X)]^k} \)

期望是一阶原点矩,方差是二阶中心矩

2,重要分布

(1)两点分布

随机变量X的分布律为

X  1  0

    p  1-p

E(X) = p

D(X) = p(1-p)

(2)二项分布

二项分布由 n 个独立且相同的伯努利试验产生,其中 p 为每一次试验成功的概率。二项分布的概率函数为:

\( f(x;n,p) = \binom{n}{x}p^x(1-p)^{n-x} \)

E(X) = np

D(X) = np(1-p)

简单的推导:

\( X = \sum{X_i}\)

\( E(X) = \sum{E(X_i)} = np \)

\( D(X) = \sum{D(X_i)} = np(1-p) \) 因为x1,x2..xn相互独立,所以方差满足线性关系

(3)泊松分布

泊松分布是探讨某一事件在某段时间或空间发生的次数的概率分布。泊松分布的概率函数为:

\(f(x;\lambda) = \frac{\lambda^x}{x!}{e^{-\lambda}}  (x=0,1,2...., \lambda>0) \)

\( E(X)=\lambda \)

\( D(X)=\lambda \)

它是二项分布的极限形式(当n趋近于无穷,p趋近于0,np趋近于\(\lambda\))。

当一个随机事件,以固定的平均瞬时速率\( \lambda \)随机且独立的出现时,那么这个事件在单位事件内出现的次数或个数就近似的服从泊松分布,可以总结为:

1. 事件随机地发生于某段时间或空间内

2. 某一刻中,事件最多只会发生一次

3. 事件以一常数率 λ 发生于某段时间或空间内

4. 事件之间独立地发生

生活总符合泊松分布的案例:

1,汽车站台的候车人数

2,电话交换机接到呼叫的次数

3,机器发生故障的次数

4,自然灾害的次数

5,一油站在一分钟内汽车抵达的数目

6,一本书内某一页的错字数目

....

(4)均匀分布

随机变量X~U(a,b),其概率密度为

f(x) =

1/(b-a), a<x<b

0,others

E(X) = (a+b)/2

D(X) = (b-a)2/12

(5)指数分布

概率密度函数为:

\( E(X)=\theta \)

\( D(X)=\theta^2\)

(6)正态分布

\( X\~N(\nu,\sigma^2) \),其概率密度函数为:

\(E(X)=\nu\)

\(D(X)=\sigma^2\)

3,重要定理

(1)Jesen不等式

需要注意条件,pi大于0,p1+p2+...+pn=1,以及f是凸函数。
如果把pi看作概率,那么得到f(E(X))<=Ef(X)

(2)切比雪夫不等式

切比雪夫不等式说明任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/㎡,其中m为大于1的任意正数。

(3)大数定理

随机变量X1,X2...Xn相互独立,并且具有相同的期望和方差,Yn为这N个随机变量的均值,那么对于任意整数epsilon有:

大数定理说明在n无限大的时候,随机变量的均值无限接近于期望。
还有一个伯努利定理,它说明事件A的发生频率na/n以概率收敛于事件A的概率p。

时间: 2024-10-11 13:26:39

机器学习中的数学系列-概率与统计的相关文章

机器学习中的数学系列-信息论

>信息 \( i(x)=-log(p(x)) \) 事件x不确定性的度量,不确定性越大,信息量越大 >熵 \( H(X) = \sum_x{-p(x)log(p(x))} \) 随机变量X不确定的度量,信息的期望,不确定性越大,熵越大 >条件熵 \( H(X|Y) \sum_{x,y}{-p(x,y)logp(x|y)}\) >联合熵 \( H(X,Y) \sum_{x,y}{-p(x,y)logp(x,y)}\) >互信息 描述事件x发生后,对事件y不确定性的消除 i(y,

机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA)

机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 第二篇的文章中谈到,和部门老大一宁出去outing的时候,他给了我相当多的机器学习的建议,里面涉及到很多的算法的意义.学习方法等等.一宁上次给我提到,如果学习分类算法,最好从线性的入手,线性分类器最简单的就是

机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

机器学习中的数学(1)-回归(regression).梯度下降(gradient descent) 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在

机器学习中的数学(2)-线性回归,偏差、方差权衡

机器学习中的数学(2)-线性回归,偏差.方差权衡 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任.如果有问题,请联系作者 [email protected] 前言: 距离上次发文章,也快有半个月的时间了,这半个月的时间里又在学习机器学习的道路上摸索着前进,积累了一点心得,以后会慢慢的写写这些心得.写文章是促进自己对知识认识的一个好方法,看书的时候往往不是非

机器学习中的数学-回归(regression)、梯度下降(gradient descent)&lt;1&gt;

机器学习中的数学(1)-回归(regression).梯度下降(gradient descent) 版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用

机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系[email protected] 前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计

(转)机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)

版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: 上次写过一篇关于贝叶斯概率论的数学,最近时间比较紧,coding的任务比较重,不过还是抽空看了一些机器学习的书和视频,其中很推荐两个:一个是stanford的machine learning公开课,在verycd可下载,可惜没有翻译.不过还是可以看.另外一个是prml-pattern recogni

【机器学习中的数学】贝叶斯框架下二元离散随机变量的概率分布

引言 我感觉学习机器学习算法还是要从数学角度入门才是唯一正道,机器学习领域大牛Michael I. Jordan给出的机器学习定义是,"A field that bridge computation and statistics,with ties to information theory, signal processing, algorithm, control theory and optimization theory".所以对于机器学习的门徒来说,我认为将计算机和统计理论有

【机器学习中的数学】从西格玛代数、测度空间到随机变量

σ代数 令X是一个样本空间(sample space)Ω的所有子集(subsets)的集合的一个子集,那么集合X被称为σ代数(σ-algebra)又叫σ域(σ-field). 它有以下几个性质: (1)Φ∈X:(Φ为空集) (2)若A∈X,则A的补集A^c∈X: (3)若Ai∈X(i=1,2,-)则∪Ai∈X: 可测空间 Ω是任意集合,而X是把Ω中的极端情况去掉后又Ω的子集组成的集合,这样剩下的就是可以处理的集合,所以(Ω,X)称为可测空间(a measurable set).X满足σ代数的三个