跟着vamei复习概率论

最近重新看了一下概率论,感觉很多东西都遗忘了,还会陷入各种误区,赶紧的纠正回来。

概率论这块,主要内容包括:

事件、条件概率、随机变量、随机变量的分布函数、概率密度、联合分布、期望、方差、协方差。

我自己的误区总结:

1.事件和随机变量

首先要明确样本空间是所有可能发生的事件的集合,它由全部基本事件组成。而事件是基本时间的集合,是样本空间的子集,事件是固定的,或者说事件的概率是固定的(贝叶斯学派加入的先验概率先不考虑)。而随机变量一个映射,是从事件到实数的映射,随机变量表达了整个样本空间,描述了各种事件组合的可能,具备了期望方差等各种属性。所以,事件和随机变量是完全不同的概念,一静一动,不可搞混。

举个栗子,掷一个骰子一次,对应的基本事件就是骰子出现1的面、...、掷骰子出现6的面。基本事件是死的,他们的概率也是死的是1/6。针对一次骰子实验我们可以定义随机变量X,用X的实数值表达基本事件,比如X=1表示出现面1,X=6表示出现面6。

这样我们就去分开了事件和随机变量。

对于随机变量,有一个重要的概念就是累计分布函数(CDF,cumlative distribution function),用来表示随机变量概率分布的情况。显然累计分布函数正无穷大的极限是1,此外还有右连续、不递减等特型。

举个例子:

做两次抛硬币的实验,随机变量X表示正面出现的次数,显然,X=0,1,2,概率分别为:0.25,0.5,0.25. 其CDF如下:

代码如下:

>>> x = [-1, 0, 0, 1, 1, 2, 2, 3]
>>> y = [0, 0, 0.25, 0.25, 0.75, 0.75, 1, 1]
>>> fig = plt.figure()
>>> ax = plt.subplot()
>>> ax = plt.subplot(111)
>>> ax.plot(x,y)
[<matplotlib.lines.Line2D object at 0x10b5b4e10>]
>>> ax.set_ylim([-0.1, 1.1])
(-0.1, 1.1)
>>> ax.set_title("CDF plot")
<matplotlib.text.Text object at 0x10b59e950>
>>> plt.show()

1.2 条件概率的误区

实际上1.1理解了,1.2自然就理解了。就是随机事件的条件概率和随机变量的条件概率的区别。首先两者都可以计算条件概率,或者说条件概率本质山就是由事件的计算得到的。我的理解是,随机变量是数值转换后的条件概率,如果给定了数值,两者是等价的。但是随机变量是随机的,是动的,因此会存在条件概率分布等东东。所以两者还是不同的,依然是一静一动。

2.关于协方差

协方差是描述多个随机变量之间的关系的。如果两个随机变量是相互独立的,那他们的协方差或者相关系数是0,反之不成立。

考虑我们有m个样本,每个样本的特征数是n。那么我们可以将n个特征看成n个随机变量。每个随机变量都有m的实数值作为它的观测值,因此我们可以计算得到均值,方差。进而可以算出两两特征之间的协方差的。而这些协方差就够成了整个样本集的协方差矩阵。协方差矩阵很有用,特别是用在高斯分布的模型中的时候。

未完,待续。

时间: 2024-12-14 18:44:20

跟着vamei复习概率论的相关文章

Nani_xiao的机器学习与总结:Andrew Ng.机器学习(一) :贝叶斯定理

已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A). P(A|B)表示事件B已发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率.其基本求解公式: , 而贝叶斯定理为: 朴素贝叶斯基本思想:对于给出的待分类项,求解在此项条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别. 分类算法之贝叶斯网络(Bayesiannetworks) 1.贝叶斯网络的解释和举例 朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独

This is ACM bings to us

最近要考概率论了, 平时没怎么听课, 昨天刷了一白天的题, 脑子已经相当疲惫, 晚上复习概率论不禁感叹学习实在是一件很轻松的事情. 没有一点烧脑的感觉, 只是轻松和自信, 轻轻松松就明白了这个题怎么做, 这个方法可以解决怎样的问题. 现在, 做什么事情都喜欢转变一下思维, 来个等价转换,思维能力和以前已经不能同日而语, 也许, This is ACM bings to us !

ECNUOJ 2613 Gamma 函数

Gamma 函数 Time Limit:1000MS Memory Limit:65536KBTotal Submit:237 Accepted:138 Description  Pollux最近在复习概率论与数理统计,他发现里面有很多有意思的积分,今天Pollux碰到了一个Gamma函数,定义如下: Input  第一行为一个整数T,表示测数数据的组数.接下去T行,每行一个整数n, (1<= n <=1000). Output  每组测试数据输出一行,对于每个n, 输出T(n)%1999 S

Linux下新手怎样将VIM配置成C++编程环境(能够STL自己主动补全)

~ 弄拉老半天,最终弄的几乎相同啦,果然程序猿还是须要有点折腾精神啊. 首先你要安装vim,命令:sudo apt-get install vim vim它仅仅是一个编辑器,它不是IDE(比方codeblocks).IDE相当于已经给一个房子装好啦各种东西,你仅仅要使用即可.vim却要自己装各种东西,相当于买了一个毛坯房,自己要给房子装潢. 怎样安装g++编译器能够參考我上一篇博文. 1:vim的简单c++配置(语法高亮.缩进..) 在home文件夹下新.vimrc文件,.文件都是不可见的,要按

读书笔记 -- 算法导论 (序言+第一部分)

什么是基础呢? 就是要把我们大学所学的离散数学,算法与数据结构,操作系统,计算机体系结构,编译原理等课程学好.对计算机的体系,CPU本身,操作系统内核,系统平台,面向对象编程,程序的性能等要有深层次的掌握.要编写出优秀的代码同样要扎实的基础,如果数据结构和算法学的不好,怎么对程序的性能进行优化,怎样从类库中选择合适的数据结构.如果不了解操作系统,怎样能了解这些开发工具的原理,它们都是基于操作系统的.不了解汇编,编译原理,怎么知道程序运行时要多长时间要多少内存,就不能编出高效的代码.把面向对象,软

搭建个人博客 github+hexo

其实相关的教程网上有很多很多,不过就是很多很多,而且技术大神们每个人都写得不一样啊喂,为什么我明明就是一步一步按照教程来的还是有那么多乱七八糟的错?...所以我决定写此篇记录一下我搭建博客的过程以及我踩过的一些坑...希望给和我一样的技术小白提供一些帮助.然后,感谢给我提供帮助的各位大神(后面会贴出 参考资料) 不做过多介绍了,快速开始 准备安装软件 依次安装 1.Node.js 2.Git 注册github 访问https://github.com/ 右上角signup uername 最好都

贝叶斯网络(Bayesian networks)

算法杂货铺——分类算法之贝叶斯网络(Bayesian networks) 2.1.摘要 在上一篇文章中我们讨论了朴素贝叶斯分类.朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立).当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力.这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级.应用范围更广的一种算法——贝叶斯网络(

暑假周进度总结(二)

第二周 7月8日至6月14日 每天平均写代码时间 30分钟 代码量 400行左右 所发博客数 二篇 本周学到的知识点 学习了用Vmware软件安装Centos7系统,在Centos系统上安装了jdk,hadoop,搭建了Hadoop伪分布式环境,克隆了一个虚拟机系统 下周的计划 熟练掌握本周学到的知识点,继续学习Hadoop,复习概率论,计算机网络知识,学习英语 遇到的问题是:克隆完虚拟机后应该是操作问题导致原来的系统,克隆后的系统的IP都不知道怎么改变了,用ifconfig命令也查不到真正的I

python基础语法思维导图

python语法基础思维导图 感想 跟着vamei的快速教程,过了一遍基础语法,讲得很简介清晰,受益匪浅. 得知vamei在今年因抑郁症过世,觉得上天真是残忍,那么年轻的生命,那么聪明的人,真的是天妒英才. 身边也有朋友患有抑郁症,希望上帝保佑他(她)们. 之前学习的时候,还想着写一下博客,今天重新看看,发现当时写的内容虽然简单,但是思路清晰,当初应该坚持下来,相比现在也积累很多吧. 不过种一棵树最好的时间是十年前,其次是现在,现在也准备重新捡起来 在很多网站都写过,对比了一圈,还是博客园更有感