机器学习预备知识之概率论(上)

随着Hadoop等处理大数据技术的出现和发展，机器学习也越来越走进人们的视线。其实早在Hadoop之前，机器学习和数据挖掘早已经作为单独的学科而存在，那为什么在hadoop出现之后，机器学习如此的引人注目呢？一个重要原因是hadoop的出现使很多人拥有了处理海量数据的技术支撑，进而发现数据的重要性，而要想从数据中发现有价值的信息，选择机器学习似乎是必然的趋势。当然也不排除舆论的因素，其实本人一直对很多人宣称掌握了机器学习持怀疑态度。而要想理解机器学习的精髓，数学知识是不可或缺的，比如线性代数，概率论和微积分、向量空间等，而如果没有一定的数学基础，使用机器学习也只能是知其然而不知其所以然了。基于这个原因，将系统地总结学习机器学习中用到的一些数学知识，当然不可能面面俱到，但会尽可能准确。

这篇文章首先学习概率论知识，概率论在机器学习中占主要地位，因为概率论为机器学习算法的正确性提供了理论依据，学习算法的设计经常依赖于对数据的概率假设以及在某些算法中被直接使用等。

排列组合

排列：从n个不同元素中，任取m(m≤n,m与n均为自然数)个元素按照一定的顺序排成一列，称为从n个不同元素中取出m个元素的一个排列；从n个不同元素中取出m(m≤n）个元素的所有排列的个数，称为从n个不同元素中取出m个元素的排列数，用符号 A(n,m)表示。A(n,m)=n(n-1)(n-2)……(n-m+1)=n!/(n-m)!。通常我们所说的排列指的是所有排列的个数，即A(n,m)。

组合：从n个不同元素中，任取m(m≤n)个元素并成一组，叫做从n个不同元素中取出m个元素的一个组合；从n个不同元素中取出m(m≤n)个元素的所有组合的个数，叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示。C(n,m)=A(n,m)/m!，C(n,m)=C(n,n-m)。通常我们所说的组合指的是所有组合的个数，即C(n,m)。

组合和排列的区别单从公式来看的话，C(n,m)=A(n,m)/m!，而为什么要除以m!呢？从定义分析，排列是一个有序的序列，也就是将元素x，y放在位置1，2和放在2，1是两个不同的序列，而组合关心的仅仅是是否选取了某个元素，而不考虑顺序，也就是x，y放在位置1，2还是2，1都被认为是相同的组合。由于m个元素在m个位置有m!中排列方式，而这对组合来说只是一种组合，因此需要除以m!。

随机变量

在概率论中，随机变量扮演了重要的角色。千万不要将随机变量和通常所提到的变量相混淆，以为随机变量就是其值具有随机性的变量，而实际上，随机变量是函数，将试验结果映射为实数，更一般地理解为，随机变量是人为定义的基于试验结果的函数，该函数的定义域为试验结果的取值，其值域根据不同情境而不同。通常使用大写字母表示随机变量。

假设随机变量X表示将投掷六面骰子的结果映射为实数，可以定义X将投掷的结果i映射为i，比如投掷的结果为2，则X的结果就为2。还可以定义如果投掷结果为偶数，则X的结果为1，否则为0，这种类型的随机变量被称为指示器变量，用于表示某一事件是否发生。

随机变量X取值a的概率表示为P(X = a) 或P _X(a)，使用Val(X)表示随机变量的取值范围。

联合分布、边缘分布和条件分布

随机变量的分布指的是取某些值的概率，由定义可知分布本质上是概率，使用P(X)表示随机变量X的分布。当提及多于一个变量的分布时，该分布称为联合分布，因为此时概率由涉及的所有变量共同决定。考虑下面这个联合分布的例子，X为投掷骰子的随机变量，取值为[1,6]，Y为抛掷硬币的随机变量，取值为[0,1]，二者的联合分布为：