概率论机器学习的先验知识(上)

随着Hadoop等大数据的出现和技术的发展，机器学习越来越多地进入人们的视线。

其实早Hadoop之前，机器学习和数据挖掘已经存在，作为一个单独的学科，为什么hadoop之后出现，机器学习是如此引人注目了？因是hadoop的出现使非常多人拥有了处理海量数据的技术支撑。进而发现数据的重要性，而要想从数据中发现有价值的信息。选择机器学习似乎是必定的趋势。当然也不排除舆论的因素。事实上本人一直对非常多人宣称掌握了机器学习持怀疑态度。而要想理解机器学习的精髓。数学知识是不可或缺的，比方线性代数。概率论和微积分、向量空间等。而假设没有一定的数学基础，使用机器学习也仅仅能是知其然而不知其所以然了。基于这个原因，将系统地总结学习机器学习中用到的一些数学知识，当然不可能面面俱到，但会尽可能准确。

这篇文章首先学习概率论知识，概率论在机器学习中占主要地位。由于概率论为机器学习算法的正确性提供了理论依据。学习算法的设计常常依赖于对数据的概率假设以及在某些算法中被直接使用等。

排列组合

排列：从n个不同元素中，任取m(m≤n,m与n均为自然数)个元素依照一定的顺序排成一列，称为从n个不同元素中取出m个元素的一个排列；从n个不同元素中取出m(m≤n）个元素的全部排列的个数，称为从n个不同元素中取出m个元素的排列数，用符号 A(n,m)表示。A(n,m)=n(n-1)(n-2)……(n-m+1)=n!/(n-m)!。通常我们所说的排列指的是全部排列的个数，即A(n,m)。

组合：从n个不同元素中。任取m(m≤n)个元素并成一组，叫做从n个不同元素中取出m个元素的一个组合；从n个不同元素中取出m(m≤n)个元素的全部组合的个数，叫做从n个不同元素中取出m个元素的组合数。用符号 C(n,m) 表示。C(n,m)=A(n,m)/m!。C(n,m)=C(n,n-m)。

通常我们所说的组合指的是全部组合的个数。即C(n,m)。

组合和排列的差别单从公式来看的话，C(n,m)=A(n,m)/m!，而为什么要除以m!呢？从定义分析。排列是一个有序的序列，也就是将元素x，y放在位置1。2和放在2。1是两个不同的序列，而组合关心的仅仅是是否选取了某个元素。而不考虑顺序，也就是x，y放在位置1。2还是2。1都被觉得是同样的组合。由于m个元素在m个位置有m!中排列方式，而这对组合来说仅仅是一种组合，因此须要除以m!。

随机变量

在概率论中。随机变量扮演了重要的角色。千万不要将随机变量和通常所提到的变量相混淆，以为随机变量就是其值具有随机性的变量，而实际上。随机变量是函数。将试验结果映射为实数，更一般地理解为，随机变量是人为定义的基于试验结果的函数，该函数的定义域为试验结果的取值，其值域依据不同情境而不同。通常使用大写字母表示随机变量。

假设随机变量X表示将投掷六面骰子的结果映射为实数，能够定义X将投掷的结果i映射为i，比方投掷的结果为2，则X的结果就为2。

还能够定义假设投掷结果为偶数。则X的结果为1。否则为0。这样的类型的随机变量被称为指示器变量。用于表示某一事件是否发生。

随机变量X取值a的概率表示为P(X = a) 或P _X(a)，使用Val(X)表示随机变量的取值范围。