FPGA机器学习之机器学习的n中算法总结2

前面已经说了很多的算法了。比如说退火算法，蚂蚁算法，文化算法，禁忌算法等等。接下来要写一些其他的机器学习算法。迁移学习，集成算法，向量机，在线学习等算法。

我毛华望QQ849886241。技术博客http://blog.csdn.net/my_share

迁移学习算法：大概理解一下就是，机器学习了一些知识后，可以更容易学会其他的知识，举个例子，学会桌子的人，更容易学会认识椅子。学会下象棋的人，更容易学围棋。基于boosting的迁移学习算法。http://wenku.baidu.com/link?url=oinVyarxctHwn8fbpLXueATxEkabROgIguH_QKHI9LfSEU35UZfzl7IuoISzkE8-Q6gCxRL9aLufvYWajoleX_PhEAh3mkPOGPxvzo3HE0W。其实这个算法，在龙星计划里面有的。但是不记得在哪里了。过程比较复杂，在我的记忆里面，它是一种比较新的机器学习算法。有时间还是需要深入了解的。

PCA算法：主成分分析法。PCA方法在降维和特征提取方面很有效果，无论是图像处理也好，还是机器学习也好。PCA算法经常会出现，主要在人脸识别方面应用非常广泛。人脸识别里面的主成分脸，就是PCA算法完成的。人脸识别里面配合使用的就是神经网络了，目前人脸识别热门所以这个算法需要深入了解。

ICA算法：独立成分分析算法。我看到的第一例子就和核磁共振成像有关，看来在图像方面，它有良好的表现。该方法的目的是将观察到的数据进行某种线性分解，使其分解成统计独立成分。其实ICA和PCA（主成分分析法）同属多变量数据分析方法，但是ICA处理得到的各个分量不仅去除了相关性，还是相互统计独立的，而且是非高斯分布，因此，ICA能更加全面揭示数据间的本质结构（http://www.docin.com/p-564088508.html）。《独立成分分析》是一本书，也有关于PCA的描述。

ICA的盲信号分析领域的一个强有力方法，也是求非高斯分布数据隐含因子的方法。从之前我们熟悉的样本-特征角度看，我们使用ICA的前提条件是，认为样本数据由独立非高斯分布的隐含因子产生，隐含因子个数等于特征数，我们要求的是隐含因子。而PCA认为特征是由k个正交的特征（也可看作是隐含因子）生成的，我们要求的是数据在新特征上的投影。同是因子分析，一个用来更适合用来还原信号（因为信号比较有规律，经常不是高斯分布的），一个更适合用来降维（用那么多特征干嘛，k个正交的即可）。有时候也需要组合两者一起使用。

ECO feature 算法：研究人员用ECO feature算法实现了超高精度的对象识别功能。http://www.cnbeta.com/articles/268834.htm。这个是唯一的材料。没有找到任何资料。从新闻描述情况来看，这个算法很好才对。有待跟进。

人工免疫算法：是一种根据人体的免疫系统发展出来的自我学习系统。在模式识别里面有一定的作用。可是查不到这个算法的效果，应该还可以。容错，稳定和鲁棒性都很好。这个算法结构好像也挺复杂的。需要深入了解才能明白。

lasso 思想算法：http://liuzg202.blog.163.com/blog/static/29427196201010259233251/从这篇文章可以了解到，这个算法，比较新，有一定的研究成果，但是好像没有什么具体资料。资料全英，不太好理解（我英语能力有限）。http://www.docin.com/p-149561253.html

这里有写到shooting算法。我在上一篇n种算法总结1中，涉及到这个算法了。可是没有资料。

基于Lasso的人脸识别算法。http://oaps.lib.tsinghua.edu.cn/handle/123456789/2015，清华的一篇文章。看来这个lasso算法，在人脸识别算法中，还是有用的。需要深入了解了。

决策树：决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法（百度百科）。适用于概率模型，也就是说，所有的情况的概率一定要有。在机器学习中，决策树是一个预测模型（百度百科）。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。决策树学习也是资料探勘中一个普通的方法。决策树最大的优势就是可以了解分析过程。推出逻辑表达式。对于决策树，表面的情况了解了。可是对于它的具体应用还需要深入的了解。

神经网络：神经网络，我前面的文章里面有写到，没什么好说的。它是非常重要的一种机器学习算法。它也是一种模拟人类神经网络建立起来的。它很容易就陷入局部最小值。但是建立好了，也会有很好的效果的。而且对它的改进型也很多。多了解下吧。谷歌大脑，就是一个上亿节点的神经网络。所以它的地位不可忽略。其实谷歌汽车的智能是用什么方法来完成的，我也很好奇。

深度学习：它的重要性没有什么好说的。它在机器学习里面的名声很显赫了。它是一定需要深入研究的了。大概说点吧。它是根据人工神经网络的研究得来的。含多隐层的多层感知器就是一种深度学习结构。而且在语音识别和图像识别上有很好的效果。

在线学习：在线学习在龙星计划里面有，是一种有新的输入就在学习一次的方法。百度文库的说，方法很好，但是怎么个好没说。据我了解的情况是，在线学习算法并不是单一的算法，他是配合神经网络，是神经网络里面的一个分支，在线学习不能单独使用。http://www.doc88.com/p-084413954013.html这篇文章可能是我找到最好的了。资料也很少，看来想了解需要花上一段时间才行。

离线算法：这个就完全没资料了，连概念都是比较模糊的。还不知道是不是机器学习算法呢。

集成学习算法：http://wenku.baidu.com/link?url=dnV2S27C5GPelYtE3XGBo6dWxHInXWyMh3hD052wB07SpMTL9O0yplO7DBpKcfoib2S0l244vxXEQfFYXO38JDJuoLdWkWj7Wui1kZ_STWC

这篇文章可以大概体会到，它是一种把很多机器学习方法合并在一起达到更优秀的效果的方法。在生成集成中个体网络方面，最重要的技术是Boosting [Sch90] 和Bagging [Bre96]。集成学习是机器学习中一个非常重要且热门的分支，是用多个弱分类器构成一个强分类器，其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树，神经网络，贝叶斯分类器，K-近邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的，比如说统计上的原因，计算上的原因以及表示上的原因（http://www.cnblogs.com/tornadomeet/archive/2012/03/21/2409421.html）。

集成学习中主要的3个算法为：boosting,bagging,stacking.从这些了解中，可以看出，它是一个多算法集成过程。既然不冲突，效果也比较良好，可以深究一下。

支持向量机：从我在stanford大学的机器学习里面知道，支持向量机的性能也特别的好。SVM一般只能用在二类问题，对于多类问题效果不好（百度百科）。看来有一定局限性呀。我还是看看对图像方面有什么特点吧。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中（Hilbert空间），使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题．简单地说，就是升维和线性化（百度百科）。好像在二值分类问题才能有良好的效果。http://blog.sina.com.cn/s/blog_89ba75c80101gxgn.html我个人感觉这篇讲的通俗些。

EM算法：最大似然估计。不是什么具体算法来着，就是常常出现在机器学习算法里面而已。

线性回归：stanford机器学习里面也有。就是给出一些真实的房价和面积的数据，然后用一个函数逼近，然后预测其他的房价和面积的情况。http://wenku.baidu.com/link?url=9jwYIM0Cluj_RBpfplzA_cE31rikmkG_-QMoBjYDsxU7PQ51zDcgipfMc2BurtB34BuFzYLJOwo5cdCs4GCxCNS4zZNG7lvD42iwLzfEPVq随便看下好了。

Apriori算法：主要是什么呢？？是2个物品之间的相关度，http://blog.csdn.net/lizhengnanhua/article/details/9061755这里讲解的不错。涉及到这两个概念：支持度3%：意味着3%顾客同时购买牛奶和面包置信度40%：意味着购买牛奶的顾客40%也购买面包。通过度量这两个量，在数据里面，找到数据之间的联系。

这张图能说明很多东西。