机器学习算法之旅

在理解了我们须要解决的机器学习问题之后,我们能够思考一下我们须要收集什么数据以及我们能够用什么算法。本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,非常有帮助。

机器学习领域有非常多算法,然后每种算法又有非常多延伸,所以对于一个特定问题,怎样确定一个正确的算法是非常困难的。本文中我想给你们两种方法来归纳在现实中会遇到的算法。

学习方式

依据怎样处理经验、环境或者不论什么我们称之为输入的数据,算法分为不同种类。机器学习和人工智能课本通常先考虑算法能够适应的学习方式。

这里仅仅讨论几个基本的学习风格或学习模型,而且有几个基本的样例。这样的分类或者组织的方法非常好,由于它迫使你去思考输入数据的角色和模型准备的过程,然后选择一个最适合你的问题的算法,从而得到最佳的结果。

●监督学习:输入数据被称为训练数据,而且有已知的结果或被标记。比方说一封邮件是否是垃圾邮件,或者说一段时间内的股价。模型做出预測,假设错了就会被修正,这个过程一直持续到对于训练数据它可以达到一定的正确标准。问题样例包含分类和回归问题,算法样例包含逻辑回归和反向神经网络。

●无监督学习:输入数据没有被标记,也没有确定的结果。模型对数据的结构和数值进行归纳。问题样例包含Association
rule learning和聚类问题,算法样例包含 Apriori 算法和K-均值算法。

●半监督学习:输入数据是被标记的和不被标记的数据的混合,有一些预測问题可是模型也必须学习数据的结构和组成。问题样例包含分类和回归问题,算法样例基本上是无监督学习算法的延伸。

●增强学习:输入数据能够刺激模型而且使模型做出反应。反馈不仅从监督学习的学习过程中得到,还从环境中的奖励或惩处中得到。问题样例是机器人控制,算法样例包含Q-learning以及Tempora
difference learning。

当整合数据模拟商业决策时,大多数会用到监督学习和无监督学习的方法。当下一个热门话题是半监督学习,比方图像分类问题,这中问题中有一个大的数据库,可是仅仅有一小部分图片做了标记。增强学习多半还是用在机器人控制和其它控制系统的开发上。

算法相似性



算法基本上从功能或者形式上来分类。比方,基于树的算法,神经网络算法。这是一个非常实用的分类方式,但并不完美。由于有很多算法能够轻易地被分到两类中去,比方说Learning
Vector Quantization就同一时候是神经网络类的算法和基于实例的方法。正如机器学习算法本身没有完美的模型一样,算法的分类方法也没有完美的。

在这一部分我列出了我觉得最直观的方法归类的算法。我并没有穷尽算法或者分类方法,可是我想对于让读者有一个大致了解非常有帮助。假设有你了解的我没有列出来,欢迎留言分享。如今我们開始!

Regression



●Regression(回归分析)关心的是变量之间的关系。它应用的是统计方法,几个算法的样例包含:

Ordinary Least Squares

●Logistic Regression

●Stepwise Regression

●Multivariate Adaptive Regression Splines (MARS)

●Locally Estimated Scatterplot Smoothing (LOESS)

Instance-based Methods



Instance based
learning(基于实例的学习)模拟了一个决策问题,所使用的实例或者样例是对模型很重要的。这样的方法对现有数据建立一个数据库然后把新数据加进去,再用一个相似性測量方法从而在数据库里找出一个最优匹配,进行一个预測。因为这个原因,这样的方法也被称为胜者为王方法和基于内存的方法。如今关注的焦点在存储数据的表现形式和相似性測量方法。

●k-Nearest Neighbour (kNN)

●Learning Vector Quantization (LVQ)

●Self-Organizing Map (SOM)

Regularization Methods



这是一个对其它方法的延伸(一般是回归方法),这个延伸对越简单的模型越有利,而且更擅长归纳。我在这里列出它是由于它的流行和强大。

●Ridge Regression

●Least Absolute Shrinkage and Selection Operator (LASSO)

●Elastic Net

Decision Tree Learning



Decision tree
methods(决策树方法)建立了一个依据数据中实际值决策的模型。决策树用来解决归纳和回归问题。

●Classification and Regression Tree (CART)

●Iterative Dichotomiser 3 (ID3)

●C4.5

●Chi-squared Automatic Interaction Detection (CHAID)

●Decision Stump

●Random Forest

●Multivariate Adaptive Regression Splines (MARS)

●Gradient Boosting Machines (GBM)

Bayesian



●Bayesian method(贝叶斯方法)是在解决归类和回归问题中应用了贝叶斯定理的方法。

●Naive Bayes

●Averaged One-Dependence Estimators (AODE)

●Bayesian Belief Network (BBN)

Kernel Methods



Kernel Method(核方法)中最有名的是Support Vector
Machines(支持向量机)。这样的方法把输入数据映射到更高维度上,是的一些归类和回归问题更easy建模。

●Support Vector Machines (SVM)

●Radial Basis Function (RBF)

●Linear Discriminate Analysis (LDA)

Clustering Methods



Clustering(聚类),本身就形容了问题和方法。聚类方法一般是由建模方式分类的。全部的聚类方法都是用统一的数据结构来组织数据,使得每组内有最多的共同点。

●K-Means

●Expectation Maximisation (EM)

Association Rule Learning

Association rule
learning(联合规则学习)是用来对数据间提取规律的方法,通过这些规律能够发现巨量多维空间数据之间的联系,而这些重要的联系能够被组织拿来使用。

●Apriori algorithm

●Eclat algorithm

Artificial Neural
Networks


机器学习算法之旅,布布扣,bubuko.com

时间: 2024-10-24 18:21:10

机器学习算法之旅的相关文章

机器学习算法之旅【转】

在理解了我们需要解决的机器学习问题之后,我们可以思考一下我们需要收集什么数据以及我们可以用什么算法.本文我们会过一遍最流行的机器学习算法,大致了解哪些方法可用,很有帮助. 机器学习领域有很多算法,然后每种算法又有很多延伸,所以对于一个特定问题,如何确定一个正确的算法是很困难的.本文中我想给你们两种方法来归纳在现实中会遇到的算法. 学习方式 根据如何处理经验.环境或者任何我们称之为输入的数据,算法分为不同种类.机器学习和人工智能课本通常先考虑算法可以适应的学习方式. 这里只讨论几个主要的学习风格或

机器学习算法之旅【翻译】【转】

在我们了解了需要解决的机器学习问题的类型之后,我们可以开始考虑搜集来的数据的类型以及我们可以尝试的机器学习算法.在这个帖子里,我们会介绍一遍最流行的机器学习算法.通过浏览主要的算法来大致了解可以利用的方法是很有帮助的. 可利用的算法非常之多.困难之处在于既有不同种类的方法,也有对这些方法的扩展.这导致很快就难以区分到底什么才是正统的算法.在这个帖子里,我希望给你两种方式来思考和区分在这个领域中你将会遇到的算法. 第一种划分算法的方式是根据学习的方式,第二种则是基于形式和功能的相似性(就像把相似的

机器学习算法之旅(转载)

http://machinelearningmastery.com/a-tour-of-machine-learning-algorithms/ In this post, we take a tour of the most popular machine learning algorithms. It is useful to tour the main algorithms in the field to get a feeling of what methods are availabl

机器学习算法之旅A Tour of Machine Learning Algorithms

In this post we take a tour of the most popular machine learning algorithms. It is useful to tour the main algorithms in the field to get a feeling of what methods are available. There are so many algorithms available and it can feel overwhelming whe

机器学习算法与Python实践之(二)支持向量机(SVM)初级

机器学习算法与Python实践之(二)支持向量机(SVM)初级 机器学习算法与Python实践之(二)支持向量机(SVM)初级 [email protected] http://blog.csdn.net/zouxy09 机器学习算法与Python实践这个系列主要是参考<机器学习实战>这本书.因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法.恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了. 在这一节我们主要是

利用机器学习算法寻找网页的缩略图

博客中的文章均为meelo原创,请务必以链接形式注明本文地址 描述一个网页 现在的世界处于一个信息爆炸的时代.微信.微博.新闻网站,每天人们在大海捞针的信息海洋里挑选自己感兴趣的信息.我们是如何判断哪条信息可能会感兴趣?回想一下,你会发现是标题.摘要和缩略图.通过标题.摘要和缩略图,就能够很好地猜测到网页的内容.打开百度搜索引擎,随便搜索一个关键字,每一条搜索结果也正是这三要素构成的. 那么一个自然的问题是搜索引擎是如何找到网页的标题.摘要和缩略图的呢. 寻找网页的标题其实是一个非常简单的问题.

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注

简单易学的机器学习算法——AdaBoost

一.集成方法(Ensemble Method) 集成方法主要包括Bagging和Boosting两种方法,随机森林算法是基于Bagging思想的机器学习算法,在Bagging方法中,主要通过对训练数据集进行随机采样,以重新组合成不同的数据集,利用弱学习算法对不同的新数据集进行学习,得到一系列的预测结果,对这些预测结果做平均或者投票做出最终的预测.AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法.

【机器学习算法-python实现】采样算法的简单实现

1.背景 采样算法是机器学习中比较常用,也比较容易实现的(出去分层采样).常用的采样算法有以下几种(来自百度知道): 一.单纯随机抽样(simple random sampling) 将调查总体全部观察单位编号,再用抽签法或随机数字表随机抽取部分观察单位组成样本. 优点:操作简单,均数.率及相应的标准误计算简单. 缺点:总体较大时,难以一一编号. 二.系统抽样(systematic sampling) 又称机械抽样.等距抽样,即先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k