机器学习方法总结

来源: http://biostar.blog.sohu.com/61246458.html

训练:训练集——>特征选取——>训练——>分类器

分类:新样本——>特征选取——>分类——>判决

最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。下面对几种主要的分类方法做个简要介绍:

(1)决策树

决策树归纳是经典的分类算法。它采用自顶向下递归的各个击破方式构造决策树。树的每一个结点上使用信息增益度量选择测试属性。可以从生成的决策树中提取规则。

(2) KNN法(K-Nearest Neighbor)

KNN法即K最近邻法,最初由Cover和Hart于1968年提出的,是一个理论上比较成熟的方法。该方法的思路非常简单直观:如果一个样本在特征空间 中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类 别来决定待分样本所属的类别。

KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。因此,采用这种方法可以较好地避免样本的不平衡问题。另外,由于 KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法 更为适合。

该方法的不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样 本点进行剪辑,事先去除对分类作用不大的样本。另外还有一种Reverse KNN法,能降低KNN算法的计算复杂度,提高分类的效率。

该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。

(3) SVM法

SVM法即支持向量机(Support Vector Machine)法,由Vapnik等人于1995年提出,具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法, SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器可以最大化类与类的间隔,因而有较好的适应能力和较高的分准率。该方法只需 要由各类域的边界样本的类别来决定最后的分类结果。

支持向量机算法的目的在于寻找一个超平面H(d),该超平面可以将训练集中的数据分开,且与类域边界的沿垂直于该超平面方向的距离最大,故SVM法亦被称 为最大边缘(maximum margin)算法。待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响,SVM法对小样本情况下的自动分类有着较好的分类 结果。

(4) VSM法

VSM法即向量空间模型(Vector Space Model)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D (T1,W1;T2,W2;…;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度就可 以借助特征向量之间的内积来表示。

在实际应用中,VSM法一般事先依据语料库中的训练样本和分类体系建立类别向量空间。当需要对一篇待分样本进行分类的时候,只需要计算待分样本和每一个类别向量的相似度即内积,然后选取相似度最大的类别作为该待分样本所对应的类别。

由于VSM法中需要事先计算类别的空间向量,而该空间向量的建立又很大程度的依赖于该类别向量中所包含的特征项。根据研究发现,类别中所包含的非零特征项 越多,其包含的每个特征项对于类别的表达能力越弱。因此,VSM法相对其他分类方法而言,更适合于专业文献的分类。

(5) Bayes法

Bayes法是一种在已知先验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。

设训练样本集分为M类,记为C={c1,…,ci,…cM},每类的先验概率为P(ci),i=1,2,…,M。当样本集非常大时,可以认为P(ci)= ci类样本数/总样本数。对于一个待分样本X,其归于cj类的类条件概率是P(X/ci),则根据Bayes定理,可得到cj类的后验概率P (ci/X):

P(ci/x)=P(x/ci)·P(ci)/P(x)(1)

若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,则有x∈ci(2)

式(2)是最大后验概率判决准则,将式(1)代入式(2),则有:

若P(x/ci)P(ci)=Maxj〔P(x/cj)P(cj)〕,i=1,2,…,M,j=1,2,…,M,则x∈ci

这就是常用到的Bayes分类判决准则。经过长期的研究,Bayes分类方法在理论上论证得比较充分,在应用上也是非常广泛的。

Bayes方法的薄弱环节在于实际情况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不知道的。为了获得它们,就要求样本 足够大。另外,Bayes法要求表达文本的主题词相互独立,这样的条件在实际文本中一般很难满足,因此该方法往往在效果上难以达到理论上的最大值。

(6)神经网络

神经网络分类算法的重点是构造阈值逻辑单元,一个值逻辑单元是一个对象,它可以输入一组加权系数的量,对它们进行求和,如果这个和达到或者超过了 某个阈值,输出一个量。如有输入值X1, X2, ..., Xn 和它们的权系数:W1, W2, ..., Wn,求和计算出的 Xi*Wi ,产生了激发层 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各条记录出现频率或其他参数,Wi是实时特征评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有一些固有的缺陷,比如层数和神经 元个数难以确定,容易陷入局部极小,还有过学习现象,这些本身的缺陷在SVM算法中可以得到很好的解决。

来源: http://www.cnblogs.com/zhangchaoyang

机器学习问题方法总结


大类


名称


关键词


有监督分类


决策树


信息增益


分类回归树


Gini指数,Χ2统计量,剪枝


朴素贝叶斯


非参数估计,贝叶斯估计


线性判别分析


Fishre判别,特征向量求解


K最邻近


相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数


逻辑斯谛回归(二值分类)


参数估计(极大似然估计)、S型函数


径向基函数网络


非参数估计、正则化理论、S型函数


对偶传播网络


无导师的竞争学习、有导师的Widrow-Hoff学习


学习向量量化网络


一个输出层细胞跟几个竞争层细胞相连


误差反向传播网络


S型函数、梯度下降法


支持向量机(二值分类)


二次规化,Lagrange乘数法,对偶问题,最优化,序列最小优化,核技巧


单层感知器


只具有线性可分的能力


双隐藏层感知器


足以解决任何复杂的分类问题


无监督分类


KMeans


质心


CHAMELONE


图划分,相对互连度,相对紧密度


BIRCH


B树,CF三元组


DBScan


核心点,密度可达


EM算法(高斯混合模型)


参数估计(极大似然估计)


谱聚类


图划分,奇异值求解 。全局收敛


自组织映射网络


无导师的竞争学习


回归分析


一般线性回归


参数估计,最小二乘法,一般不用于分类而用于预测


逻辑斯谛回归(二值分类)


参数估计(极大似然估计),S型函数


关联规则挖掘


FP-Tree


频繁1项集,FP-Tree,条件模式基,后缀模式


降维


主成分分析


协方差矩阵,奇异值分解


推荐


协同过滤


稀疏向量的相似度度量


方法细分


应用场所


参数估计


极大似然估计


线性回归。假设误差满足均值为0的正态分布,从而转化为最小二乘法


Logistic回归。梯度下降迭代法求似然函数的极值


高斯混合模型。


非参数估计


径向基函数网络


独立性检验


无参数假设检验


χ2检验


特征词选取,分类回归树的终止条件


秩和检验


相关性检验


Pearson相关系数(假设x,y成对地从正态分布中取得)


基于向量空间模型的文本分类,用户喜好推荐系统


Spearman秩相关系数(无参数假设检验)


最优化方法


无约束最优化方法


梯度下降法


极大似然估计(回归分析、GMM)

支持向量机

线性判别分析


牛顿迭代法及其变种


有约束时通过Lagrange乘数法转换成无约束问题


求特征值/特征向量


幂法


线性判别分析


降维


奇异值分解(仅针对对称矩阵)


主成分分析


谱聚类


信息论


信息增益


特征词选择


决策树


互信息


特征词选择


交叉熵


特征词选择,稀有事件建模仿真,多峰最优化问题


核函数


多项式核函数


SVM

RBF网络


高斯核函数(径向基函数)


双极性核函数


单极性Sigmoid函数


Logistic回归


BP神经网络


协方差


Pearson相关系数


PCA


EM算法


高斯混合模型


向前向后算法


基函数


高斯混合模型


径向基函数网络


平滑算法


拉普拉斯平滑


贝叶斯分类

隐马尔可夫模型


Good-Turing平滑


隐马尔可夫模型


评估问题—向前算法


解码问题—Viterbi算法


中文分词词性标注   


学习问题—BaumWelch算法

Cover定理指出:将复杂的模式分类问题非线性地映射到高维空间将比投影到低维空间更可能线性可分。  所以SVM和RBF网络都试图把样本从低维空间映射到高维空间再进行分类。

  好笑的是,另一些方法则是把输入样本从高维降到低维后再进行分类或回归分析,如PCA、SOFM网络、LDA、谱聚类,它们认为样本在低维特征空间有更清晰的表达,更容易发现规律。

时间: 2024-10-24 09:19:09

机器学习方法总结的相关文章

机器学习方法--分类、回归、聚类

原创 2017-07-27 马文辉 MATLAB 作 者 简 介 马文辉,MathWorks中国应用工程师, 南开大学工学博士,在大数据处理与分析领域有多年研究与开发经验:曾就职于Nokia中国研究院,Adobe中国研发中心以及IBM中国. 近年来,全国赛的题目中,多多少少都有些数据,而且数据量总体来说呈不断增加的趋势, 这是由于在科研界和工业界已积累了比较丰富的数据,伴随大数据概念的兴起及机器学习技术的发展, 这些数据需要转化成更有意义的知识或模型. 所以在建模比赛中, 只要数据量还比较大,

常用机器学习方法总结

1.决策树算法 决策树是一种树形分类结构,一棵决策树由内部结点和叶子结点构成,内部结点代表一个属性(或者一组属性),该结点的孩子代表这个属性的不同取值:叶子结点表示一个类标.决策树保证每一个实例都能被一条从根结点到叶子结点的路径覆盖,叶子结点就是这条实例对应的类别,遍历这条路径的过程就是对这条实例分类的过程.关于决策树的详细介绍,可以参考这篇文章. 损失函数 假设决策树T的叶结点个数为|T|,t是树T的某个叶结点,该结点有$N_t$个样本点,其中k类的样本点有$N_{tk}$个,k=1,2,..

机器学习方法(五):逻辑回归Logistic Regression,Softmax Regression

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面介绍过线性回归的基本知识,线性回归因为它的简单,易用,且可以求出闭合解,被广泛地运用在各种机器学习应用中.事实上,除了单独使用,线性回归也是很多其他算法的组成部分.线性回归的缺点也是很明显的,因为线性回归是输入到输出的线性变换,拟合能力有限:另外,线性回归的目标值可以是(?∞,+∞),而有的时候,目标值的范围是[0,1](可以表示概率值),那么就不方便了. 逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就

机器学习方法(一):线性回归Linear regression

开一个机器学习方法科普系列,也做基础回顾之用.学而时习之. content: linear regression, Ridge, Lasso Logistic Regression, Softmax Kmeans, GMM, EM, Spectral Clustering Dimensionality Reduction: PCA.LDA.Laplacian Eigenmap. LLE. Isomap(修改前面的blog) SVM C3.C4.5 Apriori,FP PageRank minH

科学预测世界杯-采用机器学习方法

最近不管是在哪,世界杯永远是大家闲聊的话题.而随着互联网的发展,购买足彩越发便利和火爆了,体彩不像福彩,我们可以根据各个球队的情况做一些猜测.但作为一名看世界杯只记的住场边广告的伪球迷,也想凑热闹买一把,怎么才能保证在前面几次比赛的基础上,比较科学靠谱的预测比赛结果呢?做为一名略懂机器学习的伪球迷,当然要发挥学科的优势来凑凑热闹预测一下. 机器学习算法很多,我们分别实现了用SVM,神经网络,和KNN来预测.要用这些分类器首先要有训练和测试的数据,比赛进行到今天,我们已经积累了很多比赛的数据了,所

Stanford机器学习---第六讲. 怎样选择机器学习方法、系统

原文见http://blog.csdn.net/abcjennifer/article/details/7797502  添加了一些自己的注释和笔记 本栏目(Machine learning)包括单参数的线性回归.多参数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检测.大规模机器学习等章节.所有内容均来自Stand

机器学习方法:回归(一):线性回归Linear regression

开一个机器学习方法科普系列:做基础回想之用.学而时习之:也拿出来与大家分享.数学水平有限,仅仅求易懂,学习与工作够用.周期会比較长.由于我还想写一些其它的,呵呵. content: linear regression, Ridge, Lasso Logistic Regression, Softmax Kmeans, GMM, EM, Spectral Clustering Dimensionality Reduction: PCA.LDA.Laplacian Eigenmap. LLE. Is

美团网基于机器学习方法的POI品类推荐算法

美团网基于机器学习方法的POI品类推荐算法 前言 在美团商家数据中心(MDC),有超过100w的已校准审核的POI数据(我们一般将商家标示为POI,POI基础信息包括:门店名称.品类.电话.地址.坐标等).如何使用这些已校准的POI数据,挖掘出有价值的信息,本文进行了一些尝试:利用机器学习方法,自动标注缺失品类的POI数据.例如,门店名称为"好再来牛肉拉面馆"的POI将自动标注"小吃"品类. 机器学习解决问题的一般过程:本文将按照:1)特征表示:2)特征选择:3)基

机器学习方法的本质是什么?

机器学习方法本质上是人类认知方式的新世界,是人类的未来. 工业革命解放了人类的体力,以机器学习技术逐步解锁的人工智能革命将解放人类的脑力. 这不是技术层面上的进步,而是从根本上改变人类认知世界的方式. 长久以来,人类对事物的认知经由三个步骤:原始数据——专业知识/经验常识——认知. 这里的原始数据指得是可被人类感知到的一切客观存在之总体,既包括理工范畴内的计量数据,亦包括文史范畴内的事件与现象. 面对同样的原始数据(股市数据,仪表指数,社会现象等),拥有不同知识的人将得出不同的认知:同样,拥有相