分类算法是一种在专家指导下的,有监督的数据挖掘方法,其种类很多,包括:
传统方法:线性判别法、距离判别法、贝叶斯分类器;
现代方法:决策树、神经网络ANN、支持向量机SVM;
1、决策树
决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的实例中,推理出以决策树表示的分类规则。
2、贝叶斯
贝叶斯(Bayes)分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayes)算法
这些算法主要利用Bayes定理,来预测一个未知类别的样本属于各个类别的可能性,选择其中可能性最大的一个类别作为该样本的最终类别。
由于贝叶斯定理的成立,本身需要一个很强的条件独立性假设前提,而此假设在实际情况中,经常是不成立的,因而其分类准确性就会下降。
为此就出现了许多降低独立性假设的贝叶斯分类算法,如TAN(Tree Augmented Naive Bayes)算法,它是在贝叶斯网络结构的基础上,增加属性对之间的关联来实现的。
3、人工神经网络ANN
人工神经网络,是一种应用类似于大脑神经突触联接的结构,进行信息处理的数学模型。
在这种模型中,大量的节点(或称”神经元”,或”单元”)之间相互联接构成网络,即”神经网络”,以达到处理信息的目的。
神经网络通常需要进行训练,训练的过程就是网络进行学习的过程。
训练改变了网络节点的连接权的值使其具有分类的功能,经过训练的网络就可用于对象的识别。
神经网络已有上百种不同的模型,常见的有BP网络、径向基RBF网络、Hopfield网络、随机神经网络(Boltzmann机)、竞争神经网络(Hamming网络,自组织映射网络)等。
4、kNN(k-近邻)
k-近邻(kNN,k-Nearest Neighbors)算法是一种基于实例的分类方法。
该方法就是找出与未知样本x,距离最近的k个训练样本,看这k个样本中多数属于哪一类,就把x归为哪一类。
k-近邻方法是一种懒惰学习方法,它存放样本,直到需要分类时才进行分类,如果样本集比较复杂,可能会导致很大的计算开销,因此无法应用到实时性很强的场合。
5、支持向量机SVM
支持向量机(SVM,Support Vector Machine)是Vapnik根据统计学习理论,提出的一种新的学习方法。
支持向量机(SVM,Support Vector Machine)的最大特点是:
根据结构风险最小化准则,以最大化分类间隔,构造最优分类超平面,来提高学习机的泛化能力,较好地解决了非线性、高维数、局部极小点等问题。
对于分类问题,支持向量机算法根据区域中的样本,计算该区域的决策曲面,由此确定该区域中未知样本的类别。
在没有更多背景信息给出时,如果追求预测的准确程度,一般用支持向量机(SVM),如果要求模型可以解释,一般用决策树。