分类、标注与回归

机器学习算法 原理、实践与实战 —— 分类、标注与回归

1. 分类问题

分类问题是监督学习的一个核心问题。在监督学习中,当输出变量$Y$取有限个离散值时,预测问题便成为分类问题。

监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称为分类。

分类问题包括学习与分类两个过程。在学习的过程中,根据已知的训练样本数据集利用有效的学习方法学习一个分类器;在分类中,利用学习的分类器对新的输入实例进行分类。

对于训练数据集$(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)$,学习系统将学习一个分类器$P(Y|X)$或$Y=f(X)$;分类系统通过学到的分类器$P(Y|X)$或$Y=f(X)$对于新的输入实例$x_{N+1}$进行分类,即预测其输出的类标记$y_{N+1}$。

评价分类器性能的指标一般是分类的准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。

对于二分类问题常用的评价指标是精确率(precision)与召回率(recall)。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:

  • TP —— 将正类预测为正类的数量;
  • FN —— 将正类预测为负类的数量;
  • FP —— 将负类预测为正类的数量;
  • TN —— 将负类预测为负类的数量;

精确率定义为:

$$P = \frac{TP}{TP+FP}$$

召回率定义为:

$$R = \frac{TP}{TP+FN}$$

此外,还有一个$F_1$值,是精确率和召回率的调用均值,即

$$\frac{2}{F_1} = \frac{1}{F}+\frac{1}{R}$$

$$F_1 = \frac{2TP}{2TP+FP+FN}$$

精确率真和召回率都高时,$F_1$也会高。

许多的机器学习方法可以用来解决分类问题,包括$k$近邻法、感知机、朴素贝叶斯法、决策树、逻辑斯谛回归模型、SVM、adaBoost、贝叶斯网络、神经网络等。

比如一个文本内容分类的例子。文本分类是根据文本的特征将其划分到已有的类中。输入是文本的特征向量,输出是文本的类别。通常把文本中的单词定义为特征,每个单词对应一个特征。单词的特征可以是二值的:如果单词在文本中出现则取值1,否则是0;也可以是多值的,表示单词在文本中出现的频率。形象地,如果“股票”“银行”“货币”这些词出现很多,这个文本可能属于经济类,如果“网球”“比赛”“运动员”这些词频繁出现,这个文本可能属于体育类。

2. 标注问题

标注问题也是一个监督学习问题。可以认为标记问题是分类问题的一个推广。

标注问题的输入是一个观测序列,输出的是一个标记序列或状态序列。也就是说,分类问题的输出是一个值,而标注问题输出是一个向量,向量的每个值属于一种标记类型。

标注问题也可以分为两步:学习和标注两个过程。首先给定一个训练数据集

$$T = (x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)$$

这里,$x_i = (x_i^{(1)},x_i^{(2)},\dots,x_i^{(n)})^T,i = 1,2,\dots,N$是输入观测序列,$y_i = (y_i^{(1)},y_i^{(2)},\dots,y_i^{(n)})^T$是相应的输出标记序列,$n$是序列的长度,对于不同样本可以有不同的值。学习系统基于训练数据集构建一个模型,表示为条件概率分布:

$$P(Y^{(1)},Y^{(2)},\dots,Y^{(n)}|X^{(1)},X^{(2)},\dots,X^{(n)})$$

这里,每一个$X^{(i)}(i=1,2,\dots,N)$取值为所有可能的观测,每一个$Y^{(i)}(i=1,2,\dots,N)$取值为所有可能的标记,一般$n \ll N$。标注系统按照学习得到的条件概率分布模型,对新的输入观测序列找到相应的输出标记序列。具体地,对一个观测序列$x_{N+1} = (x_{N+1}^{(1)},x_{N+1}^{(2)},\dots,x_{N+1}^{(n)})^T$找到使条件概率$P(y_{N+1}^{(1)},y_{N+1}^{(2)},\dots,y_{n+1}^{(n)}|x_{N+1}^{(1)},x_{N+1}^{(2)},\dots,x_{N+1}^{(n)})$最大的标记序列$y_{N+1} = (y_{N+1}^{(1)},y_{N+1}^{(2)},\dots,y_{N+1}^{(n)})^T$。

评价标注模型的指标与评价分类的模型指标一样,常用的有标注准确率、精确率和召回率等。

标注常用的机器学习方法有:隐性马尔可夫模型、条件随机场。

自然语言处理中的词性标注(part of speech tagging)就是一个典型的标注问题:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。

3. 回归问题

回归问题也属于监督学习中的一类。回归用于预测输入变量与输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。

回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线,使其很好地拟合已知数据且很好地预测未知数据。

回归问题按照输入变量的个数,可以分为一元回归和多元回归;按照输入变量与输出变量之间关系的类型,可以分为线性回归和非线性回归。

回归学习最常用的损失函数是平方损失,在此情况下,回归问题可以由著名的最小二乘法求解。

一个回归学习用于股票预测的例子:假设知道一个公司在过去不同时间点的市场上的股票价格(或一段时间的平均价格),以及在各个时间点之间可能影响该公司股份的信息(比如,公司前一周的营业额)。目标是从过去的数据学习一个模型,使它可以基于当前的信息预测该公司下一个时间点的股票价格。具体地,将影响股价的信息视为自变量(输入特征),而将股价视为因变量(输出的值)。将过去的数据作为训练数据,就可以学习一个回归模型,并对未来股份进行预测。实际我们知道想做出一个满意的股价预测模型是很难的,因为影响股份的因素非常多,我们未必能获得那些有用的信息。

时间: 2024-10-10 03:34:18

分类、标注与回归的相关文章

第二章 分类和逻辑回归

分类和逻辑回归 接下来讨论分类问题,类似于回归问题,只不过y的值只有少数离散的值.现在我们考虑二分类问题,此时y只有0和1两个值. 逻辑回归 构造假设函数$h_{\theta}(x)$: $h_{\theta}(x)=g(\theta^{(x)})=\frac{1}{1+e^{-\theta^{T}x}}$ 其中 $g(z)=\frac{1}{1+e^{-z}}$ $g^{'}(z)=g(z)(1-g(z))$ $g(z)$函数图像如下: $g^{'}(z)$函数图像如下: 假设: $P(y=1

机器学习(一)——线性回归、分类与逻辑回归

http://antkillerfarm.github.io/ 序 这是根据Andrew Ng的<机器学习讲义>,编写的系列blog. http://www.cnblogs.com/jerrylead/archive/2012/05/08/2489725.html 这是网友jerrylead翻译整理的版本,也是本文的一个重要的参考. http://www.tcse.cn/~xulijie/ 这是jerrylead的个人主页. 我写的版本在jerrylead版本的基础上,略有增删,添加了一下其他

分类和逻辑回归(Classification and logistic regression),广义线性模型(Generalized Linear Models) ,生成学习算法(Generative Learning algorithms)

分类和逻辑回归(Classification and logistic regression) http://www.cnblogs.com/czdbest/p/5768467.html 广义线性模型(Generalized Linear Models) http://www.cnblogs.com/czdbest/p/5769326.html 生成学习算法(Generative Learning algorithms) http://www.cnblogs.com/czdbest/p/5771

机器学习经典算法详解及Python实现--CART分类决策树、回归树和模型树

摘要: Classification And Regression Tree(CART)是一种很重要的机器学习算法,既可以用于创建分类树(Classification Tree),也可以用于创建回归树(Regression Tree),本文介绍了CART用于离散标签分类决策和连续特征回归时的原理.决策树创建过程分析了信息混乱度度量Gini指数.连续和离散特征的特殊处理.连续和离散特征共存时函数的特殊处理和后剪枝:用于回归时则介绍了回归树和模型树的原理.适用场景和创建过程.个人认为,回归树和模型树

【机器学习算法应用和学习_2_理论篇】2.2 M_分类_逻辑回归

一.原理阐述 算法类型:监督学习_分类算法 输入:数值型或标称型(标称型需要独热编码) V1.0 用回归方式解决二分类问题,通过引入一个Sigmoid函数将中间y值映射到实际二分类的y值上. 二.算法选择 三.算法过程 1.Sigmoid函数是一个x值域是(-∞,+∞),y值域是(0,1)的单调递增函数: 2.预测y值>0.5为1类,<0.5为0类,y值也可以解释为为1和0类的概率: 3.同样使用“最小二乘”概念,求得最佳方程,得到目标函数: 4.要使得目标函数达到最小,需要采用一种称为“梯度

机器学习的分类方法——逻辑回归

这个算法看得一知半解的,无论如何,先把理解的写下来,往后再迭代.还是以问题为导向: 这个分类模型如何构建? 这个模型的分类原理? 如何求解模型的参数? 逻辑回归模型有什么优点? 第一个问题,对于简单的线性模型,z=w·x+b,可以用它回归,然后利用最小二乘法求解参数w和b.当这个线性模型和sigmoid函数复合时,就构成了逻辑回归模型.对于sigmoid函数,如下图:其将z(图中的x替换为z) 第二个问题,根据对"事件几率"的定义:给事件发生与不发生的概率比,

分类和逻辑回归(Classification and logistic regression)

分类问题和线性回归问题问题很像,只是在分类问题中,我们预测的y值包含在一个小的离散数据集里.首先,认识一下二元分类(binary classification),在二元分类中,y的取值只能是0和1.例如,我们要做一个垃圾邮件分类器,则为邮件的特征,而对于y,当它1则为垃圾邮件,取0表示邮件为正常邮件.所以0称之为负类(negative class),1为正类(positive class) 逻辑回归 首先看一个肿瘤是否为恶性肿瘤的分类问题,可能我们一开始想到的是用线性回归的方法来求解,如下图:

【机器学习笔记四】分类算法 - 逻辑回归

参考资料 [1]    Spark MLlib 机器学习实践 [2]    统计学习方法 1.Logistic分布 设X是连续随机变量,X服从Logistic分布是指X具有下列分布函数和密度函数 ,.其中u为位置参数,γ为形状参数.如下图: 分布函数以(u,1/2)为中心对称,满足:,其中形状参数γ越小,中心部分增加越快. 2.Logistic回归模型 二项logistic回归模型是一种分类模型,由条件概率P(Y|X)表示,这里随机变量X取实数,而Y取0或者1.定义: 和 Logistic回归比

分类预测与回归模型介绍

1.分类与预测 分类与预测是预测问题的两种主要类型: 分类主要是:预测分类标号(离散属性): 预测主要是:建立连续值函数模型,预测给定自变量对应的因变量的值. 实现过程 (1)分类 分类是构造一个分类模型,输入样本属性值,输出对应类别,将每个样本映射到预先定义好的类别. 分类模型,建立在已有类标记的数据集上,因此,属于“有监督学习” (2)预测 预测,指建立两种或两种以上变量间相互依赖的函数模型,进行预测或控制 (3)实现过程 分类算法: a:学习步,通过归纳分析训练样本集建立分类模型得到分类规