Softmax回归（Softmax Regression）

转自：http://www.cnblogs.com/BYRans/

多分类问题

在一个多分类问题中，因变量y有k个取值，即。例如在邮件分类问题中，我们要把邮件分为垃圾邮件、个人邮件、工作邮件3类，目标值y是一个有3个取值的离散值。这是一个多分类问题，二分类模型在这里不太适用。

多分类问题符合多项分布。有许多算法可用于解决多分类问题，像决策树、朴素贝叶斯等。这篇文章主要讲解多分类算法中的Softmax回归（Softmax Regression)

推导思路为：首先证明多项分布属于指数分布族，这样就可以使用广义线性模型来拟合这个多项分布，由广义线性模型推导出的目标函数即为Softmax回归的分类模型。

证明多项分布属于指数分布族

多分类模型的输出结果为该样本属于k个类别的概率，从这k个概率中我们选择最优的概率对应的类别（通常选概率最大的类别），作为该样本的预测类别。这k个概率用k个变量，…，表示。这个k变量和为1，即满足：

可以用前k-1个变量来表示，即：

使用广义线性模型拟合这个多分类问题，首先要验证这个多项分布是否符合一个指数分布族。定义T(y)为：

在这里，统计分量T(y)并没有像之前那样定义为T(y)=y，因为T(y)不是一个数值，而是一个k-1维的向量。使用符号表示向量T(y)的第i个元素。

在这里引入一个新符号：，如果括号内为true则这个符号取1，反之取0，即，。所以，T(y)与y的关系就可以表示为

与关系为：

即：

多项分布表达式转化为指数分布族表达式过程如下：

其中：

变换过程：

第一步：取值为，…，中的一个，取决于y的取值。当y=i时，这一步可以理解为

第二步：消去

第三步：根据

第四、五步：转换为广义线性模型的表达格式。

多项分布表达式可以表示为指数分布族表达式的格式，所以它属于指数分布族，那么就可以用广义线性模型来拟合这个多项式分布模型。

Softmax函数（Softmax Function）

在使用广义线性模型拟合这个多项式分布模型之前，需要先推导一个函数，这个函数在广义线性模型的目标函数中会用到。这个函数称为Softmax函数（Softmax Function）。

由η表达式可得：

这是关于的表达式，把它转化为关于的表达式过程为：

为了方便，令，那么

因为：

所以：

这个关于的的函数称为Softmax函数（Softmax Function）。

使用广义线性构建模型

根据广义线性模型的假设3:

θ是模型中的参数，为了符号上的方便我们定义，所以

所以模型在给定x的条件下y的分布为：

上面的表达式求解的是在y=i时的概率。在Softmax回归这个广义线性模型中，目标函数是：

Softmax回归目标函数的输出是k个概率，即其中i=1,2,…,k(虽然输出的是k-1个值，但是第k个值可以由求出），求解了这个目标函数，我们就构造出了分类模型。

目标函数推导过程如下：

现在求解目标函数还差最后一步：参数拟合的问题。跟我们之前的参数拟合方法类似，我们有m个训练样本，θ的似然函数为：

最大化似然函数来求解最优的参数θ，可以使用梯度上升或者牛顿方法。

求解了最优的参数θ后，就可以使用目标函数进行分类。使用函数进行多分类的方式就叫Softmax回归（Softmax Regression)

Softmax回归 VS k个二元分类器

　　如果你在开发一个音乐分类的应用，需要对k种类型的音乐进行识别，那么是选择使用softmax分类器呢，还是使用logistic回归算法建立 k个独立的二元分类器呢？

　　这一选择取决于你的类别之间是否互斥，例如，如果你有四个类别的音乐，分别为：古典音乐、乡村音乐、摇滚乐和爵士乐，那么你可以假设每个训练样本只会被打上一个标签（即：一首歌只能属于这四种音乐类型的其中一种），此时你应该使用类别数 k = 4 的softmax回归。（如果在你的数据集中，有的歌曲不属于以上四类的其中任何一类，那么你可以添加一个“其他类”，并将类别数 k 设为5。）

　　如果你的四个类别如下：人声音乐、舞曲、影视原声、流行歌曲，那么这些类别之间并不是互斥的。例如：一首歌曲可以来源于影视原声，同时也包含人声。这种情况下，使用4个二分类的logistic回归分类器更为合适。这样，对于每个新的音乐作品，我们的算法可以分别判断它是否属于各个类别。

时间： 2024-12-19 11:46:49

Softmax回归（Softmax Regression）的相关文章

Softmax回归(Softmax Regression, K分类问题)

Softmax回归:K分类问题, 2分类的logistic回归的推广.其概率表示为: 对于一般训练集: 系统参数为: Softmax回归与Logistic回归的关系当Softmax回归用于2分类问题,那么可以得到: 令θ=θ0-θ1,就得到了logistic回归.所以实际上logistic回归虽然有2个参数向量,但这2个参数向量可以退化到1个参数向量.推广到K个类别,那么就需要K-1个参数向量参数求解类似于logistic regression,求最大似然概率,有: 其中1{k=y}为真值

机器学习 —— 基础整理（五）：线性回归；二项Logistic回归；Softmax回归；广义线性模型

本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型二项Logistic回归是我去年入门机器学习时学的第一个模型,我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开的地方).比较有意思的是那时候还不会矩阵微积分,推导梯度时还是把矩阵全都展开求的(牛顿法要用的二阶梯度也是)... 下面的文字中,"Logistic回归"都表示用于二分类的二项Logistic回归. 首先约定一下记号

Machine Learning 学习笔记 (3) —— 回归问题深入：泊松回归与Softmax回归

本系列文章允许转载,转载请保留全文! [总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 泊松回归 (Poisson Regression) 在生活中,经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模,例如癌症.火灾等. 假设向量x表示引起这一事件发生的因素,向量θ表示因素的权重,则使用hθ(x)=exp(θTx)表示事件发生次数的期望.θTx位于指数位置,意味着其每增加1个单位,将导至事件发生次数的期望值翻倍. 此时,因变量

02-13 Softmax回归

目录 Softmax回归一.Softmax回归详解 1.1 让步比 1.2 不同类之间的概率分布 1.3 目标函数 1.4 目标函数最大化二.Softmax回归优缺点 2.1 优点 2.2 缺点更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ Softmax回归 Softmax回归属于多分类\(c_1,c_2,\ldots,c_k\)模型,它通过估计某个样本属于\

机器学习方法（五）：逻辑回归Logistic Regression，Softmax Regression

技术交流QQ群:433250724,欢迎对算法.技术.应用感兴趣的同学加入. 前面介绍过线性回归的基本知识,线性回归因为它的简单,易用,且可以求出闭合解,被广泛地运用在各种机器学习应用中.事实上,除了单独使用,线性回归也是很多其他算法的组成部分.线性回归的缺点也是很明显的,因为线性回归是输入到输出的线性变换,拟合能力有限:另外,线性回归的目标值可以是(?∞,+∞),而有的时候,目标值的范围是[0,1](可以表示概率值),那么就不方便了. 逻辑回归可以说是最为常用的机器学习算法之一,最经典的场景就

ufldl学习笔记与编程作业：Softmax Regression（softmax回归）

ufldl出了新教程,感觉比之前的好,从基础讲起,系统清晰,又有编程实践. 在deep learning高质量群里面听一些前辈说,不必深究其他机器学习的算法,可以直接来学dl. 于是最近就开始搞这个了,教程加上matlab编程,就是完美啊. 新教程的地址是:http://ufldl.stanford.edu/tutorial/ 本节学习链接:http://ufldl.stanford.edu/tutorial/supervised/SoftmaxRegression/ softmax回归其实是逻

DeepLearning tutorial（1）Softmax回归原理简介+代码详解

DeepLearning tutorial(1)Softmax回归原理简介+代码详解 @author:wepon @blog:http://blog.csdn.net/u012162613/article/details/43157801 本文介绍Softmax回归算法,特别是详细解读其代码实现,基于python theano,代码来自:Classifying MNIST digits using Logistic Regression,参考UFLDL. 一.Softmax回归简介关于算法的详

1.线性回归、Logistic回归、Softmax回归

本次回归章节的思维导图版总结已经总结完毕,但自我感觉不甚理想.不知道是模型太简单还是由于自己本身的原因,总结出来的东西感觉很少,好像知识点都覆盖上了,但乍一看,好像又什么都没有.不管怎样,算是一次尝试吧,慢慢地再来改进.在这里再梳理一下吧! 线性回归(Linear Regression) 什么是回归? 给定一些数据,{(x1,y1),(x2,y2)-(xn,yn) },x的值来预测y的值,通常地,y的值是连续的就是回归问题,y的值是离散的就叫分类问题. 高尔顿的发现,身高的例子就是回归的典型模型

DeepLearning (四) 基于自编码算法与softmax回归的手写数字识别

[原创]Liu_LongPo 转载请注明出处 [CSDN]http://blog.csdn.net/llp1992 softmax 回归模型,是logistic 回归模型在多分类问题上的推广.关于logistic回归算法的介绍,前面博客已经讲得很清楚,详情可以参考博客机器学习实战ByMatlab(五)Logistic Regression 在logistic回归模型中,我们的激励函数sigmoid的输入为: z=θ0x0+θ1x1+θ2x2+...+θnxn 则可以得到假设函数为: hθ(x)

猜你喜欢

mysql之 double write 浅析

http://blog.itpub.net/22664653/viewspace-1140915/ 介绍double write之前我们有必要了解partial page write 问题 : ...

Search in Rotated Sorted Array

Suppose a sorted array is rotated at some pivot unknown to you beforehand. (i.e., 0 1 2 4 5 6 7 migh ...

Linux3：more、which、find、chmod、tar、diff、grep、ps、netstat、uname

more 类似cat,不过more不是将整个文件内容从上到下显示在屏幕上的,而是以一页一页的显示方便使用者逐页阅读.more最基本的指令就是space即往下翻一页,b即往回翻一页显示,而且还有搜索字符 ...

sql 索引的建立

(From:http://54laobaixing.blog.163.com/blog/static/57843681200952411133121/) 假设你想找书中的某一个句子.你可以一页一页地逐 ...

图算法之拓扑排序

拓扑排序是对有向无圈图的顶点的一种排序,它使得如果存在一条从vi到vj的路径,那么在排序中Vj出现在Vi后面.一个简单的求拓扑排序的算法是先找出任意一个没有入边的顶点,然后我们显示该顶点,并将它和它的 ...

AOV网

1.定义用顶点表示活动,用有向边<Vi, Vj>表示活动间的优先关系. Vi必须先于活动Vj进行. 这种有向图叫做顶点表示活动的AOV网络(Activity On Vertices) 2 ...

C#动态加载/卸载Assembly的解决方案

1. Assembly中的类要从MarshalByRefObject继承,如果你想从你自己的类来继承,那么请选用interface或者继续研究其他解决方案. namespace Library { ...

我心中的怀念：火星人

刚才,我写完了火星人的真实故事(1)至(12),心中有所感悟. 火星人具有虚拟的人格和法人的实体.二十年前,在北京大学校园的氛围中,火星人诞生了. 老实说,火星人是一个思想的"创造物&quo ...

WebDav协议基于HTTP 1

首先第一篇提供配置WebDav的方式网上找了两篇比较好的配置方式分别适用于Win7 Win2003,而且都经过测试配置可以正常使用原文中保留了引用地址,这个纯属为了要尊重别人的劳动成果在第二篇中 ...

Chrome 35个开发者工具的小技巧

来源:w3cplus - 南北(@ping4god) 网址:http://www.w3cplus.com/tools/dev-tips.html 谷歌浏览器如今是Web开发者们所使用的最流行的网页浏览 ...

预习（集合特殊集合）

system.collection 命名空间,接口和类对象(列表.列队.位数组.哈希表和字典) arraylist 用到queue队列集合,stack栈集合,哈希表集合 arrylist ...

Android 限制只输入某些值包括数字、字母等

限制只输入某些值包括数字.字母等 android:digits="0123456789abcdefghigklmnopqrstuvwxyz" 上面这行代码可以是你任何的限制,只能输 ...

深谙赋能之道，美团点评如何构建生活服务终极蓝图？

好莱坞大片里有不少关于终极的定义,例如即将上映的<猩球崛起3:终极之战>就在预告里定义了终极的含义:特效惊人和主角凯撒即将大反攻.而在<终结者>系列中,施瓦辛格正是依靠不断的进 ...

回调函数的使用场合

资源加载: 动态加载js文件后执行回调,加载iframe后执行回调,ajax操作回调,图片加载完成执行回调,AJAX等等. DOM事件及Node.js事件基于回调机制(Node.js回调可能会出现多层 ...

字符流查看txt文件

import java.io.FileNotFoundException;import java.io.FileReader;import java.io.IOException; public cl ...

多线程工具之NSThread

一个NSThread对象就是一个线程 1.创建线程类存储在堆内存中,对象存储在栈内存中 / / 是否是多线程 [NSThread isMultiThreaded] //是否是主线程 [NSThr ...

问题：ExecuteNonQuery 与 ExecuteScalar 结果： ExecuteNonQuery方法和ExecuteScalar方法的区别

ExecuteNonQuery方法和ExecuteScalar方法的区别 ----ExecuteNonQuery():执行命令对象的SQL语句,返回一个int类型变量,如果SQL语句是对数据库的记录进 ...

效果: 系统的NSError是可以自己定制的,以下提供代码来实现并表示如何使用: YXError.h 与 YXError.m // // YXError.h // CustomYXError // / ...

APUE 学习笔记(三) 文件和目录

1. 文件类型,文件类型信息包含在 struct stat 里的 st_mode 成员 (1)普通文件,unix内核并不区分文本文件和二进制文件 (2)目录文件,这种文件包含了其他文件的名字以及指向这 ...

Qt读写二进制文件

http://blog.csdn.net/mjlsuccess/article/details/22194653 http://www.cnblogs.com/weiweiqiao99/archive ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.023 s.