对Logistic Regression 的初步认识

线性回归

回归就是对已知公式的未知参数进行估计。比如已知公式是y=a∗x+b，未知参数是a和b，利用多真实的(x,y)训练数据对a和b的取值去自动估计。估计的方法是在给定训练样本点和已知的公式后，对于一个或多个未知参数，机器会自动枚举参数的所有可能取值，直到找到那个最符合样本点分布的参数（或参数组合）。也就是给定训练样本，拟合参数的过程，对y= a*x + b来说这就是有一个特征x两个参数a b，多个样本的话比如y=a*x1+b*x2+...，用向量表示就是y = ，就是n个特征，n个参数的拟合问题（假设x0 与最后的偏置项写在一起）。

Logistic 回归

logistic回归的假设函数如下，线性回归假设函数只是。

Logistic regression （逻辑回归）是当前业界常用于分类的机器学习方法，用于估计某种事物的可能性。可以简单把这个模型想象为一个服从参数为θ的概率分布，给定向量x，得到的y值就是分布函数值，最后根据分布函数值的大小来判断分类的类别。

比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）

logistic为什么叫回归但是却用来分类呢，比如很多情况下，我们需要回归产生一个类似概率值的0~1之间的数值（比如某一双鞋子今天能否卖出去？或者某一个广告能否被用户点击? 我们希望得到这个数值来帮助决策鞋子上不上架，以及广告展不展示）。这个数值必须是0~1之间，但sell显然不满足这个区间要求。于是引入了Logistic方程，来做归一化。这里再次说明，该数值并不是数学中定义的概率值。那么既然得到的并不是概率值，为什么我们还要费这个劲把数值归一化为0~1之间呢？归一化的好处在于数值具备可比性和收敛的边界，这样当你在其上继续运算时（比如你不仅仅是关心鞋子的销量，而是要对鞋子卖出的可能、当地治安情况、当地运输成本等多个要素之间加权求和，用综合的加和结果决策是否在此地开鞋店时），归一化能够保证此次得到的结果不会因为边界太大/太小导致覆盖其他feature 或被其他feature覆盖。（举个极端的例子，如果鞋子销量最低为100，但最好时能卖无限多个，而当地治安状况是用0~1之间的数值表述的，如果两者直接求和治安状况就完全被忽略了）这是用logistic回归而非直接线性回归的主要原因。到了这里，也许你已经开始意识到，没错，Logistic Regression 就是一个被logistic方程归一化后的线性回归，仅此而已。

至于所以用logistic而不用其它，是因为这种归一化的方法往往比较合理（人家都说自己叫logistic了嘛呵呵），能够打压过大和过小的结果（往往是噪音），以保证主流的结果不至于被忽视。具体的公式及图形见本文的一、官方定义部分。其中f(X)就是我们上面例子中的sell的实数值了，而y就是得到的0~1之间的卖出可能性数值了。（本段 “可能性” 并非 “概率” ，感谢zjtchow同学在回复中指出）
Logistic Regression的适用性

1）可用于概率预测，也可用于分类。
并不是所有的机器学习方法都可以做可能性概率预测（比如SVM就不行，它只能得到1或者-1）。可能性预测的好处是结果又可比性：比如我们得到不同广告被点击的可能性后，就可以展现点击可能性最大的N个。这样以来，哪怕得到的可能性都很高，或者可能性都很低，我们都能取最优的topN。当用于分类问题时，仅需要设定一个阈值即可，可能性高于阈值是一类，低于阈值是另一类。
2）仅能用于线性问题
只有在feature和target是线性关系时，才能用Logistic Regression（不像SVM那样可以应对非线性问题）。这有两点指导意义，一方面当预先知道模型非线性时，果断不使用Logistic Regression；另一方面，在使用Logistic Regression时注意选择和target呈线性关系的feature。
3）各feature之间不需要满足条件独立假设，但各个feature的贡献是独立计算的。
逻辑回归不像朴素贝叶斯一样需要满足条件独立假设（因为它没有求后验概率）。但每个feature的贡献是独立计算的，即LR是不会自动帮你combine 不同的features产生新feature的 (时刻不能抱有这种幻想，那是决策树,LSA, pLSA, LDA或者你自己要干的事情)。举个例子，如果你需要TF*IDF这样的feature，就必须明确的给出来，若仅仅分别给出两维 TF 和 IDF 是不够的，那样只会得到类似 a*TF + b*IDF 的结果，而不会有 c*TF*IDF 的效果。

参考：

http://blog.sina.com.cn/s/blog_890c6aa301015mya.html

时间： 2024-10-16 05:09:46

对Logistic Regression 的初步认识

对Logistic Regression 的初步认识的相关文章

Coursera机器学习-第三周-逻辑回归Logistic Regression

机器学习实战四（Logistic Regression）

Logistic Regression & Classification (1)

Coursera台大机器学习课程笔记9 -- Logistic Regression

logistic regression编程练习

最详细的基于R语言的Logistic Regression（Logistic回归）源码，包括拟合优度，Recall，Precision的计算

深度学习 Deep LearningUFLDL 最新Tutorial 学习笔记 2：Logistic Regression

Regularization in Linear Regression & Logistic Regression

Logistic Regression‘s Cost Function & Classification (2)