复习机器学习算法:线性回归

Logistic回归用来分类,线性回归用来回归。

线性回归是把让样本的属性前面加系数,相加。代价函数是误差平方和形式。所以,在最小化代价函数的时候,可以直接求导,令导数等于0,如下:

也可以使用梯度下降法,学习的梯度和Logistic回归形式一样。

线性回归的优点:计算简单。

缺点:不好处理非线性数据。

时间: 2024-08-28 16:49:47

复习机器学习算法:线性回归的相关文章

机器学习算法 --- 线性回归

一.线性回归算法的简介 线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛.其表达形式为y = w'x+e,e为误差服从均值为0的正态分布. 回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析.如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析. 本文主要介绍线性回归算法的演绎推导,关于线性回归的详细介绍请参阅线性回归在百度百科中的介

复习机器学习算法:Logistic 回归

区别于线性回归,不是把每个特征直接乘以系数,而是用一个S型函数(Logistic函数).如下: 使用这种形式函数的原因(概率.求导). 代价函数,也不是线性回归中的误差平方和,而是基于对数似然函数,如下: 单个样本的后验概率为:(y = 0, 1) 类似于二项分布的概率密度函数. 整个样本集的后验概率: 对数似然函数对于代价函数,如下: 梯度下降法求解,对上面的代价函数求导,如下: 误差乘以对应的属性值,再求和.形式和线性回归一致,解释了为何设计这样的S型函数和代价函数.这样的梯度下降法的计算量

复习机器学习算法:贝叶斯分类器

朴素贝叶斯算法是寻找一个极大后验假设(MAP),即候选假设的最大后验概率. 如下: 在朴素贝叶斯分类器中,假设样本特征之间是独立的,则有: 计算每个假设的后验概率,选出最大的概率,对应的类别就是样本的分类结果. 优缺点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练.当时,需要样本的特征之间独立性较高,不能有太多的相关性.对输入数据的表达形式很敏感. 还有,当样本中某个特征在该类别中出现次数为0,即P(ai |vj)=0, 导致上式的分子全部为0. 这个时候需要使用m-估计和贝叶斯结合

复习机器学习算法:SVM

SVM的本质是寻找最大间隔的分割超平面. SVM的假设也是在样本的每个属性前面乘以一个系数,代价函数是基于LR演化而来的.LR中是S型函数的假设,SVM中是分段函数cost的形式,再包括正则项,最后SVM的代价函数为: 当C一般要设置地很大,这样子的SVM才能够找到最大间隔的超平面,thetaT*x>=1或者thetaT*x<=-1的时候,我们可以把第一项忽略.这样,转换之后的SVM的目标函数就是我们熟悉的: 我们构建拉格朗日函数: 分别对w和b求偏导,令偏导等于0,回代,可以得到w和b的最优

复习机器学习算法:Boosting

Boosting的思想是集成学习,把许多个弱分类器结合起来,构成一个强分类器. 首先输入原始的训练样本,得到一个弱分类器,可以知道它的正确率和错误率.计算该弱分类器的权重,如下: 然后提高错误分类样本的权重,让后面的分类器focus它们,调整样本的权重: 如果原本分类正确: 如果样本分类错误: 把新的样本输入到后面学习,重复这个过程,得到许多个弱分类器,及其分类器的权重. 注意,Boosting算法中有两个权重,一个是分类器的权重,一个是样本的权重. Boosting算法的优点:性能好,可以防止

复习机器学习算法:决策树

决策树就是不断选择信息增益最大的属性,进行分类. 核心部分是使用信息增益判断属性的分类性能.信息增益计算如下: 信息熵: 允许有多个类别. 计算所有属性的信息增益,选择最大的作为决策树的根节点.然后,样本分枝,继续判断剩余的属性的信息增益. 信息增益有缺点:信息增益偏袒具有较多值的属性.分裂信息,用增益比率作为衡量标准,如下: 决策树的优点:对于有缺省特征的样本,也能够分类:允许样本特征有一定的错误,鲁棒性好. 缺点:容易过拟合,生成的树太大.(可以使用提前停止树的生长:剪枝:随机森林等方法避免

机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)

本文介绍了机器学习中基本的优化算法-梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有样本的特征向量组成的矩阵 x(i) 是第i个样本包含的所有特征组成的向量x(i)=(x(i)1,x(i)2...,x(i)n) y(i) 第i个样本的label,每个样本只有一个label,y(i)是标量(一个数值) hθ(x(i)) :拟合函数,机器学习中可以用多种类型的拟合函数 θ 是函数变量,

机器学习——简单线性回归(原理推导+算法描述+代码实现)

实验环境:Python 3.6 编辑器:Jupyter Notebook 6.0.1 实验要求:可以调用numpy.pandas基础拓展程序包,不可以调用sklearn机器学 ——————————————————我是分割线喵———————————————————— ————————————(如果想要代码可以直接下拉到最后)———————————— 线性模型的一般形式:   向量形式: 线性模型的优点: 1.形式简单.易于建模 2.可解释性 3.是非线性模型的基础,可以在线性模型的基础上引入层级结

机器学习系列(9)_机器学习算法一览(附Python和R代码)

本文资源翻译@酒酒Angie:伊利诺伊大学香槟分校统计学同学,大四在读,即将开始计算机的研究生学习.希望认识更多喜欢大数据和机器学习的朋友,互相交流学习. 内容校正调整:寒小阳 && 龙心尘 时间:2016年4月 出处:http://blog.csdn.net/han_xiaoyang/article/details/51191386 http://blog.csdn.net/longxinchen_ml/article/details/51192086 声明:版权所有,转载请联系作者并注