【吴恩达机器学习】学习笔记——2.7第一个学习算法=线性回归+梯度下降

梯度下降算法:              线性回归模型:

      线性假设:

                     平方差成本函数:

将各个公式代入,对θ0、θ1分别求偏导得:

再将偏导数代入梯度下降算法,就可以实现寻找局部最优解的过程了。

线性回归的成本函数总是一个凸函数,故梯度下降算法执行后只有一个最小值。

”梯度下降:每一个步骤都使用所有的训练样本

原文地址:https://www.cnblogs.com/JJJanepp/p/8454834.html

时间: 2024-08-10 15:40:42

【吴恩达机器学习】学习笔记——2.7第一个学习算法=线性回归+梯度下降的相关文章

吴恩达“机器学习”——学习笔记五

朴素贝叶斯算法(Naive Bayes)(续学习笔记四) 两个朴素贝叶斯的变化版本 x_i可以取多个值,即p(x_i|y)是符合多项式分布的,不是符合伯努利分布的.其他的与符合伯努利的情况一样.(同时也提供一种思路将连续型变量变成离散型的,比如说房间的面积可以进行离散分类,然后运用这个朴素贝叶斯算法的变形). 第二个朴素贝叶斯的变化形式专门用来处理文本文档,即对序列进行分类,被称为朴素贝叶斯的事件模型(event model).这将使用一种不同的方式将邮件转化为特征向量. 之前的特征向量是:向量

吴恩达“机器学习”——学习笔记二

定义一些名词 欠拟合(underfitting):数据中的某些成分未被捕获到,比如拟合结果是二次函数,结果才只拟合出了一次函数. 过拟合(overfitting):使用过量的特征集合,使模型过于复杂. 参数学习算法(parametric learning algorithms):用固定的参数进行数据的拟合.比如线性回归. 非参数学习算法(non-parametric learning algorithms):使用的参数随着训练样本的增多而增多. 局部加权回归(locally weighted r

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周

一.逻辑回归问题(分类问题) 生活中存在着许多分类问题,如判断邮件是否为垃圾邮件:判断肿瘤是恶性还是良性等.机器学习中逻辑回归便是解决分类问题的一种方法.二分类:通常表示为y?{0,1},0:"Negative Class",1:"Possitive Class". 逻辑回归的预测函数表达式hθ(x)(hθ(x)>=0 && hθ(x)<=1): 其中g(z)被称为逻辑函数或者Sigmiod函数,其函数图形如下: 理解预测函数hθ(x)的

吴恩达机器学习笔记-第三周

六.逻辑回归 6.1 分类问题 对于二分类问题, 我们一般将结果分为0/1,在理解逻辑回归时可以引入感知机,感知机算是很早的分类器,但因为感知机是分布函数,也就是输出的值小于某一临界值,则分为-1,大于某一临界值,则分为1,但由于其在临界点处不连续,因此在数学上不好处理,而且感知机分类比较粗糙,无法处理线性不可分的情况,因此引入了逻辑回归,逻辑回归相当于用一个逻辑函数来处理回归的值,导致最终输出的值在[0, 1]范围内,输入范围是?∞→+∞,而值域光滑地分布于0和1之间. 小于0.5的分为0类,

【吴恩达机器学习随笔】什么是机器学习?

定义 Tom Mitchell对机器学习定义为"计算机从经验E中学习,解决某一任务T,进行某一度量P,通过P测定在T上的表现因经验E而提高".定义个人觉得大体理解即可,如果扣文咬字去理解会十分痛苦,就不做过多解释了. 原文:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its perform

【吴恩达机器学习】学习笔记——2.1单变量线性回归算法

1 回顾1.1 监督学习定义:给定正确答案的机器学习算法分类:(1)回归算法:预测连续值的输出,如房价的预测(2)分类算法:离散值的输出,如判断患病是否为某种癌症1.2 非监督学习定义:不给定数据的信息的情况下,分析数据之间的关系.聚类算法:将数据集中属性相似的数据点划分为一类. 2 单变量线性回归算法2.1 符号定义m = 训练样本的数量x = 输入变量y = 输出变量2.2 工作方式训练集通过学习算法生成线性回归函数hypothesis  hθ(x) = θ0 + θ1x 原文地址:http

吴恩达“机器学习”——学习笔记四

生成学习算法 判别算法:进行P(y|x)的计算或者是进行h(x)(其中h只会是0与1)的计算. 生成学习算法:进行P(x|y)的建模,即给定类的条件下,某种特征显示的结果.同时也会对P(y)进行建模. 根据贝叶斯公式,我们可以得到,其中p(x) = p(x|y = 1)p(y = 1) + p(x|y = 0)p(y = 0).实际上,如果我们计算P(y|x)进行预测,我们不必计算分母的值,因为x是独立于y的,所以argmax是当式子取到最大值时,对应参数的取值. 高斯判别分析 多元高斯分布 如

【吴恩达机器学习】学习笔记——梯度下降

梯度下降算法能够帮助我们快速得到代价函数的最小值 算法思路: 以某一参数为起始点 寻找下一个参数使得代价函数的值减小,直到得到局部最小值 梯度下降算法: 重复下式直至收敛,其中α为学习速率,表示找到局部最小值的速率 并且各参数θ0,...,θn必须同时更新,即所有的θj值全部都计算得到新值之后才将参数值代入到代价函数中 数学原理:沿梯度方向,函数变化率/方向导数最大 原文地址:https://www.cnblogs.com/JJJanepp/p/8454599.html

【吴恩达机器学习】学习笔记——1.5无监督学习

1 无监督学习:在不知道数据点的含义的情况下,从一个数据集中找出数据点的结构关系. 2 聚类算法:相同属性的数据点会集中分布,聚集在一起,聚类算法将数据集分成不同的聚类.也就是说,机器不知道这些数据点具体是什么属性,到底是干什么的,但是可以将具有相同属性的数据点归为一类. 3 无监督学习的应用: 大型计算机集群:找出趋于协同工作的机器,将其放在一起将提高效率 社交网络分析:找出哪些人之间是好朋友的关系,哪些仅仅是认识 市场分割:将客户分类,找出细分市场,从而更有效的进行销售 天文数据分析:星系是

【吴恩达机器学习】学习笔记——代价函数

单变量线性回归函数  hθ(x) = θ0 + θ1x 为了使线性回归函数对数据有较好的预测性,即y到h(x)的距离都很小. 原文地址:https://www.cnblogs.com/JJJanepp/p/8453321.html