Coursera-AndrewNg(吴恩达)机器学习笔记——第三周

一.逻辑回归问题（分类问题）

生活中存在着许多分类问题，如判断邮件是否为垃圾邮件；判断肿瘤是恶性还是良性等。机器学习中逻辑回归便是解决分类问题的一种方法。
二分类：通常表示为y?{0,1}，0：“Negative Class”，1：“Possitive Class”。
逻辑回归的预测函数表达式h_θ(x)（h_θ(x)>=0 && h_θ(x)<=1）：

其中g(z)被称为逻辑函数或者Sigmiod函数，其函数图形如下：

理解预测函数h_θ(x)的意义：其实函数h_θ(x)的值是系统认为样本值Y为1的概率大小，可表示为h_θ(x)=P(y=1|x;θ)=1-P(y=0|x;θ).
决策边界（Decision boundary）：y=0和y=1的分界线，由逻辑函数图形可知，当y=1时，g(z)>=0.5，z>=0，也就是说θ^TX>=0，这样我们就可以通过以x_i为坐标轴，作出θ^TX=0这条直线，这条直线便是决策边界。如下图所示：
代价函数（Cost Function）J(θ)：一定要是一个凸函数（Convex Function），这样经过梯度下降方便找到全局最优。

根据以上两幅图我们可以看出，当预测值h_θ(x)和实际值结果y相同时，代价值为0；当预测值h_θ(x)和实际结果y不同时，代价值无穷大。组合在一起可以写为：

向量化后可写为：
梯度下降算法：和线性回归中使用的一样

向量化：
高级优化方法（用来代替梯度下降选择参数θ）：Conjugate gradient（共轭梯度法）、BFGS、L-BFGS，只需要掌握用法即可，不需了解原理。
优点：不需要手动选择学习速率α，收敛速度比梯度下降快，更复杂。
```
%首先写一个函数用来计算代价函数和代价函数的梯度function [jVal, gradient] = costFunction(theta)
  jVal = [...code to compute J(theta)...];
  gradient = [...code to compute derivative of J(theta)...];
end

%然后在命令行中通过调用fminunc()函数来计算参数θ
```
options = optimset(‘GradObj‘, ‘on‘, ‘MaxIter‘, 100);
initialTheta = zeros(2,1);
[optTheta, functionVal, exitFlag] = fminunc(@costFunction, initialTheta, options);
多分类问题：可以转化为n+1个二分类问题看待，如下：

通过这种形式，我们可以预测出结果最接近哪个y值。

二.过拟合问题和解决方法

Underfit：欠拟合问题具有高偏差；Overfit：过拟合问题具有高方差。
过拟合的定义：如果训练集中有过多的特征项，训练函数过于复杂，而训练数据又非常少。我们学到的算法可能会完美的适应训练集，也就是说代价会接近与0。但是却没有对新样本的泛化能力。
解决方法：手动的选择合适的特征；或者使用模型选择算法（用来选取特征变量）。
正规化（Regularization）：正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)），相当于减少参数θ(j)所对应的多项式对整个预测函数的影响。以下内容以线性回归为例。
正规化代价函数：其中λ过大会导致欠拟合。

正规化梯度下降：θ₀不需要

其中当参数Θ不为θ₀时，梯度下降形式又可以改写为：

正规化正规方程：其中L为(n+1)*(n+1)维矩阵。
正规化逻辑回归：
代价函数：

梯度下降形式和线性回归相同。
正规化逻辑回归中高级的求解参数θ方法：

无~~~~

原文地址：https://www.cnblogs.com/LoganGo/p/8562575.html

时间： 2024-11-06 09:55:22

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周的相关文章

吴恩达机器学习笔记-第三周

六.逻辑回归 6.1 分类问题对于二分类问题, 我们一般将结果分为0/1,在理解逻辑回归时可以引入感知机,感知机算是很早的分类器,但因为感知机是分布函数,也就是输出的值小于某一临界值,则分为-1,大于某一临界值,则分为1,但由于其在临界点处不连续,因此在数学上不好处理,而且感知机分类比较粗糙,无法处理线性不可分的情况,因此引入了逻辑回归,逻辑回归相当于用一个逻辑函数来处理回归的值,导致最终输出的值在[0, 1]范围内,输入范围是?∞→+∞,而值域光滑地分布于0和1之间. 小于0.5的分为0类,

Coursera-AndrewNg(吴恩达)机器学习笔记——第一周

一.初识机器学习何为机器学习?A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.理解:通过实验E,完成某一项任务T,利用评价标准P对实验结果进行迭代优化! 机器学习主要包括监督学习

吴恩达第一课第三周随笔

2.1 双层神经网络图 1 图 2 图1是一个双层网络模型,实际上有三层,但是通常把输入层给忽略掉称为输入层注意层了,图1层有4个节点,图2只要1个, 所以图1 应该是一个(4,3)的矩阵,图2的是一个(1,3)的矩阵 ps:坚持将前一层的特征的权重做成一列放入矩阵中,所以每一个都是(3,1)的列向量以前一直都是使用,np.dot(.T,X),这里也同样也沿用这个设定所以,所以是一个(4,3)矩阵 ,b是一个[4,1]的列向量,要生成矩阵节点在前图1的正向传播算法: A,Z的横向表

吴恩达“机器学习”——学习笔记五

朴素贝叶斯算法(Naive Bayes)(续学习笔记四) 两个朴素贝叶斯的变化版本 x_i可以取多个值,即p(x_i|y)是符合多项式分布的,不是符合伯努利分布的.其他的与符合伯努利的情况一样.(同时也提供一种思路将连续型变量变成离散型的,比如说房间的面积可以进行离散分类,然后运用这个朴素贝叶斯算法的变形). 第二个朴素贝叶斯的变化形式专门用来处理文本文档,即对序列进行分类,被称为朴素贝叶斯的事件模型(event model).这将使用一种不同的方式将邮件转化为特征向量. 之前的特征向量是:向量

【吴恩达机器学习】学习笔记——2.1单变量线性回归算法

1 回顾1.1 监督学习定义:给定正确答案的机器学习算法分类:(1)回归算法:预测连续值的输出,如房价的预测(2)分类算法:离散值的输出,如判断患病是否为某种癌症1.2 非监督学习定义:不给定数据的信息的情况下,分析数据之间的关系.聚类算法:将数据集中属性相似的数据点划分为一类. 2 单变量线性回归算法2.1 符号定义m = 训练样本的数量x = 输入变量y = 输出变量2.2 工作方式训练集通过学习算法生成线性回归函数hypothesis hθ(x) = θ0 + θ1x 原文地址:http

吴恩达“机器学习”——学习笔记二

定义一些名词欠拟合(underfitting):数据中的某些成分未被捕获到,比如拟合结果是二次函数,结果才只拟合出了一次函数. 过拟合(overfitting):使用过量的特征集合,使模型过于复杂. 参数学习算法(parametric learning algorithms):用固定的参数进行数据的拟合.比如线性回归. 非参数学习算法(non-parametric learning algorithms):使用的参数随着训练样本的增多而增多. 局部加权回归(locally weighted r

吴恩达“机器学习”——学习笔记四

【吴恩达机器学习】学习笔记——1.5无监督学习

1 无监督学习:在不知道数据点的含义的情况下,从一个数据集中找出数据点的结构关系. 2 聚类算法:相同属性的数据点会集中分布,聚集在一起,聚类算法将数据集分成不同的聚类.也就是说,机器不知道这些数据点具体是什么属性,到底是干什么的,但是可以将具有相同属性的数据点归为一类. 3 无监督学习的应用: 大型计算机集群:找出趋于协同工作的机器,将其放在一起将提高效率社交网络分析:找出哪些人之间是好朋友的关系,哪些仅仅是认识市场分割:将客户分类,找出细分市场,从而更有效的进行销售天文数据分析:星系是

【吴恩达机器学习】学习笔记——代价函数

单变量线性回归函数 hθ(x) = θ0 + θ1x 为了使线性回归函数对数据有较好的预测性,即y到h(x)的距离都很小. 原文地址:https://www.cnblogs.com/JJJanepp/p/8453321.html