吴恩达第一课第三周随笔

2.1 双层神经网络

图 1

图 2

图1是一个双层网络模型，实际上有三层，但是通常把输入层给忽略掉称为输入层

注意层了，图1层有4个节点，图2只要1个，

所以图1 应该是一个（4,3）的矩阵，图2的是一个（1,3）的矩阵

ps：坚持将前一层的特征的权重做成一列放入矩阵中，所以每一个都是（3,1）的列向量

以前一直都是使用，np.dot(.T,X),这里也同样也沿用这个设定

所以，所以是一个（4,3）矩阵

，b是一个[4,1]的列向量，要生成矩阵节点在前

图1的正向传播算法：

A,Z的横向表示第几个样本，竖向表示第几个节点

2.2理解m个样本向量化

重点在于np.dot这个函数，向量的点积运算

C=np.dot(A,B)

这是点积运算的定义（下面的W值得是）

W是一个（4,3）的矩阵，表示总共有 4行3个特征权重组成的权重矩阵

X是一个（3，m）的矩阵，表示有m个样本，每个样本有3个特征

观察z的计算形成，x的每一个特征与对应的权重相乘并累加

3个 x特征权重相乘并累加成一个值，这个值就是

由于有4行这样的权重值，每一行的权重值都与第i个样本的3个特征相乘就形成了一个4为列向量如

最终W与X点积，形成一个（4，m）的矩阵。至于+b就是numpy的广播功能了

注意b是一个(4,1)的列向量，每一个节点都有对应的b值即

2.3 更多的激活函数

优点：平均值接近0，比起sigmod接近0.5的平均值，接近0，更易于下一层的计算

tanh各方面吊打sigmod，除了作为二分分类输出层时，才会使用sigmod作为作为激活函数

缺点：两个函数，都在Z很大的时候，梯度都接近0，这样会拖慢学习速率。梯度下降与学习率以及梯度有关。

另外一个激活函数：relu函数 np.maximum(0,z), 比较0，和Z和大小，取大的

特点：

1. 在Z>0时，梯度永远为1，

2. 在Z=0时，梯度为0，不过，你可以设置当Z=0时，梯度为多少

3. 缺点：当Z为负数时，顺带的也把梯度变成0了，不好使用梯度下降的方法

这个激活函数很强大，就是这么强，当不知道选用什么激活函数时，就选这个reluc函数（修正线性函数）

带泄露的relu函数：np.maximum(0.01Z,Z)，他会在负值有一个平缓的线条，让其也有梯度

为了表示清楚，选用的是0.1。 0.01是经验总结出来的一个参数

建立神经网络有一系列东西需要选择，如隐藏单元个数，激活函数，初始化

这些东西全靠经验选择出的，选择困难户

2.4 非线性激活函数的必要性

如果去掉非线性激活函数，那么你的输出与输入还是一个成线性关系，那么你后面的无论有多少隐藏层，都会等价于只做了一个线性输出。

在输出层会有可能需要做线性变换，才会用到线性激活函数。

中间隐藏层，如果需要做一些伸缩变化，也会用到线性激活函数（这种情况很复杂）

2.5 激活函数的导数

注释：

记住：a=tanh(z) a^‘=1-a²

Relu函数以及带泄露的Relu函数：记住在z=0处是没有导数的，因为左右的偏导不相等，需要自己定义

2.6 神经网络下的梯度下降

正反向传播公式计算

正向请翻上面

假设这是一个二分分类的双层神经网络

注意点：

是一个列向量，在横向累加，所以axis=1，为了确保累加之后不会出现一个秩为1的数组，所以调用keepdims=True
计算时，与是对应为相乘，不再是点积了
是一个(1,4)转置之后是一个（4,1），是一个（1，m），点积之后变成（4，m）

是一个(4,m)矩阵，对应位相乘。这是从矩阵形状来看

dZ_1的计算并不需要累加，且不需要累加到m，然后除以m

还剩下一个随机初始化权重，留到明天学习

原文地址：https://www.cnblogs.com/sytt3/p/9311275.html

时间： 2024-10-16 00:26:50

吴恩达第一课第三周随笔的相关文章

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周

一.逻辑回归问题(分类问题) 生活中存在着许多分类问题,如判断邮件是否为垃圾邮件:判断肿瘤是恶性还是良性等.机器学习中逻辑回归便是解决分类问题的一种方法.二分类:通常表示为y?{0,1},0:"Negative Class",1:"Possitive Class". 逻辑回归的预测函数表达式hθ(x)(hθ(x)>=0 && hθ(x)<=1): 其中g(z)被称为逻辑函数或者Sigmiod函数,其函数图形如下: 理解预测函数hθ(x)的

吴恩达机器学习笔记-第三周

六.逻辑回归 6.1 分类问题对于二分类问题, 我们一般将结果分为0/1,在理解逻辑回归时可以引入感知机,感知机算是很早的分类器,但因为感知机是分布函数,也就是输出的值小于某一临界值,则分为-1,大于某一临界值,则分为1,但由于其在临界点处不连续,因此在数学上不好处理,而且感知机分类比较粗糙,无法处理线性不可分的情况,因此引入了逻辑回归,逻辑回归相当于用一个逻辑函数来处理回归的值,导致最终输出的值在[0, 1]范围内,输入范围是?∞→+∞,而值域光滑地分布于0和1之间. 小于0.5的分为0类,

吴恩达第二课第二周编程实例

吴恩达第2课第2周编程习题目标:使用mini-batch来加快学习速度:比较梯度下降,momentum,adam的效果核心:指数加权平均值得计算及其意义,它是momentum,RMSProp,Adam算法的基石不足:本例程没有使用学习率衰减的步骤,同时本例程只适于3层的二分法的神经网络常记点: 1. 偏差修正时是除以,此处是-,t从1开始: 2. L=len(parameters) //2 ,这个L不等于网络层数,range(1,L+1)=range(1,len(layers_dims)

吴恩达《深度学习》第一门课（1）深度学习引言

1.1欢迎主要讲了五门课的内容: 第一门课:神经网络基础,构建网络等: 第二门课:神经网络的训练技巧: 第三门课:构建机器学习系统的一些策略,下一步该怎么走(吴恩达老师新书<Machine Learning Yearning>就是针对这个以及上一课): 第四门课:卷积神经网络相关: 第五门课:循环神经网络相关. 1.2什么是神经网络 (1)常说的深度学习指的就是训练神经网络,或者也指特别大规模的神经网络. (2)每一个神经元都代表着从输入到输出的函数映射,如下的房价预测: (3)激活函数Re

【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】

[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介和"AI是新电力"相类似的说法是什么? [ ?]AI为我们的家庭和办公室的个人设备供电,类似于电力. [ ?]通过"智能电网",AI提供新的电能. [?]AI在计算机上运行,??并由电力驱动,但是它正在让以前的计算机不能做的事情变为可能. [★]就像100年前产生电能一样,AI正在改变很多的行业. 请注意: 吴恩达在视频中表达了同样的观点. 哪些是深度学

吴恩达《深度学习》-课后测验-第一门课 (Neural Networks and Deep Learning)-Week 4 - Key concepts on Deep Neural Networks（第四周测验 – 深层神经网络）

Week 4 Quiz - Key concepts on Deep Neural Networks(第四周测验 – 深层神经网络) \1. What is the "cache" used for in our implementation of forward propagation and backward propagation?(在实现前向传播和反向传播中使用的"cache"是什么?) [ ]It is used to cache the interme

吴恩达2014机器学习教程笔记目录

17年开始,网上的机器学习教程逐渐增多,国内我所了解的就有网易云课堂.七月.小象学院和北风.他们的课程侧重点各有不同,有些侧重理论,有些侧重实践,结合起来学习事半功倍.但是论经典,还是首推吴恩达的机器学习课程. 吴大大14年在coursera的课程通俗易懂.短小精悍,在讲解知识点的同时,还会穿插相关领域的最新动态,并向你推荐相关论文.课程10周共18节课,每个课程都有PPT和课后习题,当然,也有中文字幕. 百度网盘(视频 + 英文字幕 + 中文字幕 + 练习 + PPT): 链接:https:/

吴恩达《AI For Everyone》_练习英语翻译_待更新

AI For Everyone https://www.coursera.org/learn/ai-for-everyone 讲师: Andrew Ng (吴恩达) CEO/Founder Landing AI; Co-founder, Coursera; Adjunct Professor, Stanford University; formerly Chief Scientist,Baidu and founding lead of Google Brain Landing.AI CEO /

吴恩达Coursera机器学习

涉及 Logistic 回归.正则化. 六.逻辑回归(Logistic Regression) 6.1 分类问题 6.2 假说表示 6.3 判定边界 6.4 代价函数 6.5 简化的成本函数和梯度下降 6.6 高级优化 6.7 多类别分类:一对多七.正则化(Regularization) 7.1 过拟合的问题 7.2 代价函数 7.3 正则化线性回归 7.4 正则化的逻辑回归模型六.逻辑回归(Logistic Regression) 6.1 分类问题参考文档: 6 - 1 - Classi