吴恩达第一课第三周随笔

2.1 双层神经网络

图 1

图 2

图1是一个双层网络模型,实际上有三层,但是通常把输入层给忽略掉 称为输入层

注意层了,图1层有4个节点,图2只要1个,

所以图1 应该是一个(4,3)的矩阵,图2的是一个(1,3)的矩阵

ps:坚持将前一层的特征的权重做成一列放入矩阵中,所以每一个都是(3,1)的列向量

以前一直都是使用,np.dot(.T,X),这里也同样也沿用这个设定

所以,所以 是一个(4,3)矩阵

,b是一个[4,1]的列向量,要生成矩阵节点在前

图1的正向传播算法:

A,Z的横向表示第几个样本,竖向表示第几个节点

2.2理解m个样本向量化

重点在于np.dot这个函数,向量的点积运算

C=np.dot(A,B)

这是点积运算的定义(下面的W值得是

W是一个(4,3)的矩阵,表示总共有 4行3个特征权重 组成的权重矩阵

X是一个(3,m)的矩阵,表示有m个样本,每个样本有3个特征

观察z的计算形成,x的每一个特征与对应的权重相乘并累加

3个 x特征 权重相乘并累加成一个值,这个值就是

由于有4行这样的权重值,每一行的权重值都与第i个样本的3个特征相乘就形成了一个4为列向量如

最终W与X点积,形成一个(4,m)的矩阵。至于+b就是numpy的广播功能了

注意b是一个(4,1)的列向量,每一个节点都有对应的b值 即

2.3 更多的激活函数

优点:平均值接近0,比起sigmod接近0.5的平均值,接近0,更易于下一层的计算

tanh各方面吊打sigmod,除了作为二分分类输出层时,才会使用sigmod作为作为激活函数

缺点:两个函数,都在Z很大的时候,梯度都接近0,这样会拖慢学习速率。梯度下降与学习率以及梯度有关。

另外一个激活函数:relu函数 np.maximum(0,z), 比较0,和Z和大小,取大的

特点:

1. 在Z>0时,梯度永远为1,

2. 在Z=0时,梯度为0,不过,你可以设置当Z=0时,梯度为多少

3. 缺点:当Z为负数时,顺带的也把梯度变成0了,不好使用梯度下降的方法

这个激活函数很强大,就是这么强,当不知道选用什么激活函数时,就选这个reluc函数(修正线性函数)

带泄露的relu函数 :np.maximum(0.01Z,Z),他会在负值有一个平缓的线条,让其也有梯度

为了表示清楚,选用的是0.1。 0.01是经验总结出来的一个参数

建立神经网络有一系列东西需要选择,如隐藏单元个数,激活函数,初始化

这些东西全靠经验选择出的,选择困难户

2.4 非线性激活函数的必要性

如果去掉非线性激活函数,那么你的输出与输入还是一个成线性关系,那么你后面的无论有多少隐藏层,都会等价于只做了一个线性输出。

在输出层会有可能需要做线性变换,才会用到线性激活函数。

中间隐藏层,如果需要做一些伸缩变化,也会用到线性激活函数(这种情况很复杂)

2.5 激活函数的导数

注释:

记住:a=tanh(z) a=1-a2

Relu函数以及带泄露的Relu函数:记住在z=0处是没有导数的,因为左右的偏导不相等,需要自己定义

2.6 神经网络下的梯度下降

正反向传播公式计算

正向请翻上面

假设这是一个二分分类的双层神经网络

注意点:

  1. 是一个列向量,在横向累加,所以axis=1,为了确保累加之后不会出现一个秩为1的数组,所以调用keepdims=True
  2. 计算时,是对应为相乘,不再是点积了

    是一个(1,4)转置之后是一个(4,1),是一个(1,m),点积之后变成(4,m)

    是一个(4,m)矩阵,对应位相乘。这是从矩阵形状来看

    dZ_1的计算并不需要累加,且不需要累加到m,然后除以m

还剩下一个随机初始化权重,留到明天学习

原文地址:https://www.cnblogs.com/sytt3/p/9311275.html

时间: 2024-10-16 00:26:50

吴恩达第一课第三周随笔的相关文章

Coursera-AndrewNg(吴恩达)机器学习笔记——第三周

一.逻辑回归问题(分类问题) 生活中存在着许多分类问题,如判断邮件是否为垃圾邮件:判断肿瘤是恶性还是良性等.机器学习中逻辑回归便是解决分类问题的一种方法.二分类:通常表示为y?{0,1},0:"Negative Class",1:"Possitive Class". 逻辑回归的预测函数表达式hθ(x)(hθ(x)>=0 && hθ(x)<=1): 其中g(z)被称为逻辑函数或者Sigmiod函数,其函数图形如下: 理解预测函数hθ(x)的

吴恩达机器学习笔记-第三周

六.逻辑回归 6.1 分类问题 对于二分类问题, 我们一般将结果分为0/1,在理解逻辑回归时可以引入感知机,感知机算是很早的分类器,但因为感知机是分布函数,也就是输出的值小于某一临界值,则分为-1,大于某一临界值,则分为1,但由于其在临界点处不连续,因此在数学上不好处理,而且感知机分类比较粗糙,无法处理线性不可分的情况,因此引入了逻辑回归,逻辑回归相当于用一个逻辑函数来处理回归的值,导致最终输出的值在[0, 1]范围内,输入范围是?∞→+∞,而值域光滑地分布于0和1之间. 小于0.5的分为0类,

吴恩达第二课第二周编程实例

吴恩达第2课第2周编程习题 目标:使用mini-batch来加快学习速度:比较梯度下降,momentum,adam的效果 核心:指数加权平均值得计算及其意义,它是momentum,RMSProp,Adam算法的基石 不足:本例程没有使用学习率衰减的步骤,同时本例程只适于3层的二分法的神经网络 常记点: 1. 偏差修正时是除以,此处是-,t从1开始: 2. L=len(parameters) //2 ,这个L不等于网络层数,range(1,L+1)=range(1,len(layers_dims)

吴恩达《深度学习》第一门课(1)深度学习引言

1.1欢迎 主要讲了五门课的内容: 第一门课:神经网络基础,构建网络等: 第二门课:神经网络的训练技巧: 第三门课:构建机器学习系统的一些策略,下一步该怎么走(吴恩达老师新书<Machine Learning Yearning>就是针对这个以及上一课): 第四门课:卷积神经网络相关: 第五门课:循环神经网络相关. 1.2什么是神经网络 (1)常说的深度学习指的就是训练神经网络,或者也指特别大规模的神经网络. (2)每一个神经元都代表着从输入到输出的函数映射,如下的房价预测: (3)激活函数Re

【吴恩达课后测验】Course 1 - 神经网络和深度学习 - 第一周测验【中英】

[吴恩达课后测验]Course 1 - 神经网络和深度学习 - 第一周测验[中英] 第一周测验 - 深度学习简介 和"AI是新电力"相类似的说法是什么? [ ?]AI为我们的家庭和办公室的个人设备供电,类似于电力. [ ?]通过"智能电网",AI提供新的电能. [?]AI在计算机上运行,??并由电力驱动,但是它正在让以前的计算机不能做的事情变为可能. [★]就像100年前产生电能一样,AI正在改变很多的行业. 请注意: 吴恩达在视频中表达了同样的观点. 哪些是深度学

吴恩达《深度学习》-课后测验-第一门课 (Neural Networks and Deep Learning)-Week 4 - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络)

Week 4 Quiz - Key concepts on Deep Neural Networks(第四周 测验 – 深层神经网络) \1. What is the "cache" used for in our implementation of forward propagation and backward propagation?(在实现前向传播和反向传播中使用的"cache"是什么?) [ ]It is used to cache the interme

吴恩达2014机器学习教程笔记目录

17年开始,网上的机器学习教程逐渐增多,国内我所了解的就有网易云课堂.七月.小象学院和北风.他们的课程侧重点各有不同,有些侧重理论,有些侧重实践,结合起来学习事半功倍.但是论经典,还是首推吴恩达的机器学习课程. 吴大大14年在coursera的课程通俗易懂.短小精悍,在讲解知识点的同时,还会穿插相关领域的最新动态,并向你推荐相关论文.课程10周共18节课,每个课程都有PPT和课后习题,当然,也有中文字幕. 百度网盘(视频 + 英文字幕 + 中文字幕 + 练习 + PPT): 链接:https:/

吴恩达《AI For Everyone》_练习英语翻译_待更新

AI For Everyone https://www.coursera.org/learn/ai-for-everyone 讲师: Andrew Ng (吴恩达) CEO/Founder Landing AI; Co-founder, Coursera; Adjunct Professor, Stanford University; formerly Chief Scientist,Baidu and founding lead of Google Brain Landing.AI CEO /

吴恩达Coursera机器学习

涉及 Logistic 回归.正则化. 六.逻辑回归(Logistic Regression) 6.1 分类问题 6.2 假说表示 6.3 判定边界 6.4 代价函数 6.5 简化的成本函数和梯度下降 6.6 高级优化 6.7 多类别分类:一对多 七.正则化(Regularization) 7.1 过拟合的问题 7.2 代价函数 7.3 正则化线性回归 7.4 正则化的逻辑回归模型 六.逻辑回归(Logistic Regression) 6.1 分类问题 参考文档: 6 - 1 - Classi