1.欧氏距离
2.L2范数
3.l2正则化
1).作用
L2的作用是防止参数太大。
2).求导过程
Wij是参数矩阵
假设神经网络表达式如下
使用绝对值损失,对应的y‘是true label
加入L2损失,损失函数变为如下
按照链式求导法则,损失L对W的导数如下:
新参数的更新如下:
同理可以对bias有L2损失。
原文地址:https://www.cnblogs.com/AntonioSu/p/12097906.html
时间: 2024-10-08 15:26:07