最简单的基础
以图像为例,输入三个矩阵 红绿蓝,(64*64)*3的像素亮度值---》特征向量值---X【】(64*64*3长度的一维向量)训练一个分类器输入为特征向量,输出为0,1代表是不是猫。
Z=W^T*X+b---->b为R实数W->R*n_x,X->R*n_x,b->R
y~=sigmoid(Z);
函数原型:sigmoid(z) = 1/(1+e^-z);
Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线。[1] 在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0,1之间。
S(x)求导=s(x)*(1-S(x));--------一个好用的性质
为了训练w和b----》loss函数
w和b的初始化下得到的结果为y~,正确的结果为y,训练时,结果是已知的。
用loss function 来评估这个模型的正确性,我们希望得到,loss最小的w和b的参数值。
L(y~,y)=-(y(log(y~)+(1-y)log(1-y~))----->用这个·表示有利于求解最优解会有一个凸函数。------->训练模型的解会在log中而且这个为负。
cost function--成本函数----->1/m(所有的loss function之和)也就是loss function的平均值。
w,b在训练集上的效果用cost 函数来衡量。J(w,b)来表示这个成本函数,他是一个凸函数,可以得到最优解。
我们用梯度下降法来找到这个函数的最优解。J(w,b)=epression---->自己推一下打公式很麻烦,可以易得。
梯度下降:
将J(w,b)看作一个二元的函数,这是一个空间的三维立体平面---->凸的----有最优解
初始化一个w=0和b=0;然后更新--->w := w-α*(dJ(w,b)/dw)----->沿这个点的方向的导数*a(学习率)更新
同理更新b。 符号 :=代表更新。详细接下: