triple loss 原理以及梯度推导

【理解triple】

如上图所示，triple是一个三元组，这个三元组是这样构成的：从训练数据集中随机选一个样本，该样本称为Anchor，然后再随机选取一个和Anchor (记为x_a)属于同一类的样本和不同类的样本,这两个样本对应的称为Positive (记为x_p)和Negative (记为x_n)，由此构成一个（Anchor，Positive，Negative）三元组。

【理解triple loss】

有了上面的triple的概念， triple loss就好理解了。针对三元组中的每个元素（样本），训练一个参数共享或者不共享的网络，得到三个元素的特征表达，分别记为：。triple loss的目的就是通过学习，让x_a和x_p特征表达之间的距离尽可能小，而x_a和x_n的特征表达之间的距离尽可能大，并且要让x_a与x_n之间的距离和x_a与x_p之间的距离之间有一个最小的间隔。公式化的表示就是：

对应的目标函数也就很清楚了：

这里距离用欧式距离度量，+表示[]内的值大于零的时候，取该值为损失，小于零的时候，损失为零。

由目标函数可以看出:

当x_a与x_n之间的距离 < x_a与x_p之间的距离加时，[]内的值大于零，就会产生损失。
当x_a与x_n之间的距离 >= x_a与x_p之间的距离加时，损失为零。

【triple loss 梯度推导】

上述目标函数记为L。则当第i个triple损失大于零的时候，仅就上述公式而言，有：

【算法实现时候的提示】

可以看到，对x_p和x_n特征表达的梯度刚好利用了求损失时候的中间结果，给的启示就是，如果在CNN中实现 triple loss layer, 如果能够在前向传播中存储着两个中间结果，反向传播的时候就能避免重复计算。这仅仅是算法实现时候的一个Trick。

下一节给出caffe中实现triple loss的方法和代码。

版权声明：本文为博主原创文章，未经博主允许不得转载。

时间： 2024-10-21 16:34:01

triple loss 原理以及梯度推导的相关文章

如何在caffe中增加layer以及caffe中triple loss layer的实现

关于triplet loss的原理,目标函数和梯度推导在上一篇博客中已经讲过了,具体见:triplet loss原理以及梯度推导,这篇博文主要是讲caffe下实现triplet loss,编程菜鸟,如果有写的不优化的地方,欢迎指出. 1.如何在caffe中增加新的layer 新版的caffe中增加新的layer,变得轻松多了,概括说来,分四步: 1)在./src/caffe/proto/caffe.proto 中增加对应layer的paramter message: 2)在./include/

cs231n - assignment1 - neural net 梯度推导

Implementing a Neural Network In this exercise we will develop a neural network with fully-connected layers to perform classification, and test it out on the CIFAR-10 dataset. 这里开始采用矩阵的形式来推导梯度,而且将逐级推导梯度,这种方式有很大的好处. 首先来回顾一下我们的网络结结构:输入层(D),全连接层-ReLu(H)

CTC Loss原理

https://blog.csdn.net/left_think/article/details/76370453 1. 背景介绍??在传统的语音识别的模型中,我们对语音模型进行训练之前,往往都要将文本与语音进行严格的对齐操作.这样就有两点不太好: 严格对齐要花费人力.时间.严格对齐之后,模型预测出的label只是局部分类的结果,而无法给出整个序列的输出结果,往往要对预测出的label做一些后处理才可以得到我们最终想要的结果.??虽然现在已经有了一些比较成熟的开源对齐工具供大家使用,但是随着de

编译原理：直接推导、间接推导、n次推导、规范推导

直接推导,直接运用规则进行的推导间接推导.n次推导有两种符号第一种是,表示多次运用直接推导第二种是,表示零次或多次运用直接推导 n表示中间的步骤数规范推导其实就是最右推导原文地址:https://www.cnblogs.com/Asterism12/p/11493246.html

Caffe中增加新的layer以及Caffe中triplet loss layer的实现

关于Tripletloss的原理,目标函数和梯度推导在上一篇博客中已经讲过了,具体见:Tripletloss原理以及梯度推导,这篇博文主要是讲caffe下实现Tripletloss,编程菜鸟,如果有写的不优化的地方,欢迎指出. 尊重原创,转载请注明:http://blog.csdn.net/tangwei2014 1.如何在caffe中增加新的layer 新版的caffe中增加新的layer,变得轻松多了,概括说来,分四步: 1)在./src/caffe/proto/caffe.proto 中增

集成方法：渐进梯度回归树GBRT（迭代决策树）

http://blog.csdn.net/pipisorry/article/details/60776803 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF.在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随机森林相关的.模型组合+决策树相关算法有两种比较基本的形式:随机森林RF与GBDT,其他比较新的模

集成学习之Boosting —— Gradient Boosting原理

集成学习之Boosting -- AdaBoost原理集成学习之Boosting -- AdaBoost实现集成学习之Boosting -- Gradient Boosting原理集成学习之Boosting -- Gradient Boosting实现上一篇介绍了AdaBoost算法,AdaBoost每一轮基学习器训练过后都会更新样本权重,再训练下一个学习器,最后将所有的基学习器加权组合.AdaBoost使用的是指数损失,这个损失函数的缺点是对于异常点非常敏感,(关于各种损失函数可见之前

pytorch梯度下降法讲解（非常详细）

pytorch随机梯度下降法1.梯度.偏微分以及梯度的区别和联系(1)导数是指一元函数对于自变量求导得到的数值,它是一个标量,反映了函数的变化趋势:(2)偏微分是多元函数对各个自变量求导得到的,它反映的是多元函数在各个自变量方向上的变化趋势,也是标量:(3)梯度是一个矢量,是有大小和方向的,其方向是指多元函数增大的方向,而大小是指增长的趋势快慢. 2.在寻找函数的最小值的时候可以利用梯度下降法来进行寻找,一般会出现以下两个问题局部最优解和铵点(不同自变量的变化趋势相反,一个处于极小,一个处于极大

梯度下降算法分类总结

引言梯度下降法 (Gradient Descent Algorithm,GD) 是为目标函数J(θ),如代价函数(cost function), 求解全局最小值(Global Minimum)的一种迭代算法. 为什么使用梯度下降法我们使用梯度下降法最小化目标函数J(θ).在使用梯度下降法时,首先初始化参数值,然后一直改变这些值,直到得到全局最小值.其中,我们计算在每次迭代时计算代价函数的导数,然后使用如下公式同时更新参数值: α表示学习速率(learning rate). 梯度下降法的工作原

猜你喜欢

微信小程序相关三、css写小黄人

小程序上课第三天,因为今天院里有活动,所以没去上课,第四天上午又因为要召开入党转正大会,又耽误了一上午,下午去上课,要了资料.这两天讲了一些零零碎碎的东西,做的实例有上面这个小黄人都是用的css,基 ...

H - Ones

Description Given any integer 0 <= n <= 10000 not divisible by 2 or 5, some multiple of n is a ...

描述硬链接和软链接区别

回答思路: 1.软硬链接的概念: 2.如何创建软硬链接: 3.对于文件软硬链接区别: 4.对于目录软硬链接区别: linux系统中,链接分两种:一种被成为硬链接(hard link),另一种被称为符号 ...

zabbix 自动发现tomcat的war包并实现监控

公司有巨量的tomcat服务器,每台机器上面有好几个tomcat, 路径用后缀数字区别, 例如 /usr/local/dir_samba/apache-tomcat-7.0.64-0/webapps ...

开发路程(8):图片和byte[]的互相转换

1 //图片的"读"操作 2 //①参数是图片路径:返回Byte[]类型: 3 //参数是图片的路径 4 public byte[] GetPictureData(string i ...

json数据的读取

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...

Java基础学习笔记【08】泛型限定、泛型操作

继承实现接口的方法的时候,要是泛型接口直接指定类型就无须后面的强制转换,this直接就代表该类型,参数也就是该类型设置泛型对象的上限使用extends,表示参数类型只能是该类型或该类型的子类(? & ...

c语言判断是否是utf8字符串，计算字符个数

#include <stdio.h> #include <string.h> #include <stdlib.h> /********************** ...

weblogic11_64下的java.lang.ClassCastException: java.sql.Timestamp cannot be cast to java.sql.Date

项目需要切换服务器,从server2003切换到server2008上,新环境用的weblogic11_64.Oracle11g 项目部署运行之后,其他一切正常,只有涉及到查询date类型的数据库字段 ...

An error occurred during the file system check

今天早上打开虚拟机(RedHat 6.3)的时候,报了an error occurred during the file system check错误. 提示/dev/mapper/vg_nbuser ...

vs2012中配置和使用boost库

vs2012中配置和使用boost库一.配置: 1.到www.boost.org下载boost库源代码,完成之后解压,我放置的路径是f:\install. 2.打开vs2012,点击"工具 ...

linux下遇到插拨serial TLL时内核提示的错误信息

SysRq : HELP : loglevel(0-9) reBoot Crash terminate-all-tasks(E) memory-full-oom-kill(F) kill-all-ta ...

oracle错误ORA-00604 递归sql级别1出现错误 ora-00942 表或试图不存在 ORA-06512 在line 11

错误截图如下: 搜索了很多方法,但是都没有办法解决,不过最终还是找到了一个好的解决办法, 多谢那位仁兄的博客[http://blog.itpub.net/519536/viewspace-689469 ...

抓住幸运四原则

如果你对项目管理.系统架构有兴趣,请加微信订阅号"softjg",加入这个PM.架构师的大家庭如果你对项目管理.系统架构有兴趣,请加微信订阅号"softjg" ...

java 上传3（uploadify中文api）

jquery文件上传控件 Uploadify 基于jquery的文件上传控件,支持ajax无刷新上传,多个文件同时上传,上传进行进度显示,删除已上传文件. 要求使用jquery1.4或以上版本,fla ...

Docker的Jenkins Pipeline工作流

原文地址:http://www.youruncloud.com/blog/127.html 分享主题一个软件产品的开发周期中,尤其是敏捷开发,持续集成和持续部署是必不可少的环节,而随着产品的丰富,模 ...

dmesg 程序崩溃调试

[[email protected] log]# cat -n /root/xx.c 1 2 3 #include <stdio.h> 4 5 void func(char *p) 6 { ...

.net文件压缩和解压及中文文件夹名称乱码问题

/**************************注释区域内为引用http://www.cnblogs.com/zhaozhan/archive/2012/05/28/2520701.html的博 ...

JavaScript 反柯里化

浅析 JavaScript 中的函数 uncurrying 反柯里化柯里化柯里化又称部分求值,其含义是给函数分步传递参数,每次传递参数后部分应用参数,并返回一个更具体的函数接受剩下的参数,这中间 ...

窗口滚动动画

在这篇教程中,我将为你介绍如何在页面滚动时触发css动画.这种效果使用JavaScript&CSS就能做到. Jeet Grid System website 就是使用这种小技巧的例子,当你向 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.024 s.