2016.3.28 如何去确定初始参数

如何去确定初始参数

有那么多参数,比如说学习率yita,惩罚的大小lambda,以及mini-batch还有网络什么时候停止。

一个比较宏观的思路是为了验证想法,没有必要用全部的数据集,而是采用其中的一部分,验证有效了,再去使用更大的数据集合,而且为了验证想法,可以适当的减小网络的层的深度,而且做更频繁的validation,其实就是相当于做快速的小实验,能够更快的训练网络,看到想法的效果。

所以这样的想法在实验时候非常有效。记住:使用小网络进行小样本的测试。

那么对于学习来说,到底什么样的参数合适呢?

学习率:数量级确定之后越大越好。

Early stop:由于学习的时候学习的正确率在震荡,因此难以确定到底是在哪一轮停止,所以采用比如说n轮准确率不上升来确定该停止了。有可能带来的一个问题就是可能在某一阶段,学习到了一个平台,多了一会儿就继续下降,不过这个问题在考虑的时候不用考虑这么多,因为这样的概率还是比较少的,或者觉得不够好,再修改n。不过这确实是一个即使停止训练的有效的方法。

Lambda:这是为了惩罚w过大,确定了学习率之后进行相关的调试,找到一个比较好的值,反过来再调整一下学习率lambda。这样相互交替,达到一个比较好的结果。其实学习率可以看成是步长,而梯度下降可以看成是方向,我要在某个方向上走长的距离,而lambda决定了方向,按照原来的思路,其实在某一个方向上的数值要进行改变的时候是稍微减小,也不会变化特别的大,于是就是相当于,我不是再当前的点上进行调整,而是稍微减小了一些之后再进行调整,不过总觉的怪怪的,因为虽然说是减小,但是实际上相当于再参数空间变换了一个位置,再按照原来的位置进行一个学习。

Mini-batch size:为了充分发挥计算机的计算能力,可以采用想量化的变成或者是并行计算,这样的计算效率要高好多,所以通过这样的方式能够有效的减少训练的真实时间。

下面问题来了:

1.    有没有一个程序能够自动调参,当然,我说的不是枚举,而是通过某种可以和网络输出结果相互动的方式来进行参数的学习。

2.    lambda可以看成是希望减小w,小了之后对于特别奇葩的值就不是很敏感,但是如果从参数空间上来看,是缩放到了另一个点之后再调整,那么这两个点之间有什么关系?

时间: 2024-10-14 08:20:54

2016.3.28 如何去确定初始参数的相关文章

Murano Weekly Meeting 2016.06.28

Meeting time: 2016.June.28 1:00~2:00 Chairperson:  Kirill Zaitsev, from Mirantis Meeting summary: 1.Action Item Review Action: Nikolay_St kzaitsev_mb draft a spec with all the options we have considering swtiching from glance v1 to glance v2 Action: 

2016.3.28 其他的调整网络的技巧

其他的调整网络的技巧 技巧有很多,但是简单常用的不多. 首先说说对于随即梯度下降的不同变换,梯度下降其实就是用c来对于单独的一个w进行变换,但是我们如果考虑到对于不同的两个或者更多的w之间的关系呢?实际上就是用c对于多个w求多个偏导数. Momentu就是二阶导数,原来的学习是使用c直接对于w进行修改,但是现在相当于多了一个屏障.原来走的每一步的步长实际上是和c直接相关的,但是通过momentum,加了一个代理,就是c调整一个中间的变量,中间变量再修改整体的w的值,所以再这样的情况下能够非常好的

2016.1.1—2016.1.28总结

测试:1.本月对于测试的工作,主要做了相关的培训,特别是雁雁.小易的测试用例编写工作:然后布置了相对的测试题目,考核他们对产品的了解程度.bug的灵敏度.bug的严重级别分配:沟通邹博士,让测试组的人跟工程部的人一起参加年终考试,考察下他们的对于产品的了解和控制日常问题的处理能力.2.对于12月新增和修改的功能,对于各个产品,都安排了更新测试用例:特别针对雁雁.小易编写的测试用例进行多次的指导,让他们反复修改,以能够抓住编写用例的方法重点.3.从月中开始,所有的测试报告他们整理完后我只检查和提出

【2016.11.28】纯HTML仿微博注册页面

效果如图 代码 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>新浪微博</title> </head> <body bgcolor="#BEE1F5"> <table align="center" width="896" height="186

2016.2.28 DataTable用法汇总

利用视图排序 DataView dv = dtpdf.DefaultView; dv.Sort = "航路点 Asc"; gdc_pdfpnt.DataSource = dv.ToTable(); 将一个DataTable的某些行加入另一个DataTable中 2016.9.1 首先复制表结构,注意Clone和Copy的区别 DataTable prtdt = ((DataTable)gdc_zxnotmatch.DataSource).Clone();//Clone只拷贝结构,不拷贝

2016.8.28 随写

不得不说一句,搞OI大概就是修行吧,一群怀有对女神热爱的屌丝x在朝圣路上一步一叩首走得很艰难但即使被女神下放的魔法伤害打到空血也会从复活点屁颠屁颠地跑回来,不是没有疲惫没有挣扎,只是最后紧握了那么久的东西还是放不下,最后还是嬉皮笑脸地继续焦头烂额: 啊画风不对,其实我是想说,搞OI并不像很多人以为的,也并不像我们调侃的那样轻松,中间有很多汗水,甚至像苦行僧一样几天就想着一个算法,甚至看着10行的一个代码花整整两天去理解然后发现自己早就已经背下来了,甚至拿着几页的草稿纸跟着程序手算,甚至被大神嫌弃

骑行318、 2016.7.28

如果不是今天天气好还真想在呆在这个美丽的城市一天,当然随口说说的别当真,该玩玩该跑跑,队友想在待一天我就才出发了,我想没必要在等,不同行就算了,[一路过来有没有队友就那样吧,我感觉能合得来就继续,有时候都不顾别人感受···如果你要打算骑行川藏又是像我一个人的话,建议最好组大学生,别问为什么像我这样,跟高中毕业生,然后还有工作的,我不是说这些人不靠谱,我只是说少部分不懂分寸 而已,还有就是防骗,别到处露财,之前就是我自己话多···不缺时间不缺钱都够,怎么都能到拉萨····事实证明少说话多做事是ni

2016.04.28成为博客园新成员

别忘了自己还是初学者的那些日子.或者如果你目前就是个初学者,请坚守这份新人情怀.你所学到的远远不够.如果你已经是个专家了,不妨每天也把自己当成初学者.坚持以初学者的心态来对待技术问题,这样你就能更容易去接受那些让软件更好的修改,不落俗套.即使那些经历不如你的人也可能会提出一些好主意.有哪一个软件的两次构建方法会完全相同呢?即使你去复制(仿制)软件,建构过程也不会完全相同.

2016第28周二

再次坐在从新郑机场到郑州东的高铁上,与之前线路没什么大不同,但与之前心境却有大不同,问题大家都能看到,一部分人能正确识别,少部分人能尝试解决,只有极少一部分人能解决,生活在困难工作环境中的人是痛苦的,要么果断坚决的离开,要么全力以赴去投入改变,问题就是机会,困难让人成长,但真的解决问题战胜困难的人有多少呢.就算不能也应该全力以赴去坚持一段时间,不要到离开世界的一霎那再后悔自己很多事没做.