神经网络(13)--具体实现:random initialization

Θ应初始化为什么值

当我们是用logistic regression算法时，将θ初始化为0是可以的；但是如果在神经网络里面，将θ初始化为0是不可行的

若将Θ初始化为0的后果-the problem of symmetry ways

当Θ初始化为0后,蓝色线上的两个weights是相等的，红色线上的两个weights也是相等的，绿色线上的两个weights也是相等的，这样a₁⁽²⁾=a₂⁽²⁾,同样δ₁⁽²⁾=δ₂⁽²⁾,然后对的两个蓝色线上的Θ求导后值也相等，即经过一次update后，a₁⁽²⁾仍然与a₂⁽²⁾相等.假设我们有很多个hidden units,则它们的值都是相等的，这样对于output layer来说，是等同于同一个feature的，会引起很大的冗余,引起的问题称为the problem of symmetry ways。

Θ应如何初始化-symmetry breaking

rand(10,11)创建一个10*11的矩阵，其中每个数都是在0到1之间的随机数，这个里面的EPSILON与我们之前讲的做gradient checking时的EPSILON是没有关系的，这里用EPSILON表示只是表示一个很接近于0的初始值。

总结

通过将Θ初始化为随机的接近于0的随机数矩阵来break symmetry(对称)。
先通过gradient check来检查back propagation(这个后面是用来计算导数的)是否正确，如若正确，则初始化Θ，通过gradient descent或者advanced algorithmn来寻找使cost function的值最小的Θ的值。

时间： 2024-08-17 04:12:35

神经网络(13)--具体实现:random initialization的相关文章

Random Initialization for K-Means

K-Means的中心初始化惯用方式是随机初始化.也就是说:从training set中随机挑选出K个作为中心,再进行下一步的K-Means算法. 这个方法很容易导致收敛到局部最优解,当簇个个数(K)较小(2<K<10)时,我们可以重复多次K-Means,记录下他们的每个的cost function的值(如下图),其中cost function最小的便是最优聚类结果了.

使用神经网络来识别手写数字【转译】（二）

A simple network to classify handwritten digits Having defined neural networks, let's return to handwriting recognition. We can split the problem of recognizing handwritten digits into two sub-problems. First, we'd like a way of breaking an image con

神经网络的学习 Neural Networks learing

1.一些基本符号 2.COST函数 ================Backpropagation Algorithm============= 1.要计算的东西 2.向前传递向量图,但为了计算上图的偏导,要用到后向传递算法 3.后向传递算法 4.小题目 ==============Backpropagation Intuition============== 1.前向计算与后向计算很类似 2.仅考虑一个例子,COST函数化简 3.倒着算theta =======Implementation N

神经网络详解 Detailed neural network

神经网络之BP算法,梯度检验,参数随机初始化 neural network(BackPropagation algorithm,gradient checking,random initialization) 一.代价函数(cost function) 对于训练集,代价函数(cost function)定义为: 其中红色方框圈起的部分为正则项,k:输出单元个数即classes个数,L:神经网络总层数,:第层的单元数(不包括偏置单元),:表示第层边上的权重. 二.误差逆传播(BackPropaga

使用神经网络来识别手写数字【译（三）- 用Python代码实现

实现我们分类数字的网络好,让我们使用随机梯度下降和 MNIST训练数据来写一个程序来学习怎样失败手写数字. 我们也难怪Python (2.7) 来实现.只有 74 行代码!我们需要的第一个东西是 MNIST数据.如果有 github 账号,你可以将这些代码库克隆下来, git clone https://github.com/mnielsen/neural-networks-and-deep-learning.git 或者你可以到这里下载. Incidentally, 当我先前说到 MNIS

Stanford机器学习---第五讲. 神经网络的学习 Neural Networks learning

原文见http://blog.csdn.net/abcjennifer/article/details/7758797,加入了一些自己的理解本栏目(Machine learning)包含单參数的线性回归.多參数的线性回归.Octave Tutorial.Logistic Regression.Regularization.神经网络.机器学习系统设计.SVM(Support Vector Machines 支持向量机).聚类.降维.异常检測.大规模机器学习等章节.全部内容均来自Standford

【HowTo ML】分类问题->神经网络入门

非线性分类器(Non-linear hypotheses) 为什么使用非线性分类器我们举几个栗子: 假如我们有一个数据空间如左上角坐标系所示,那么我们要的模型需要如右边公式所示的预测函数. 假设有n个特征那么计算二次多项式就有O(n^2)的复杂度.n能有多大?我们来看下面这个栗子. 假设我们需要识别汽车,假如选取图像上两个点,那么就如左边坐标系所示,这没什么. 但实际上我们需要的数据空间时整张图片所有的像素.也就是假设图像是50?50那么我们就有2500个像素点.也就是需要2500个特征. 刚

进一步聊聊weight initialization

深度学习模型训练的过程本质是对weight(即参数W)进行更新,这需要每个参数有相应的初始值. 有人可能会说:"参数初始化有什么难点?直接将所有weight初始化为0或者初始化为随机数!" 对一些简单的机器学习模型,或当optimization function是convex function时,这些简单的方法确实有效. 然而对于深度学习而言,非线性函数被疯狂叠加,这便是一个非凸函数,如何选择参数初始值便成为一个值得探讨的问题. 研究的目的是:选择更适合的初始化方法,使得目标函数更容易

深度学习原理与框架-神经网络-cifar10分类(代码)

cifar神经网络的代码说明: 数据主要分为三部分: 第一部分:数据的准备第二部分:神经网络模型的构造,返回loss和梯度值第三部分:将数据与模型输入到函数中,用于进行模型的训练,同时进行验证集的预测,来判断验证集的预测结果,保留最好的验证集结果的参数组合第一部分:数据的准备第一步:构造列表,使用with open() as f: pickle.load进行数据的载入, 使用.reshape(1000, 3, 32, 32).transpose(0, 3, 1, 2).astype('f

猜你喜欢

网易云，都踩过了网易20年的哪些坑儿？

(上图为网易杭州研究院执行院长汪源) 云计算的核心与本质是什么?网易杭州研究院云计算平台产品部总监.网易云基础服务(网易蜂巢)容器云研发负责人陈谔讲了一个故事:网易云基础服务(网易蜂巢)最初的版本,从 ...

16进制的转换

#include<stdio.h> #include<stdlib.h> #include<string.h> //using namespace std; cha ...

人体视觉数据库

1. Weizmann 人体行为库此数据库一共包括90段视频,这些视频分别是由9个人执行了10个不同的动作(bend, jack, jump, pjump, run, side, skip, wal ...

spring ioc 源码解析

什么是ioc? 通俗的解释是:(spring)框架中,完成对象的创建和注入的容器. springIOC体系结构: spring IOC的创建是典型的工厂模式,这一系列的bean工厂如上所示. 其核心是 ...

attention 机制

参考:modeling visual attention via selective tuning attention问题定义: 具体地, 1) the need for region of inte ...

由return所联想到的（挖个坑待填）

前几天写了个表单提交,由于还不会本地写个数据测试,于是就直接空着URL交给后台同学了.结果今天反馈回一个bug,说是button点击事件并没有用,还没点击就发生了. 举个简单的栗子. 1 <bu ...

AFNetworking+Nginx+HTTPS服务器通信

摘要 1.介绍iOS平台用AFNetworking与HTTPS后台接口进行安全通信. 2.介绍后台自签名证书制作步骤. 3.以及Linux平台Nginx配置HTTPS协议接口的Web站点. iOS A ...

Ajax请求中的async:false/true的作用

最近做东西用到ajax,我在火狐下firebug打断点一点问题都没有,可是关了firebug,程序不进后台方法,纳闷了好久,从来没有遇到过这种情况,最后加了一个参数async:false好了,还是很纳 ...

How do install openjdk and tomcat in ubuntu server

OK, here is the solution I found after searching lots of things: http://www.oschina.net/question/12_ ...

dagger2 重点笔记

官方架构例子,里面有个dagger2的结合的例子 https://github.com/googlesamples/android-architecture https://google.github ...

IntelliJ IDEA 14安装Golang插件go-lang-idea-plugin

1,下载IntelliJ IDEA旗舰版,我用的是14.1.3版本: http://www.jetbrains.com/idea/download/ 2. 下载golang官方SDK和go-lang- ...

Python快速入门方法

1.Python运行环境搭建(Python.exe): 2.Python开发环境搭建(pycharm): 3.Python基本语法,Web知识初步(html表单,cookie,session): 4. ...

使用Python扫描端口

前几天看了个讲使用Python扫描端口的教程,看了之后自己也写了个扫描端口的脚本.记录下来,方便自己以后回顾. 运行效果如下: 具体代码如下,请指教. # -*- coding:utf8 -*- #! ...

java开发GUI程序一般步骤：

开发GUI程序一般步骤: 1. 引包 import java.awt.*; import javax.swing.*; 2. 继承JFrame public class Demo3 extends J ...

[LeedCode OJ]#28 Implement strStr()

[ 声明:版权全部,转载请标明出处,请勿用于商业用途. 联系信箱:[email protected]] 题目链接:https://leetcode.com/problems/implement-st ...

短视频自媒体实操经验分享,原来赚钱就这么简单！

从去年开始,由一条.二更等短视频自媒体开始崛起,短视频的红利期到来了.大家想通过做短视频搬运工想赚钱,要懂得讨好平台和读者.了解平台的游戏规则和网民内心的真实需求,只有这样才能获得平台更多的推荐和网民 ...

Android开发面试经——6.常见面试官提问Android题②（更新中...）

版权声明:本文为寻梦-finddreams原创文章,请关注:http://blog.csdn.net/finddreams 关注finddreams博客:http://blog.csdn.net/fi ...

第十四章提升用户体验之设计实现国际化和本地化

1. 概述把程序设计成可以被多种文化下的用户去使用,这个过程就是全球化. 全球化又被分成两个部分:国际化和本地化. 国际化是设计程序去支持多种文化下的用户的过程. 本地化是把数据.标签. ...

HashMap的两种遍历方式

HashMap存储的是键值对:key-value . java将HashMap的键值对作为一个整体对象(java.util.Map.Entry)进行处理,这优化了HashMap的遍历处理. 第一种:( ...

使用MySQL Proxy解决MySQL主从同步延迟

MySQL的主从同步机制非常方便的解决了高并发读的应用需求,给Web方面开发带来了极大的便利.但这种方式有个比较大的缺陷在于MySQL的同步机制是依赖Slave主动向Master发请求来获取数据的, ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.