神经网络深度学习 学习小记

一、sigmod function出现的必要性:

  为什么不直接用stage function?在feedback时,假如说我们现在用的是stage function,直接用楼梯式的跳跃函数,我们每次做很小的参数改动时。如果说这个之前这个参数使函数值落在0-1 改变的那一块区域,即便我们做的change很小,但是很有可能直接导致函数最后的0改为1 ,假如这只是输入层改变为1 ,但是这个1 的改变会影响后续太多的网络结构,也就是说stage function会使网络波动过大。而sigmod函数的平滑性会很好地改变这一情况。

二、既然神经元最后可以表示为0 1 ,那么为什么神经网络的表示不能用类似于二进制的神经元直接代替?16个结果用4个神经元不就可以表示了么?

  我们可以这么想,假如我们用的是TensorFlow里那个mnist(是这么拼吧),一个数字手写图片集合。现在我们用3层神经网络来训练,那么我们可以这么想,我们第二层用四个神经元来做隐藏层,这四个隐藏层是表示什么呢?那0 来做一个例子,把一个图片从中间用两条互相垂直的线分为四个部分,我们可以用训练集找出手写0在这四个部分的分布,在其应该有的像素(对应到输入层的每个单元)上加很大的权重,这样对于0 我们就可以得到一个输入图片在0上的得分,大于0.5我们就可以将其判断为0。但是注意,如果我们用四个神经元(2**4 = 16 > 10 )来表示结果可行么?我们知道一个二进制数字,必须联合起来才能正确地表示一个数字,但是这里的情况,每个output对应的得分都是相互独立的。他们没有办法使其联合起来。10个output 只能用10个神经原来表示,而不采用十进制。

时间: 2024-08-26 19:20:15

神经网络深度学习 学习小记的相关文章

[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)

译自:http://sebastianruder.com/multi-task/ 1. 前言 在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我们训练单一模型或多个模型集合来完成指定得任务.然后,我们通过精细调参,来改进模型直至性能不再提升.尽管这样做可以针对一个任务得到一个可接受得性能,但是我们可能忽略了一些信息,这些信息有助于在我们关心的指标上做得更好.具体来说,这些信息就是相关任务的监督数据.通过在相关任务间共享表示信息,我们的模型在

利用手写数字识别项目详细描述BP深度神经网络的权重学习

本篇文章是针对学习<深度学习入门>(由日本学者斋藤康毅所著陆羽杰所译)中关于神经网络的学习一章来总结归纳一些收获. 本书提出神经网络的学习分四步:1.mini-batch 2.计算梯度 3.更新参数 4.重复前面步骤 1.从识别手写数字项目学习神经网络 所谓“从数据中学习”是指 可以由数据#自动决定权重#.当解决较为简单的问题,使用简单的神经网络时,网络里的权重可以人为的手动设置,去提取输入信息中特定的特征.但是在实际的神经网络中,参数往往是成千上万,甚至可能上亿的权重,这个时候人为手动设置是

深度强化学习(Deep Reinforcement Learning)入门:RL base &amp; DQN-DDPG-A3C introduction

转自https://zhuanlan.zhihu.com/p/25239682 过去的一段时间在深度强化学习领域投入了不少精力,工作中也在应用DRL解决业务问题.子曰:温故而知新,在进一步深入研究和应用DRL前,阶段性的整理下相关知识点.本文集中在DRL的model-free方法的Value-based和Policy-base方法,详细介绍下RL的基本概念和Value-based DQN,Policy-based DDPG两个主要算法,对目前state-of-art的算法(A3C)详细介绍,其他

(转) 深度增强学习与通用人工智能

深度增强学习前沿算法思想 CSDN 作者: Flood Sung 2017-02-16 09:34:29 举报 阅读数:3361 作者: Flood Sung,CSDN博主,人工智能方向研究生,专注于深度学习,增强学习与机器人的研究. 责编:何永灿,欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件至[email protected]本文为<程序员>原创文章,未经允许不得转载,更多精彩文章请订阅2017年<程序员>? 2016年AlphaGo计算机围棋系统战胜顶尖职业棋手李世石

Deep Reinforcement Learning 深度增强学习资源

1 学习资料 增强学习课程 David Silver (有视频和ppt): http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching.html 最好的增强学习教材: Reinforcement Learning: An Introduction https://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 深度学习课程 (有视频有ppt有作业) https://www.cs.ox.ac.uk/p

深度强化学习泡沫及路在何方?

一.深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在<自然>杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型Deep Q-Network(DQN),在Atari游戏平台上展示出超越人类水平的表现.自此以后,结合DL与RL的深度强化学习(Deep Reinforcement Learning, DRL)迅速

复现一篇深度强化学习论文之前请先看了这篇文章!

去年,OpenAI和DeepMind联手做了当时最酷的实验,不用经典的奖励信号来训练智能体,而是根据人类反馈进行强化学习的新方法.有篇博客专门讲了这个实验 Learning from Human Preferences,原始论文是< Deep Reinforcement Learning from Human Preferences>(根据人类偏好进行的深度增强学习). 链接:https://arxiv.org/pdf/1706.03741.pdf 过一些深度强化学习,你也可以训练木棍做后空翻

百分点认知智能实验室出品:深度迁移学习十八问

编者按 深度迁移学习是基于深度神经网络的迁移学习方法,BERT通过预训练模型达到深度迁移学习的效果,自从2018年底BERT横空出世以来,就以势不可挡的姿态横扫了众多榜单,甚至在阅读理解任务SQuAD 中超越人类水平.BERT在公检法.媒体出版.军工.快消零售等工业界也迅速落地,如百分点智能对话系统.百分点智能审校系统和百分点智能翻译系统等.BERT几乎在所有的下游任务中效果都获得了明显提升,BERT自此开创了一个NLP的新时代,那就是pre-train + fine-tuning的时代. 基于

深度强化学习(Deep Reinforcement Learning)的资源

来源:http://wanghaitao8118.blog.163.com/blog/static/13986977220153811210319/ Google的Deep Mind团队2013年在NIPS上发表了一篇牛x闪闪的文章,亮瞎了好多人眼睛,不幸的是我也在其中.前一段时间收集了好多关于这方面的资料,一直躺在收藏夹中,目前正在做一些相关的工作(希望有小伙伴一起交流). 一.相关文章 关于DRL,这方面的工作基本应该是随着深度学习的爆红最近才兴起的,做这方面的研究的一般都是人工智能领域的大

深度强化学习之:模仿学习(imitation learning)

深度强化学习之:模仿学习(imitation learning) 2017.12.10 本文所涉及到的 模仿学习,则是从给定的展示中进行学习.机器在这个过程中,也和环境进行交互,但是,并没有显示的得到 reward.在某些任务上,也很难定义 reward.如:自动驾驶,撞死一人,reward为多少,撞到一辆车,reward 为多少,撞到小动物,reward 为多少,撞到 X,reward 又是多少,诸如此类...而某些人类所定义的 reward,可能会造成不可控制的行为,如:我们想让 agent