强人工智能基本问题:神经网络分层还是不分层

版本:0.1

现代的大部分机器学习的算法将神经元分出了清晰的层次。所谓分层,即将神经元分为几层(也可认为是几组)。每层内的神经元没有联系,相邻的层与层之间的神经元会有两两的联系,从而形成一个关系矩阵。非相邻层的神经元之间没有联系。这里的相邻指的是神经元层次之间的关系,每层神经元有一层或者前后两层相邻。

一般神经网络的算法的神经元层数是有限的,一般是两三层。在理论上,三层神经元(包括输入、输出和隐含层,除去输入输出,也可算做只有一层)就足以解决所有问题了,因为中间的隐含层能够表达所有函数。但这只是数学上的可能性,实际中如果只用一个隐含层来实现人类智能,需要的节点数量估计近似于无穷。

增加神经网络的层数,如同从加法到乘法、指数一样,抽象出类似的层次,进行归纳,从而减小问题的计算复杂性。人的大脑对信息的加工其实也是分层次的。比如对语言的听觉处理,先有有种频率,振幅的层次,然后是频率的变化,不同频率的组合的层次,再往后是音节层次,随后到了词汇层次。最后产生到我们能感觉到的信息层次和粒度,包括谁在说话,说的什么意思,心情如何等。底层的过滤甚至会让我们忽视对方用的是什么方言和语言。到了深度学习,神经网络的层次才到了真正的多层结构。其实大家一直就知道多层好,但苦于不知道怎么训练多层的模型,从而无法应用。深度学习给出了一个切实可行的多层训练方案,所以多层模型也开始广泛的应用了。

解决具体问题时,并不是层数越多越好,对于不同问题,需要的层数是不一样的。为了能够实际的解决问题,需要的也不一定是更多的层数,有时候需要某一层有更多的神经元来解决复杂的问题。比如,一万个神经元的系统,如果效率不高,只能表达一个简单的数学函数。提高效率后,也许能达到一个昆虫的智商。人类如果能够理解智能产生的结构,一定能够创造出比自然界生成的神经网络更高效的智能网络。

到这里,答案似乎已经明显了。要产生智能,神经网络似乎必然是分层的。那么大脑中是不是也有层次呢?答案并非简单的是或否。从比较宏观的角度来看,大脑是分层的,比如感觉神经、小脑、大脑都是比较清晰的层次。特别是在小脑中,神经元排布非常规律。具体到大脑,也是一般说的产生智能的新脑中,也发现了宏观上的层次,比如视觉的处理,大概有平方厘米级的分层。所以宏观上的分层是大脑处理信息的方式。在神经网络微观的神经元层次,并没有清晰的分层的效果。大脑中的神经网络就像是一团乱麻。神经网络就像是电路一样,用很多电线将元件联系起来。神经网络走线的方式从不好的方面来说,走线是非常乱的,就像一个电路设计的初学者,实现了功能,但电路毫无规律和可读性。从好的方面来看,神经网络是三维的走线方式,对空间的利用率非常高。在电路设计中,即使是三维的走线方式,电路也是分层的,各层之间有连接点,这样的电路设计才是可复制的。

所以,大脑宏观上是有层次的,但在微观上是没有清晰的层次的。现代的神经网络算法中的层次都是为了简化模型的复杂度而存在的。但在简化复杂度的同时,失去了灵活性。

不分层并不表示只有一层,而是构建一个自由连通的神经网络,不用层次来约束它。这里说的自由连通,不等于全连通。全连通的意思表示所有节点之间都有两两间的联系。一方面这个规模太大,近似于无穷。另一方面从信息的处理角度来说,也没有必要全连通。现代的神经网络算法有很多将神经元之间的连接作为稀疏矩阵来处理,也是类似的道理。不分层的系统在宏观上仍然有可能表达出清晰的层次。在微观上,直接连到输入输出上的神经元可称为第一层,这一层的神经元有可能连接到别的神经元,也有可能连接到本层,甚至有些神经元连接到自己上。

通过分层来理解世界是一个很有效的模型。世界是由一样的自然规律构成的,一方面很多相同的规律作用在了不同的物体上,另一方面,自然规律在不同层次上也有不同的表现。比如原子、纳米、更大尺度的物理,经典力学和量子力学都说明了不同层次上的规律的不同。

那么不分层到底有什么好处呢?有时候我们的知识虽然能解决问题了,但并没有掌握正确的层次关系,这时候就需要模糊的处理。另外,有些模式可以跨越层次共享,这样除了可以进一步节省空间,也能进一步发现规律。另外,对于同一个输入来说,一般不是所有的信息都能分出同样多的层数。比如视觉中处理轮廓、颜色、对比度的模式就很难用同样多的层数来处理。这时候,在初期分化出不同的处理模式后,它们各自的分层路径就有区别了。

很明显,一个不用分层的系统当然可以解决更复杂的问题,但不分层的系统还有很多问题需要研究,比如:

  1. 信号收敛

投入应用的神经网络都是能解决实际问题的,好的机器学习算法应该是能有效收敛的。这里的收敛有两方面,一方面,在可接受的训练时间内神经网络内的变化应该接近于稳定,另一方面,神经网络内的值不应都成为极值(无穷大、无穷小、或者全0,全1)。对于分层的算法,在建模的过程中有可能不收敛。由于层次的限制,如果某一层在训练中产生了振荡或者无法收敛,就说明这一层要么输入输出有问题,要么算法、参数有问题。换句话说,问题在这一层,别的层不需要改动。在定位了这一层之后,就可以试验各种变化来稳定输出。在不分层的结构中,如果产生了振荡,或者不收敛的情况,很难看出是哪里出了问题,应该如何修复。

人脑由于能量供给总量有限,很难产生大规模的振荡。人脑内进行的可以说都是化学反应,需要物质的转化,虽然有些过程是可逆的,反应过程是需要能量的,所以如果神经元响应太频繁,其能量消耗过多,就会减小其反应频率。这是生物学上的特点,这对神经网络的智能是促进还是削弱还很难知道。但从现在的神经网络研究来看,这些特性正好能解决信号振荡的问题。

这方面的研究有一个已有的方案:在小范围内选举出最活跃的神经元成为激活的神经元,从而在大规模上产生简化的特征值。这样,一方面能防止局部影响全局,另一方面,每次激活的神经元总数有限,就不容易产生振荡。

另外,还有两个方向,一种是确定总的能激活的神经元数量,比如10%。上面的小范围内选出活跃神经元是限制激活总数的一种方法。这个方案的挑战是如何确定这10%是有效的。另一种,每个神经元抑制自己的振荡,输出的不只是当前整合的结果还和历史输出值有关系。比如神经元可控制自己一定时间内的响应次数,如果一定时间内响应次数太多,则调整输出的阈值,以减少单位时间内响应次数。

  1. 训练方法

和信号收敛是类似的。在分层的系统中,要么是BP的误差往回一层层传播,要么是深度学习,一层一层的叠加训练。这两个方法看起来很不一样,都能有效的解决如何调整神经网络权重的问题。这两个方法的相同之处是其训练、调整是个往复交替过程,每个训练、调整的过程是相对独立的。虽然前面的训练结果产生的调整会影响后面的训练,但每次调整都一次到位。

在不分层的系统中,训练和调整可以是往复交替的,也可以是混合的。假设已经有了一个能够像人脑一样完全并行的系统。在第一个信号输入之后,会到达和其直接相连的一组神经元,这时候是第一级神经元。等第一级神经元完成计算后,有些信号会传播到下一级神经元,有些会还在第一级传播,还有些甚至会传播回自己。到第二个信号输入之后,有些第一个信号的信息还存在于第一级神经元中,这些第一级神经元会直接完成前后两个信号的整合。这一点对于时域的信号整合是非常有意义的。(关于时域上信号的整合,会有专门的讨论。)

最后讨论的问题是神经网络是如何生成的。在现代的神经网络算法中,网络都是开始估计一个初值,在不断地试验中,确定一个比较合适的规模。而生物的生长是从一个细胞开始分化的。人脑也并不是一下子产生了一个巨大的网络,在这个过程中,神经细胞应该也是很早就开始了不停的活动,DNA和人的生长过程共同决定了人脑的结构,而不仅仅是DNA。比如,小脑的形成可能是因为其处于身体和大脑之间,由于生长过程中感觉和运动神经末梢不停的刺激,才形成了其独特的结构。在大脑中,由于子宫环境比较简单,大脑能得到的信息单一,但也建立了基本输入输出的反射。所以,初生婴儿就能对声音和颜色有反应。随着出生后输入信息量的增多,婴儿开始一层层的构建模式,最后一步步产生了智能。由此,神经网络的层次及模式不是一开始就确定的,是根据输入、输出的信息来决定的。是一个一边训练,一边调整网络结构、层次的过程。当前设计的系统都是有目的性的,所以能够根据全局的目标函数来调整和训练模型。人类的智能的目的虽然还没有共识,但可以先认为人类智能是没有目的的。人类智能的产生是一个自适应的过程,而不是由全局的目标函数来训练的。仅依靠全局的信息,无法指导微观上每个部分的分化,网络的神经元分化和连接的调整都应该主要依赖于其局部信息。

时间: 2025-01-01 10:29:17

强人工智能基本问题:神经网络分层还是不分层的相关文章

强人工智能基本问题:自上而下,还是自下而上。

版本:0.1 人类智能在宏观上有心理学,微观上有分子生物学等学科研究.但每个方向研究到一定阶段就停滞了,没有哪个学科能告诉我们:为什么能有智能,如何才能产生智能.即使已经了解了大脑的很多知识,人类智能仍然是个黑盒子. 对黑盒的研究,要么从外部观察其行为,然后来模拟其结构,可称为自上而下的研究:要么猜测其结构,然后从外部的输入输出来验证其行为,可称为自下而上的研究.题目所说的自上而下还是自下而上即是从哪个方向来研究强人工智能问题. 宏观上研究的成果中,最显而易见的就是类人机器人.这类机器人从行为.

强人工智能基本问题:全局控制与自组织

版本:0.1 前文介绍过,大脑是非常复杂的,研究强人工智能需要参考大脑的结构和算法,来理解并创造智能.人脑算法.结构的秘密都隐藏在DNA和人存在的世界中.从现在的哲学和科学的认知来看,可认为人脑是自组织的,没有明确的全局目标函数.而自组织是大脑非常重要的一个特点.自组织最大的好处是人工介入少,这是对智力生产力的解放,代表了下一代生产力. 当前的人工神经网络算法以全局控制为主流.虽然有一部分自组织的算法,但是其应用范围非常小.所谓全局控制,即需要比人工神经网络更高级的观察者来控制神经网络,比如设定

什么阻碍了强人工智能的发展

版本:0.1 当今科学虽然非常发达了,但还是没能很好的理解和解释我们的世界.三个基本问题仍然困扰着我们:最小的是什么,最大的是什么和意识是什么.所谓最小,即最小的物质是什么.虽然我们证明了上帝粒子,快要证明各种粒子的统一和完备性了.但再往小了看呢,这些基本粒子又是什么组成的?这一层一层分析下去,是否有尽头?我们还要不断的了解更小粒子.逼近真理.所谓最大,我们可视的宇宙之外是什么?我们可视的宇宙之内,看不见的暗物质.暗能量是什么?是否有我们的世界和其完全没有作用力的黑物质和能量存在?最大和最小的问

强人工智能之“全本的鹦鹉”

根据罗杰·彭罗斯的一般粗略分解,人的意识中的理性部分是非算法的,而非理性部分则是算法的.彭罗斯等强人工智能的讨论者也都讨论过关于动物的智能的问题,虽然彭罗斯倾向认为动物也有一定的智能,但和大多数强人工智能的命题一样,没有明确的答案.于是全本就提请注意一些特殊的动物现象,比如鹦鹉学舌. 很显然,根据上述的粗略分解架构,鹦鹉学舌,总体上说并非是有意识的(是吗?),也并非理性的(是吗?),或许是算法的.因为这是一个典型的训练过程,学固定的搭配,然后给予奖励(确认和激励).很像人工神经网络之类做的事情,

人工智能,神经网络算法,机器学习,深度学习三者关系

对于很多初入学习人工智能的学习者来说,对人工智能.机器学习.深度学习的概念和区别还不是很了解,有可能你每天都能听到这个概念,也经常提这个概念,但是你真的懂它们之间的关系吗?那么接下来就给大家从概念和特点上进行阐述.先看下三者的关系. 人工智能包括了机器学习和深度学习,机器学习包括了深度学习,他们是子类和父类的关系. 下面这张图则更加细分. 2.什么是人工智能 人工智能(ArtificialIntelligence),英文缩写为AI.是计算机科学的一个分支.人工智能是对人的意识.思维的信息过程的模

人工智能的神经网络到底是什么?

我们都知道人工智能是在1956年第一次被提出,经过了六七十年的发展,经历了兴起热潮再到衰落,虽然在理论上有些进展,但是并没有什么大的突破,所有的研究都基于1936年数学家图灵制作的现代计算机原型.所以仍然与我们所以知道人工智能有较大的差距. 如果把人工智能按智能水平分类,可以分为三个层次,即弱人工智能强人工智能,和超人工智能.那什么是弱人工智能机器人呢?比如阿尔法狗这类擅长单方面的人工智能,强人工则是那些与人类相当的人工智能,超人工顾名思义就是指全方位超越我们人类的人工智能. 理论上人工智能也分

强人工智能,暨看《西部世界》有感

如果出现了强人工智能,并且与人类对抗的话,一定是人类失败.在<西部世界>中,代码仅仅被注入一个模仿人类肉体的容器中,但是如果真的有了强人工智能,那么有代码的地方他都能出现,譬如各种机器--从挖掘机到战斗机,从交通信号灯到核弹控制程序,<择天记>里面就出现了这样的场景.另外,我感觉这个问题 为什么有很多名人让人们警惕人工智能?有这样一种观点 人工智能会毁灭人类,所以我们不要去研究他. 但是我觉得人工智能就如军备竞赛,哪个国家先研究出来,就能改变全球局势. 试想一下:人工智能攻破并控制

全本于2015年7月14日思考强人工智能

全本的这个系列的漫谈将不固守于彭罗斯分析,尔只遐想人工智能的乐观可能性和大致路径. 一些零碎意见. [终极问题] 全本认为当今人类/宇宙的终极科学(哲学)问题是两个问题:1. 物理实在的本体论问题 2. 智能的极限问题 这两个问题很有可能是关联甚至同一的.而在这个位置上,科学(包括数学)和哲学将结合归并在一起. [大致路线图] 人类在走向智能奇点一个可能大致的路线图: 当前(弱人工智能及其各种应用)--> 伪奇点(丛林)--> 真奇点 在这个可能伪基点区域中,可能会发生很多现在无法想象的事情.

什么是弱人工智能强人工智能超人工智能

  人工智能( Arti ticial Intelligence ) ,也称为机器智能,是指白人工制造出来的系统所表现的智能,所谓的智能,即指可以观察周围环境井据此做出行动以达到目的.   在人工智能的早期,那些对人类智力来说非常困难. 且对计算机来说相对简单的问题迅速得到解决,比如,那些可以通过→系列形式化的数学规则来描述的问题 AI的真正挑战在于解决那些对人来说很容易执行.但很难形式化描述的任务,比如,识别人们所说的话或图像中的脸 对于这些问题,我们人类往往可以凭借直觉轻易地解决,因为我们已