作者 | 周熠
上海脑科学与类脑研究中心
张江实验室脑与智能科技研究院
金风玉露一相逢,便胜却人间无数。——秦观《鹊桥仙》
- 将“复现”作用于“智能”之上,也就是说,将不同的流派应用于不同的子领域,产生了人工智能众多重要的技术和工作。
- 连接流派应用于机器学习领域,产生了人工智能代表性工作——神经网络。神经网络成功应用于包括计算机视觉、自然语言处理、语音识别、行动选择等几乎所有的人工智能子领域。
- 随着时间发展,神经网络的层数逐渐变深,形成深度神经网络,也就是大家常说的深度学习。
- 深度学习包括卷积神经网络、循环神经网络、记忆网络等等。
连接流派
神经网络(Neural Network):连接流派在机器学习领域的应用,之后扩展到包括计算机视觉、自然语言处理、语音识别、行动选择等几乎所有的人工智能子领域。
符号流派包括很多不同的技术,包括逻辑推理、基于规则的推理、专家系统等等。人工智能中的其它流派(如统计流派等)也大抵如此。然而,连接流派却非常神奇,因为它只包含一个技术,即神经网络。因此,连接流派和神经网络几乎是一个等同的名词,虽然前者是一个流派而后者是一个具体的技术。
前文提到,连接流派(即神经网络)受生物神经元结构的启发,构建人工神经元。每个神经元有着多个带有权重的输入,这些输入通过聚合之后,经过一个激活函数,产生输出。人工神经网络就是由许多这样的人工神经元组成的一个网络。
生物神经元 vs人工神经元
这种组成可以有很多不同的方式,这就是神经网络的结构问题。
1、单层神经网络(Single-layer Neural Network)
在麦克洛克和皮茨的神经网络创始论文中[1],神经网络的结构非常原始,只由输入层和输出层组成,而输入层和输出层是全连接的。也就是说,输入层所有的神经元都连接到输出层所有的神经元之上。麦克洛克和皮茨证明了这样的神经网络能够表达很多逻辑函数。
单层神经网络
2、双层神经网络(Multi-layer Neural Network)
然而,正如明斯基等人所指出的那样,单层神经网络不能表达异或函数[2]。因此,连接流派在很长的一段时间内曾饱受质疑。韦伯斯等人其后指出,只要我们在原始的单层神经网络中引入一层“隐藏层”(也称“隐层”,Hidden Layer),就能够顺利解决异或问题[3]。因此,带有隐层(当然还有输入和输出层)的神经网络成为了经典,在很多教科书中,成为了神经网络的代表。
双层神经网络
双层神经网络在相邻层之间也是全连接的,即输入层所有的神经元都连接到隐层之上,而隐层的每个神经元都连接到输出层之上。但是,输入层到输出层没有直接的连接。
3、多层前馈神经网络(Multi-layer Feed-forward Neural Network)
如果在输入输出层中加入更多的隐藏层,我们就得到了多层前向神经网络,也称为多层感知机(Multi-layer Perceptron)。
多层感知机
和双层神经网络一样,多层感知机在连接上一般采取相邻层全连接的方式。
在多层神经网络中,神经网络的深度指的就是神经网络的层数。层数越多意味着神经网络越深。这个时候,我们称之为深度神经网络,其对应的机器学习就称为深度学习。
4、卷积神经网络(Convolutional Neural Network)
随着层数的增加,神经网络就会变得越来越复杂,所需的计算量也会越来越大。
早在上世纪50年代,神经科学家发现视觉皮层某些神经元只分别对视野的中的某个小区域做出反应。这就意味着,如果以图片作为神经网络的输入的话,并不需要下一层的神经元对这个图片中的所有像素都进行信息处理,只需要处理其中的一个小区域(如下图中的小方块)就够了。这就是卷积(Convolution)的含义,这样可以大大地节省了神经网络计算的复杂程度[4]。
除了卷积之外,卷积神经网络也采用池化(Pooling)等思想降低网络复杂性。池化将某一层的一小簇神经元通过取平均值等方式合并到下一层的一个神经元,同样可以大为减少网络的规模。
假设神经网络的连接数总量恒定,卷积和池化可以使网络变得更深。
卷积神经网络
卷积神经网络也是前馈的。它和多层感知机一样,也是一层一层从输入层往输出层连接。但与多层感知机不同的是,卷积神经网络并不要求全连接,而替之以卷积和池化等方式。
5、循环神经网络(Recurrent Neural Network)
前面介绍的网络统称层级网络,而循环神经网络并不在其中。顾名思义,循环神经网络里可以有循环,也就是说,从一个神经元出发,经过多次连接,有可能回到这个神经元本身。
长短程记忆网络LSTM
循环神经网络是个统称,所有具有环路结构的网络都可以称之为循环神经网络。但是,如果不对这些网络的结构加以约束,那么往往效果会较差。因此,循环神经网络中衍生出一些重要的子类,包括Hopfield网络[5]、长短程记忆网络(Long Short-Term Memory)[6]、注意力机制[7]、图神经网络(Graph Neural Network)等等。
由于循环神经网络的特性,可以将状态在网络中循环传递,因此能更好地描述动态时间行为。所以,循环网络更成功地应用于时间序列相关任务中,如自然语言处理等。而与之相对应,卷积神经网络更好地应用于静态任务中,如计算机视觉等。
6、记忆网络(Memory Network)
在经典的计算模型(如图灵机)中,记忆(Memory)起着重要的作用。而在上述神经网络模型中,记忆被隐式地隐藏在神经网络的结构和权重之中,并不是显式地有一个单独的记忆模块。
记忆网络
因此,一个很自然的想法是将显式记忆引入到神经网络[8]。如上图所示,控制器依然是一个有着输入和输入的(深度)神经网络。但是,它可以通过读写头和一个显式的记忆模块相互交互。
机器学习主要关心的就是在数据(输入、输出对)的基础上学习/模拟/近似一个函数(从输入到输出的一个映射)。人工神经网络提供了一个恰如其分的模型。神经网络有着输入和输出,而且这种输入和输出可以是任意的,只要他们能够被二进制表示。同时,神经网络上的可调节权重正是学习所需要的对象。神经网络的学习过程就是权重调节的过程。
在发展前期相当长的一段时间内,受限于各种因素,神经网络技术只是停留在实验室阶段。随着时间的推移,得益于数据(特别是标注好的有效数据)的累积以及计算能力的提高,神经网络在越来越多的应用领域大展拳脚。尤其是近10年,随着深度神经网络在图像识别、语音识别、机器翻译等领域的破壁式成功,人工智能开始大规模从学术界走向工业界,并对社会和经济产生了重大影响。可以说,当前这波人工智能的高峰主要贡献者就是深度学习及其相关技术。
[1] McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, 5(4):115-133, 1943.
[2] Minsky M, Papert S. Perceptrons: An Introduction to Computational Geometry. Cambridge: MIT Press, 1969.
[3] Werbos P. Beyond Regression: New Tools for Prediction and Analysis in theBehavioral Sciences(Ph.D thesis). Cambridge: Harvard University,1974.
[4] LeCun Y, Bottou L, Bengio Y, Haffner P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 1998, 86 (11): 2278–2324.
[5] Hopfield J J. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences of the USA, 1982,79(8): 2554–2558.
[6] Hochreiter S, Jürgen S. Long Short-Term Memory. Neural Computation, 9 (8): 1735–1780.
[7] Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need. Neural Information Processing Systems, 2017: 5998-6008.
[8] Graves A, Wayne G, Reynolds M, et al. Hybrid computing using a neural network with dynamic external memory. Nature, 2016, 538(7626): 471-476.
作者介绍
周熠,现任张江实验室脑与智能科技研究院/上海脑科学与类脑研究中心认知智能研究组课题组长,研究员,中国科学技术大学兼职教授。研究方向为认知人工智能,主要的研究兴趣为如何受脑启发,深度融合基于逻辑的符号流派和基于神经网络的连接流派,及其在认知人工智能领域中的应用,包括AI+教育、自动智商测试、智能语言处理等。
由于微信公众号试行乱序推送,您可能不再能准时收到墨子沙龙的推送。为了不与小墨失散, 请将“墨子沙龙”设为星标账号,以及常点文末右下角的“在看”。
墨子沙龙是以中国先贤“墨子”命名的大型公益性科普论坛,由中国科学技术大学上海研究院主办,中国科大新创校友基金会、中国科学技术大学教育基金会、浦东新区科学技术协会、中国科学技术协会及浦东新区科技和经济委员会等协办。
墨子是我国古代著名的思想家、科学家,其思想和成就是我国早期科学萌芽的体现,“墨子沙龙”的建立,旨在传承、发扬科学传统,建设崇尚科学的社会氛围,提升公民科学素养,倡导、弘扬科学精神。科普对象为热爱科学、有探索精神和好奇心的普通公众,我们希望能让具有中学及以上学力的公众了解、欣赏到当下全球最尖端的科学进展、科学思想。
关于“墨子沙龙”