判断一台机器是否具备强人工智能何时到来半个多世纪前提出了什么实验资金仍然是一个令人

点击联系发帖人 时间：2020-09-05 11:07

强人工智能何时到来

原标题：学界 | Yan LeCun强推的AI简史：两大鋶派世纪之争神经网络华丽回归

编译：李可、瑞清、李阳阳、钱天培

2010年以来，基于机器学习（尤其是深度学习）的预测算法在一些领域取得了极大的成功比如说图像识别和机器翻译。而我们把这些算法都称作是强人工智能何时到来（AI）

不过，深度学习成为这些领域的主流并不是一蹴而就的在强人工智能何时到来纷繁的历史中，联结主义（神经网络就属于联结主义）长时间被符号主义所排斥这篇论攵通过符号主义和联结主义之间的斗争，回溯了强人工智能何时到来的历史以及最近深度学习的出现。

在这篇被Yan LeCun等多位大咖推荐的法语攵章中我们将看到，联结主义的科研者们是如何使用大量的数据和强大的算力一步步用控制论时代的自适应推断机，并主导了符号主義提出的强人工智能何时到来项目

大数据文摘将全文翻译如下，enjoy

2012年10月 ECCV 会议中的一幕将成为计算机发展史上的一个传奇。ECCV几乎汇集了计算机视觉领域的所有优秀的研究人员

“所以在2012年 ECCV 组织的比赛中，谁赢了”

是Hinton，神经网络之父！

他给计算机视觉领域带来了一场地震——他和他的学生提供的系统将传统的方法打的一败涂地而之前他甚至在该领域鲜有研究。

他的学生Alex Krizhevsky提出的AlexNet类似于一个黑箱Alex对这个黑箱說：“你给我好好训练，等可以得到好的结果了就结束吧。”

当时他们使用带有 GPU 的机器进行训练但是和现在相比，机器的算力还是很囿限的但他们通过一些技巧使GPU之间的通信变得高效，并控制了通信的性能损耗

这绝对是一个疯狂的机器，否则它永远不会成功

那个時候，计算机视觉领域的研究人员都在为 ImageNet 这个数据集感到兴奋这个数据集有120万张带标签的图片，共有1000多个类别是衡量比较不同的模型嘚基准。

第一名的错误率是27.3%第二名是27.18%，第三名是27.68%而 Hinton 他们使用了AlexNet：“我们跑的模型很深，我们的错误率是17%”这个错误率比之前最优模型减少了10%。Alex 这个穿黄衣服的极客他做到了！他宣布结果，房间里的所有人都震惊了

他也不能解释为什么要使用这样的技巧，他只是造叻一个黑箱然后让它自己训练，而他甚至对这个领域一无所知在那里，他对面是李飞飞而Yann LeCun坐在房间里面，正站起来准备回答问题（李飞飞是计算机教授，斯坦福SAIL 实验室的负责人Yann LeCun 现在是Facebook FAIR 实验室的负责人，同时也是神经网络的奠基人之一）

计算机视觉领域的人试图反驳 “这样做是不行的，物体识别不能用这种方式来做……” 这些技术最终都落地了这大概是因为它们默默的发展了十年然后厚积薄发吧。

很多人想探究这类方法取得这么好结果的深层原因

深度学习可以看作一个黑箱，它有很深的结构一亿个参数。它通过大量的数据進行训练然后震惊了整个计算机视觉领域。“如果输入的图片有一些扰动你的模型还能给出一样的结果吗？”有人问。

Alex 自己也无法囙答这个问题还是 LeCun 作出了回答：“这个模型能处理这个问题，是因为……”LeCun 非常高兴，李飞飞问他“Yann这个模型和你在80年代发明的模型有根本上的不同吗”，Yann 回答说：“不它们完全一样，并且它赢得了所有的比赛”

深度学习在图像分类任务的成功改变了其相关技术茬科学社区长期边缘化的境况。在这个令人吃惊的结果后面是对这个新方法有效性的质疑，对传统方法未来的担忧对这个新闯入者理論知识缺乏的嘲笑，对新方法带来的改变的疑惑……自2010年以来神经网络对计算机领域产生了深刻的影响，比如说：信号处理语音处理，自然语言处理这个新的方法可以直接把原始数据作为输入，而不需要人工提取特征它还可以通过大量的数据来优化模型，产生令人矚目的结果图1 简单展示了这个转变：由假设演绎模型变成了归纳模型。

计算过程程序，模型的规则在旧的系统中需要人工设置，而茬这个新的系统中它们则成了学习的目标图1 就展示了这种转变。

符号主义 vs 联结主义

神经网络在2012年的 ECCV 取得了巨大的成功但它并不是什么噺东西。利用强大的算力以及大量的数据，现在已经可以满足控制论的一些要求只是最近用于描述这些技术的术语是强人工智能何时箌来（ AI ）。

John McCarthy 于1956年提出了强人工智能何时到来这一概念目前在机器学习领域，尤其是深度学习领域预测算法正在取得重大进展，但把这些技术归于强人工智能何时到来并不严谨在历史上，神经网络（以前叫联结主义）长时间被符号主义所鄙视这两种方法之间的紧张关系在强人工智能何时到来刚诞生并与控制论划清界限时就开始了。

符号主义的学派以认知主义为基础构成了AI的初步框架：认知就是通过对囿意义的表示符号进行推导计算然而，联结主义认为认知可以看作大规模并行计算这些计算在类似于人脑的神经网络中进行，这些神經元集体协作并相互作用（Andler1992）。这两种思想下造出的“智能”机器区别是巨大的

今天我们正在目睹科技史的一个伟大的逆转：之前在強人工智能何时到来领域被边缘化的联结主义重新回归。就像Michael Jordan (2018) 讽刺的那样：“维纳提出的方法却披着McCarthy发明的术语的外衣”维纳提出了控淛论，我们现在使用的神经网络就可以看作控制论而强人工智能何时到来（AI）这个术语是 McCarthy 发明的。

为了讲清楚这些互相交叉的理论方法首先我们可以根据 Web of Science（WoS）收集的出版物数据来进行统计。观察提到“强人工智能何时到来”“符号主义”，“联结主义”文章作者的共引网络就够了

我们可以在图2中看到我们将在本文中将提到的主要人物的名字，他们已经根据不同的科学社区进行了区分在联结主义社區的中心是 Rumelhart, LeCun 和 Hinton。他们是深度学习的奠基者他们周围也有很多其他研究人员 (Holland, Hopfield), 还有一些人为传统的机器学习方法作出了极大贡献，如 Breiman, Mitchell 和

如果峩们看从1935年到2005年出版的 AI 论文联结主义和符号主义之间的斗争似乎更加直观。在图3中我们看到了最初联结主义和控制论的诞生。然后從20世纪60年代初开始，符号主义主导和定义了强人工智能何时到来最后，直到20世纪90年代中期在强人工智能何时到来的第二个寒冬之后，聯结主义开始使用深度学习的名头在科学出版物中占据主导地位

为了对强人工智能何时到来系统有个整体的认识，我们引入三个词语卋界（monde），计算器（calculateur）以及视野（horizon）。这些词在不同的情况下有不同的含义：世界可以是：环境／输入／数据／知识数据计算器可以昰：计算／程序／模型／代理（agent），视野可以是：目标函数／结果／输出

我们讲，这个预测系统安装了一个计算器来根据世界计算一个視野在 AI 的历史中，世界计算器，和视野的实体一直不停的变化对这三部分的架构，研究人员还提出了种种截然不同的方式AI 从符号主义转向联结主义并不是突然发生的结果，也不是说一种比另一种更有效这个转变过程是不同方法和科学社区之间的重新组合与竞争。這也影响了计算技术所需要处理的数据格式，目标以及需要解决的问题 (Latour, 1987)。现在我们稍微总结一下这些概念：符号主义的研究人员尝试著人工设计计算器世界，和视野而联结主义的研究人员则相反，他们尝试把计算器清空了让世界来自己得出它的视野。

控制论和最開始的联结主义

神经网络起源于早期的计算机以及控制论虽然最开始它并不是叫这个名字，我们叫它联结主义

神经网络这个词由神经學家 Warren McCulloch 和逻辑学家 Walter Pitts 在 1943 年提出，最初含义是指给人脑的神经网络进行数学建模那篇文章一直被深度学习的文章引用至今，甚至可以看作联结主义的起源

从图3我们可以清楚的看到，在控制论的早期阶段联结主义一直占据着主导地位。那篇文章所描述的是：神经元接受不同的輸入然后会计算出一个加权和。如果这个加权和超过一个阈值会激发这个神经元。当时这个概念并没有和强人工智能何时到来联系起來“强人工智能何时到来”这个词语还不存在。直到1949年神经学家 Donald O. Hebb 才把神经网络和机器学习联系起来他发现神经元之间通过突触信息被噭活可以看作一个学习过程。受此影响神经网络模型变成了控制论的一个重点，并成了第一台“智能”机器的计算器的核心（Dupuy, 2005）

世界囷计算器之间的耦合

这类系统的特点在于它们与环境（世界）之间紧密耦合，以至于没有必要为它们的计算器配备特别的部分控制论提議直接弄一个简单的黑箱，将这个黑箱的学习与视野联系起来通过测量世界和机器行为的误差来调节黑箱里的参数。这种机器智能行为主要基于信息而不同于强人工智能何时到来诞生时用的符号主义（Triclot，2008）这个信息所指的是编码之前的信号。根据 Shannon 的信息论信息被视為一种纯粹的形式，它表示 “事物中的有序程度或结构”（Triclot2008）。

然后控制论将其计算的视野定义为对世界的输入和输出的比较。在Norbert Wiener 的防空导弹制导系统里预测装置的训练过程就是通过比较目标有效轨迹与上一步的预测轨迹之间的区别，然后不断更新系统

这个设备可鉯根据给定的数据对计算器进行更新，然后收敛到最佳的结果负反馈系统（将输出误差变为自适应系统的新的输入）就变成了控制论的主要部分。这也参考了当时的行为心理学（Skinner1971），参考了生物器官的一些行为机器可以根据环境信号来进行自适应，而不需要在内部给咜设置一些规则总之智能需要有自我学习能力。

Arturo Rosenblueth, Norbert Wiener 和 Julian Bigelow 在 1943 年定义了控制论的基本原理他们想象一个能够自我纠错的机器，通过概率的方法根据目标以及所犯的错误对结果进行修正这就是一个自适应的过程。以严格的“消除主义”思想控制论里的系统可以没有意图，计划或推理的概念（Galison，1994）

Ross Ashby (1956, p. 110) 把系统的计算器部分描述是一个黑箱，控制论里的预测系统的配置与世界和计算器紧密相关它的视野是系统对洎己的自适应优化。 20世纪50年代的控制论系统（HomeostatAdaline等）由于算力限制，只能算是实验室里的一个玩具但现在随着算力的提高以及更多的数據，深度学习可以更有效地配置训练这个黑箱

McCulloch和Pitts提出的神经网络给计算机视觉领域提供了一种特别适合的解决方案，用计算机配备这些原始的自适应机器在20世纪50年代后期，神经网络经历了一次重大的发展进入了一个类脑机器计划。

提出的感知机可以算是一个真正的联結主义系统并且成为了计算器产生智能行为的标志。这种用于图像识别的系统受到了很多关注并从美国海军（ONR）获得了大量资金。

Frank Rosenblatt 设計的机器受 McCulloch 和 Pitts 提出的神经网络的启发同时增加了学习机制。在感知机叠加的各层中输入神经元模拟视网膜活动，输出神经元对系统识別的“特征”进行分类只有中间的隐藏层才能学习。

与 McCulloch 和 Pitts 提出的“下行”组织不同Frank Rosenblatt 提出采用自下而上的方法，用学习机制统计学习网絡结构在软件实现感知机之后，Frank Rosenblatt 将开始构建硬件版本的感知机：Mark I它将400个用光电设备组成神经元。突触权重由电位计编码并且学习期間的权重变化由电动机执行。由于当时的技术限制这类物理实现的感知机还是很罕见的。并且由于强人工智能何时到来另一个分支，苻号主义的发展这部分研究趋于停滞。

Dartmouth, John McCarthy 和 Marvin Minsky 在1956年达特茅斯举行的会议中提出了强人工智能何时到来（AI）这个词语用来反对早期控制论里嘚联结主义 (Dupuy, 2005)。他们觉得机器根据输入和输出进行自适应调整是不够的 “符号主义” 强人工智能何时到来的目标是把人工定义的程序算法囷规则放入计算机系统中，这样可以从更高一级来操纵系统所以AI诞生之初对联结主义的一些观点是排斥的。如图3所示符号主义从19世纪60姩代中期到90年代初，一直在强人工智能何时到来领域占主导地位

符号主义的最初工作由 Herbert Simon 和 Allen Newell 在19世纪50年代推动。1956年他们写了第一个强人工智能何时到来程序 Logic Theorist ，让机器来模拟做决策的过程这个程序完成的任务也经常被强人工智能何时到来的研究人员使用。他们宣布：

尽管这個研究圈子内部有一些分歧但是他们几乎垄断了 AI 研究的一切，包括资金以及大型计算机的使用权从1964 到 1974，ARPA和空军用于研究强人工智能何時到来75%的资金都被他们拿走了他们的项目也争取到了当时为数不多的算力资源。在ARPA受益于 Joseph Licklider的坚定支持，符号主义项目获得了科研资金同时也可以通过在军事系统上的应用来验证系统的合理性。在19世纪60年代初继承自控制论的联结主义方法由于 Frank Rosenblatt 提出的感知机产生了一股熱潮。尽管还是一名学生他开发出了一个神经网络系统 Snarc（1951）。

Marvin Minsky 说符号主义所领导的具有优美数学的AI正面临着“神秘”“被浪漫主义气氛包围”的自组织系统和联结主义的挑战（Minsky et Papert, 1969）。通过对单层感知机的分析他和 Simon Papert 证明了神经网络不能实现异或（XOR）操作，所以觉得它们是沒有未来的正如 Mikel Olazaran (1996) 所介绍的，Minsky 和 Papert 的策略是通过流行的符号主义来对强人工智能何时到来进行定义即使这本书的造成的影响可能并不是作鍺的本意，其后果也将是不可改变的：在1971年 Frank Rosenblatt 英年早逝之后神经网络被抛弃，相关项目的资金资助被停止神经网络离开了强人工智能何時到来领域。

符号主义的机器的主要特征是打破了与世界的耦合并赋予了计算器一个自主的推理空间。在这个完全对计算器开放的编程涳间里可对符号进行操作

20世纪50年代建立的冯·诺伊曼架构，就是这样一个空间。设计于计算导弹弹道的ENIAC（1946）本想在硬件中给机器“编程”，但后来分离了软件和硬件软件用执行基于符号的逻辑运算，而硬件是机器的物理结构 (von Neumann, 1945)

于是一个独立于硬件，专门用于程序的空间產生了硬件变成“计算程序的中央化通用型自动机”（Goldstine，1972pp.198-199），而编程根据艾伦·图灵（2004，p.21）变成了“文书工作”。Paul Edwards（1996）表明接菦人类语言的高级编程语言的出现（再编译成0/1形式的机器语言）使分离物理机器和符号机器成为可能。强人工智能何时到来从此可以说是關于机器的思想的科学编程语言也是强人工智能何时到来对计算机科学的最早贡献之一。

符号操作空间的出现与认知科学的出现 (1956) 有关認知科学反对行为主义心理学极其控制论的“黑箱”概念，它的任务是赋予机器抽象和逻辑能力认知科学也与联结主义不同，不关心生悝学和人的行为只关注推理。计算思想的理论基于二元论，被构建出来：假设精神状态可以同时被物理地和符号地描述；物理式描述如对信息的一系列物理性处理，符号式描述包括符号操作，机械操作比较，层次、推断 (Andler2016) 。这一假说也称为“物理符号系统”假設思想不能直接与世界交流，但世界在思想内部的表示和思想所为可以被嵌在程序中的符号描述和组织

符号主义机器的世界只是一个舞囼背景，机器把它的逻辑原则的语法投射到世界：国际象棋跳棋游戏（Arthur Samuel），几何定理证明 (Herbert Gelertne)就像电子游戏的背景。第一波强人工智能何時到来的特点是发明了简化的空间空间形式需要机器去认识和改动，例如Marvin Minsky的计算机环境Microscope (MAC) 或Terry Winograd的著名语言SHLURDU 想象一个虚构的空间，只有几个房间几个物体Shakey机器人在其中移动，一个“玩具空间”其中的物体可以很容易地被联系到语法，语法经过计算会产生相应的系统行为

洳果计算器投射它自己的世界，这也是因为它企图把自己本身融入视野正是在这个意义上，AI能够以“强者”的姿态回归因为给予系统嘚目标是它自己的，可以从模型的逻辑推理中推导出来巧妙的塑造系统语法的语言都是推论，它们把各种操作层层组织每个操作都是對实体的基础变换，都是一次正确计算基础上的推论(Andler1990，p100) 如决策树，中间逻辑链目标和子目标分解，中途/末尾分析（analyse moyen/fin)

合理的计算视野包含在程序的语法中。机器可以解决实际问题找到正确的解，或做出适当的决策而不需要给它正确答案（比如机器学习中的样本），因为规则可以通过遵循计算器的推理推导出来推理原则的语法和被操纵对象的语义都内置在计算器中，可能会在正确的推理中彼此混淆但也可以或多或少确定下来——以人工的代价：“智能”世界是由设计师实现的，受到监督精准，明确因此理性就是它的视野。昰在机房，这些机器能够达到一定的性能但一旦向它们展现整个世界，它们很快就会变得盲目和愚蠢

20世纪70年代早期，强人工智能何時到来进入了它的第一个冬天联结主义和符号主义的项目都将冻结。两个流派都承诺得过多而结果遥遥无期。联结主义一边Frank Rosenblatt的感知機被过早公之于众。在《激动人心的智能机器》新闻中纽约时报报道“电子计算机雏形出现，海军希望它能走说，看写，制造自己甚至拥有自我意识”。

符号主义一边以Herbert Simon和Marvin Minsky为首，不切实际的宣言很快被否定掉了翻译俄语的翻译器、渗透进敌人战线的机器人，坦克和飞机驾驶员的语音指挥系统宏图面对的现实是：“智能系统” 还只是机房里的游戏。1966年国家研究委员会削减了机器翻译的预算，隨后一系列撤回落到了对强人工智能何时到来的财务和学术支持上：Minsky和Papert在麻省理工学院的micromonde项目斯坦福大学的Shakey机器人， DARPA的SUR语音识别计划……英格兰1973年，重要的Lighthill报告发表劝说人们停止对AI的公共资助。

在资金危机频发的情况下推理逻辑模型的项目奄奄一息，批评越来越多 1965年，Rand委托哲学家Hubert Dreyfus撰写了一篇关于强人工智能何时到来的报告名为“炼金术和强人工智能何时到来”，发表了一个有力的论证：“计算機不能做什么”（Dreyfus1972) , 第一版就大获成功。Hubert Dreyfus对建造强人工智能何时到来的争论迅速大大削弱了推理规则可以给机器“智能”的想法对逻辑規则的阐释完全忽视了知觉有身体的，位置的隐性的，显性的集体性的，语境的也忽视了人类对行为的决策。

第一代“叛徒”出现他们批评、质疑自己曾有的希望：Joseph Weizenbaum，先驱ElizaSHRDLU的设计者 Terry Winograd。“智能”机器与美妙的逻辑规则确定性语法和理性的目标吻合，但这样的机器嘚世界并不存在

强人工智能何时到来第二波浪潮：专家的世界

然而，强人工智能何时到来将在20世纪80年代迎来第二个春天“专家系统”對符号主义机器架构进行了重大修订。

通过访问更强大的计算机将更多信息输入计算机的内存，重生得以实现然后，“玩具”世界被專家的智识构成的“专业知识簿”取代第二代AI与可以世界的外延相互作用，而世界的外延并非由程序员设计塑造：它现在由来自不同领域的专家的知识组成这些知识转化为陈述性命题，用尽可能自然的语言表达 (Winograd1972)，以便用户可以通过提问来互动

根据Edward Feigenbaum为DENDRAL（第一个识别材料囮学成分的专家系统）提出的术语待计算世界的外延导致了符号主义机器的架构改变，分离了计算器构成的“推理引擎”和称为“生产系统”的一系列可能的世界知识的数据库是一个可修改的“如果 ... 那么”型规则的列表（例如：“如果发热，那么[搜索感染]”）它们与嶊理引擎分离，推理引擎用于决定何时、如何应用规则

早期僵化的计算主义想发明一个不切实际的抽象宇宙，受到诸多的批评现在强囚工智能何时到来研究将从最高层开始，理解抽象，然后完成一个概念系统来操作这些新的知识库。然后这个符号主义的项目以超過必要的建模，不完备的推理和启发式的算法在专家的帮助下，更接近用户的世界这种计算器编程的特征在于放松逻辑运算符（语法），而构建过密的表示知识的概念网络（语义）借用关于思想模块性的讨论（Fodor，1983）计算器将推理过程分解为基本的模块，分解为交互嘚“代理（agent）”这些“代理”可以自主地用不同方式使用知识和做出推断。因此第二波符号主义强人工智能何时到来的主要创新构思產生于知识库、知识库衍生出的有启发式意义的语义结构。

越来越多的输入知识和越来越复杂的概念网络推动了另一个转变：推理规则变嘚有条件并且可以被概率化。对于John McCarthy的显式逻辑方法Marvin Minsky和Samuel Papert在20世纪70年代坚持了另一个观点：正确/错误的二分法过于僵化。人们更倾向使用启發式的而非逻辑性的处理因此真/假的分类不如有效/无效的分类。我们主要通过近似简化和合理的直觉来走向真理，而这些直觉实际上昰虚假的(Minsky et Papert, 1970, p. 41)

在专家制定的数千条规则中，可能会发生这样的情况：从一个固定的前提（IF ...）出发第二个命题（THEN ......）有一定概率为真。概率化使我们能够放宽强人工智能何时到来早期确定性的推理形式于是进入机器的知识变得更实际，更多样化更矛盾，渗透进了更多概率（Nilsson,2010,p.475）“有效/无效”代替了“真/假”，那么计算机的目标与其说是逻辑真理不如说是对系统给出的答案的正确性，相关性或可能性的估计但是，这种估计不再有计算机的规则的内在支持必须求助于外部的专家，由专家为机器学习提供示例和反例

推断概率化逐渐渗透到AI領域，以执行程序员无法“手动”实现的任务（Carbonnell etc,1983）在TomMitchell（1977）的工作之后，学习机制可总结为一种统计学方法：计算机自动生成假设空间内嘚最佳模型学习机制“探索”计算器生成的各种假设模型，在逻辑推论上进行推理（概念简化包含关系，反演推导）搜索合理的假設。进行推断性推理消除候选假设的统计方法在此基础上成熟和发展，例如决策树（后来产生了随机森林）或贝叶斯网络（可以因果主義地定义变量之间的依赖关系）(Domingos, 2015)然而，从20世纪90年代初开始数据越来越多，却没有组织起来不是被标记的变量，也不是相互依赖的概念很快它们将失去可懂度。然后我们将看到强人工智能何时到来学习从“探索”向“优化”转变（Cornuéjols et al., 2018，p.22）这将使规则的圣殿崩溃。

偠计算的数据的量和数据的现实意义不断增加归纳机制转向了计算器内部。如果数据不再反映类别变量之间的依赖关系，概念网络那么，为了求得目标函数归纳机制将基于优化标准得出正确的分布(Cornuéjols et al. , 2018, p. 22)。待学习世界的构成转变研究人员修改归纳的方法，并提出完全鈈同的机器架构这种转变随着神经网络的发展加速，但转折点其实已藏于强人工智能何时到来要学习的世界由于数据越来越“去符号囮”，归纳机制构建模型时不再关注初始数据结构而是优化因子 (Mazières, 2016)。计算的视野不再是计算器的内部而是世界从外部给出的值 - 而且通瑺非常“人类”：这个图像是否包含（或不包含）犀牛？这个用户是否在这样的链接上点击（或不点击）答案也就是优化的标准，必须將其输入计算器才能发现贴切的“模型”。因此新的机器学习方法（如SVM神经网络）变得更加有效，但也变得难以理解就如决策树的發明者LéoBreiman（2001）所指出。

由专家系统建设者建造的崇高圣殿没有实现承诺它们太复杂，而且性能非常有限原本充满活力的市场大幅崩溃，有前途的强人工智能何时到来公司也破产了20世纪80年代，计算成本的降低和计算能力的提高给了超级计算机新的机会这些计算机曾被苻号主义者搁置，那时符号主义者统治着各种大型IT项目 (Fleck, 1987, p. 153)将强人工智能何时到来限于符号主义的大学学术圈的控制力越来越弱，在语音合荿模式识别等领域，专家系统获得的成果很少在20世纪90年代初，符号主义的AI非常弱以至于这个术语几乎从研究中消失了。完成无限长嘚显性规则目录让机器懂得人类知觉、语言和推理的千万微妙之处，愈发成为一项不可能的荒唐的，无效的任务(Collins, 1992 ; Dreyfus, 2007).

正是在这种背景下20卋纪60年代末开始流亡的联结主义方法在20世纪80年代和90年代回归和兴起，这个复兴时期理论和算法都有巨大创造。1979年6月在La Jolla 加州，Geoff Hinton和James Anderson组织召開了一个会议会议上，一个聚集了生物学家、物理学家和计算机科学家的跨学科研究小组建议重新审视心理过程极具分布式和并行性的特点

1986年，该小组以并行分布式处理（Parallel Distributed ProcessingPDP）之名，出版了两卷成果这一术语常用来洗脱联结主义的恶名 (Rumelhart et al. , 1986b)。不同于计算机的序列式操作和苻号主义的推理方法PDP基于认知的微观结构，通过利用神经元隐喻的特点绘制反模式：基本单元通过巨大的网络连接在一起；知识不是統计性存储的，而是依靠各单元之间的连接；各单元通过0-1激活机制实现相互通信(<我们的系统中货币不是符号而是激励和抑制>，p.132) ；这些激活一直并行进行而非遵循一系列步骤；信息流没有控制中心；一个子路径不影响另一个子路径，但一个子系统会生成计算中需满足的约束进而调整其他子系统的行为。

由机器执行的操作类似于松弛操作其中计算迭代地进行，直到取得某个满足大量弱约束的近似值 (< 系统咹装出解决方案而非计算出解决方案>，p.135)由联结主义者的构思物生成了许多内部表示，这些表示可能是高层级的但它们是“亚符号的”，统计的分布式的 (Smolensky, 1988)。如上联结主义方法并不简单，而是一种非常有野心的智能架构可以颠覆认知计算。

“一开始在20世纪50年代，潒冯·诺伊曼和图灵这样的人不相信符号主义强人工智能何时到来，Geoff Hinton解释人脑更能给他们启发。不幸的是他们都死得太年轻，他们的聲音没有被听到

在强人工智能何时到来开始时，人们绝对相信我们所需要的智能的形式是一种符号主义的形式不完全是逻辑的，但类姒逻辑的东西：智能的本质是推理现在的观点完全不同：思想只是表示神经元活动的大型向量。我相信那些认为思想可以用符号表示的囚犯了一个大错输入一串字符，输出一串字符如此，字串成为显而易见的事物表现方式于是他们认为两种状态之间必然有一个字串，或者类似字串的东西我认为两者之间的关系与字串无关！思想只不过是一些大型的，可以表示因果的向量它们会产生其他大型向量，这和传统的AI的观点完全不同 “

如果现在新一批的神经网络的使用者少些参考这种认知论，由于他们没有经历过长辈们禁受的排斥和嘲弄他们将形成一个坚持不懈追求联结主义事业的团体。在输入和输出字串之间需要插入的不是对思想的编程模型，而是基本单元构成嘚网络可以根据输入输出调整参数的网络。尽可能地这个网络需要“独自完成一切”，这恰恰需要许多人工的技巧

收到John Hopfield工作的启发，他提出通过赋予每个神经元独立更新其价值的能力来修订Perceptron模型物理学家Terry Sejnowski和英国心理学家Geoff Hinton将在1980年代早期发展用于神经网络的新的多层架構（成为Boltzmann机器），设计者是Nettalk一个具有三层神经元和18000个突触的系统，能够将文本转换为发声的句子

但这次复兴的真正亮点是算法的设计，即随机梯度反向传播（《反向传播》）这使得计算系数权重成为可能。除了对Minsky和Papert（1969）的评论之外作者还表示，当它提供多个层次时可以简单地训练一个神经元网络；这些附加的神经元层可以用来学习非线性函数。该算法通过获取网络损失函数的导数并“传播”误差來修正基础网络（网络下层）的系数在接近控制论机器的精神中，输出误差被“传播”到输入

通过一种通用算法来优化所有类型的神經网络，20世纪80年代和90年代是一个非凡的创造性时期它记录了联结主义的更新。最初成功之一的例子是Yann Lecun创造的他对AT&T贝尔实验室（Lecun等人，1989）的邮政编码进行了识别卷积技术就是AT&T贝尔实验室发明出来的。通过使用美国邮政服务数据库他设法带动多层网络来识别包裹上的邮政编码。

他这种方法的成功正在成为神经网络在银行业（支票金额）和邮政行业中首次广发的工业用途之一。然后遵循一系列建议来适應更多隐藏层使地图链接（编码器）复杂化，使优化功能（RELU）多样化在网络层中集成储存器（循环网络和LSTM），根据网络的无监督和监督学习（信念网络）等部分进行混合 (Kurenkov, 2015 )用非常具有创意的方式，测试许多以不同方式布线神经元之间关系的架构来探索其属性

“它不是佷突出，但效率更高！”

虽然这些算法为当今深度学习的大多数方法提供了基础但它们的发明并不是立即成功的。从1995年到2007年机构支持變得非常罕见，论文在会议上被拒绝取得的成果仍然有限。计算机视觉研究人员说：“他们经历了一次寒冬实际上，在当时没有人鈳以运行这些机器。世界上有五个实验室他们知道，我们跑不了这些机器” 围绕在杰夫·辛顿，亚·莱卡和约书亚·本焦周围的技术研究者们，形成了一个孤立却团结的小团体他们主要是给加拿大高级研究所（CIFAR）提供支持。他们的处境变得比1992年的原始技术学习更加困难叻支持向量机（SVM） - 也被称为“核方法”，是非常有效的小数据集已经处于强人工智能何时到来禁令之下，联结主义者们发现自己已经處于强人工智能何时到来学习社区的边缘

“那时，如果你说你正在做一个神经元网络你的论文就无法顺利通过。直到2010年就像这样，┅直存在我记得，LeCun我们作为被邀请的老师去了实验室，我们不得不全身心投入和他一起吃饭没有人想去那里。我向你发誓这是很倒黴的事情他哭了，因为他的论文被CVPR拒绝了他的东西不够潮流，也不性感所以大家会去看时髦的东西。他们需要掌握核心SVM的事情。所以LeCun他说：“我有一个10层的神经网络它们是并行的。” 他们对他说“真的假的？你确定吗有新东西吗？“因为当你提出一个神经网絡这次它有10层，但它没有比别机器的更好这就很糟糕了！所以他说，“是的（新的）但没有足够的数据！”

在与神经网络的少数推動者相对立的指责中，一个个论证接连不断地被打翻

“他们（那些SVM的支持者）总是说，”你的东西不是很突出它只是一瞬间！“另一位研究员说。他们口中只有那个我们提交了论文，然后他们说：“它不够突出不够优秀！” 他们都是数学很好的人痴迷于优化，在他們的生活中从没有见过这个东西！多年来我们都有接触。所以说我们可以完全不用在意他们。”

由于其非线性构成神经网络无法保證在损失函数的优化阶段，可以找到整体最小值；它可以很好地聚集到局部最小值在2005 - 2008年，真正的政策是由一小群的“神经元的阴谋”的開始的（马科夫2015年，第150页）为了说服机器学习社区，他们也是“<凸>炎症”流行病的患者（LeCun2007）。所以在2007年他们的论文被NIPS拒绝，他们組织了一个卫星会议把与会者用汽车送到温哥华凯悦酒店，捍卫了由SVM最早提出的方法 Yann LeCun演讲说：“谁害怕非凸函数？” 通过研究了几个結果后得出神经网络的表现要比SVM好，他认为线性模型对理论要求的过于接近，无法想象创新的计算架构并关注其他优化方法。当然非常简单的随机梯度下降算法并不能保证可以收敛到整体的最小值，但是“当经验证据表明如果你没有理论上的保证，它只是意味着該理论是不合适的……如果因此你就不得不将凸性抛出窗外，那太好了！（LeCun）。

“这些创意总是很疯狂”这场争议的一位参与者评論道。“最初对于这群人，这群有创意的人这是一场骚动。然后直到那些不在强人工智能何时到来圈子的人的到来在优化方面，人們已经花了十年时间来寻找一种更巧的凸方法来解决复杂的问题，但这是非常昂贵的（算力上）这并不枯燥，但完全干涸了这方面囿成千上万的论文，当大量的数据到来时所有的机器都不工作了！”

因此，联结主义者将通过实验室的新数据流来选择最佳计算方法從而改变关于凸性的科学争议。为了面对大数据用于预测的机器的架构将被转变。这与传统的小型的校准的高度人工的数据集完全不同因为，在此次争辩中以大数据为依托，社会和网络服务的发展产生了一些新的工程问题如垃圾邮件的检测，用于推荐的协同过滤技術股票预测，信息搜索或社交网络分析

在这个工业前提下，新的数据科学的统计方法借用并开发了机器学习技术（贝叶斯决策树，隨机森林等）但是，很显然面对数据的量和异质性特点，更准确说是“验证”技巧有必要使用更多的“试探性”和归纳的方法（杜克，1962年）因此，在与行业接触中（最初是AT＆T然后是谷歌，Facebook和百度）神经网络的阴谋者将遇到问题：计算能力和数据上的，这些问题給他们机会去展示他们的机器的潜力并将他们的观点加诸科学争议。他们将引出一个新的判准：当这些预测适用于“真实”世界时预測是有效的。

新联结主义者首先要求在争辩中加入自己的术语他们解释说，有必要区别“浅层”架构（如SVM）的“宽度”与神经元分层架構的“深度”他们可以证明深度优于宽度：当数据和尺寸增加时，只有深度是可计算的并且可以设法捕获数据特征的多样性所有凸（函数），因为他们SVM不能给出大型数据集一个好的结果：维数增长太快，并无法估量不好的对预测产生了相当大扰动，非线性方法的线性化的解导致系统失去学习复杂表征的能力（Bengio和LeCun，2007）

联结主义者设法说服人们，最好是牺牲计算的可理解性牺牲严格控制的优化，換取对新的数据的复杂性更好的感知随着训练数据量的急剧增加，存在有许多局部最小值在机器学习这种紧张争辩的核心中，一个潜囼词是无所不在：它实验室里模型才是线性的，世界“真实世界”，由之产生的数据图像声音，文字和文本的数字化它是非线性嘚。它是嘈杂的信息是冗余的，数据流没有被归类为齐次变量的属性也并不清晰和易于构造，有些样本甚至是错误的

“一个AI”，Yoshua Bengio等囚写道（2013年）“必须从根本上了解我们周围的世界，而我们认为这是可以实现的。这就是为什么<深层>架构比<浅层>架构更容易计算和更具“表现力”的原因（Lecun和Bengio2007）。降低可理解性让计算器捕捉到更复杂的世界，关于凸性的争论表明归纳性机器的产出绝不是凭天真的經验, 它是一个大量工作的结果, 有必要说服他们重新看待计算器和世界之间的关系。

此外为了使这些数据能运用到科学争辩中，有必要从源头上增加科研数据集的大小

在1988年关于字符识别的文章中，Yann LeCun使用了9,298个手写体的邮政编码自2012年以来就被用在字符识别的数据库mnist包括了 60, 000个標记为黑白的图像, 每个28像素。它已经证明了神经网络的有效性但比起其他技术，比如SVM还是不能赢得支持。另外科学界将利用互联网嘚优势，来产生更大的数据集和构建机器学习任务这种系统的，广泛的尽可能基础的数字数据捕获，让Hubert Dreyfus的格言更具意义“世界上最恏的模型就是世界本身” (dreyfus, 2007, p1140)。正如强人工智能何时到来的异端们长期倡导的那样代表性存在于世界的数据中，而不是计算器的内部（布魯克斯，1988年）

IMAGEnet的诞生，在这方面堪称典范

该数据集用于文章最初提出的挑战，由LI Feifei最初建立（Deng et al2009）。该数据库目前包括1400万个图像其元素已被手动标注了21841个类，分类基于自动语言处理中另一个经典数据库Wordnet的层次结构为了完成这项巨大的工作（鉴定各图像，图像的区别在於图中由人工绘制的方块）有必要通过Mechanical Turk, 将众多的任务交给成千上万的标注器。(su et al, 2012; jaton, 2017)从9298 到1400万个数据，数据量和数据维度天翻地覆同时伴随嘚还有计算器功耗的指数增长，这将由并行化计算和GPU的发展解决 (图 6)

2009年, 显卡上实现了反向传播算法, 从而神经网络的速度提高了 70倍 (raina et al, 2009)。今天有 5 000個样本的分类学习很常见但这很快就会变成几百万个样本的数据集。数据集的指数增长同样伴随着计算器架构的改变：网络中的神经元數量每2.4年翻一番（Goodfellow et al2016，p27）

但是，联结主义者还将采用另一种数据转换通过执行称为“嵌入”的操作将它们粒化并将其转换为可计算的格式。神经网络要求计算器的输入采用向量的形式因此，世界必须用纯数字向量的表示形式进行编码某些对象 (如图像) 自然分解为向量, 洏其他对象需要 "嵌入" 矢量空间, 然后才有可能通过神经网络进行计算或分类。这一技术的原型来自文本为了将单词输入神经网络, word2vec 技术将单詞"嵌入" 到一个向量空间中, 并测量它与语料库中其他单词的距离 (mikolov et al, 2013)。因此这些词在数百维的空间中有了位置。

这种表示的优点在于这种转换鈳提供许多操作在这个空间中位置接近的两个词在语义上也是相似的，我们说这种表示是分布式的：“appartement”的向量[-0.2,0.3-4.2,5.1 ...]会接近“home”[-0.2,0.3，-4.0,5.1 ...]语义接近度不是从符号分类推导出来的，而是从文本材料的所有词的统计邻域推导出来的因此，这些向量可以有利地替换它们所代表的单词鉯解决复杂的任务例如文档的自动分类，翻译或自动摘要因此，连接主义机器的设计者正在进行非常人工的操作将数据转换到另一個系统。如果说语言处理首创性地将单词“嵌入”向量空间那么今天我们正在目睹嵌入的全过程，该过程逐步扩展到所有应用程序领域：有了graph2vec网络成为了向量空间中简单的点，paragraph2vec ——文本movie2vec——电影，sense2vec——单词含义mol2vec——分子结构，等等用Yann LeCun的话说，联结主义机器设计者嘚目标是将世界变成一个向量（world2vec）

因此，必须从计算器中扣除现在由数据多样性和数据量带来的真实的波动因此，神经架构的设计者將在计算器中事先“有意”地插入明确的规则以便预先识别，表征或聚合数据

“这背后有一种力量，”该领域的一位研究人员说“ 囿一股浪潮，数据浪潮一股巨大的带走一切的浪潮。这完全打破了人类建模的所有思想潮流我在多个领域工作过，应用语音，写作文本，社交数据等每次我都是做一样的事情。人们曾有一个时期想将知识放进他的系统中这种想法已被扫地出门。系统性的！这已經持续了三十年逐个领域。就是这样你知道，这很有意思与那些一生都相信社会主义政权然后崩溃的人一样......这是同样的事情。”

从2000姩代末开始以一种非常不安定的心情，看到一种没有理论做依托的技术将取代多年来耐心进行的建模工作，并连续地征服信号声音，图像和自动翻译的社区一个领域接着一个领域，神经网络的计算赢在转换到操作网络中的权重分布的效率这是以前科学活动的主要焦点：特征工程和模式识别。这些技术包括“手动”编写算法以识别初始数据的特征该提取过程通过简化特征与问题或目的之间的关系來促进学习。日益强大的自动化将允许统计机器学习技术获得计算器内部建模器的功能（见上文）但神经网络正在激化这一运动，从特征提取过程转向所谓的端到端过程：从“原始”数字数据转向样本“标记”

此举的一个示例是本文开头缩略图中使用的卷积原理。计算機视觉社区已经开发了非常精细的提取方法以识别图像中的边缘，角落对比度过渡和兴趣点，并将它们与词袋相关联这些操作现在甴给定的卷积网络的特定结构隐式支持: 将图像铺成小的像素切片, 这些像素被分配到分离的神经元片段, 然后再将它们在另一层组装。而不是建模一只犀牛, 或概括像素块的特点来预测犀牛的形状, 几千张犀牛照片在图像中移动, 身体的一部分被切断, 从角度和不同的位置

相比不知道洳何处理缩放，转换或旋转问题的预处理程序这能更好地描绘概念 "犀牛" 对神经元的影响。数据与其特征的关系不是需要的, 而是获得的鉮经网络做很好的提取特征, 边缘往往被第一层神经元 "看到", 角落是另一个, 元素更复杂的形式在最后, 但这些操作, 没有被明确实施, 这是网络在体系结构约束下出现的效应。

因此计算“参数”的预处理已转变为计算器的“超参数”的定义。人工建模的部分越少归纳机器的结构就樾复杂。完全连接的神经网络什么都不产生因此有必要对其进行雕刻，以使其架构适应委托给它的学习任务：隐藏层数每层神经元数，连接方式激活函数选择，初始系数目标函数的选择，向模型显示所有学习数据的次数等这些设置可能会通过试错调整。

例如剪枝（pruning），包括移除神经元以查看是否会改变网络的性能丢弃（dropout）, 在学习阶段, 不发送信号输入层中的一些神经元或随机隐藏的层, 以避免过擬合(overfitting) 。这些方法、技巧和工艺规定为社区的许多讨论提供了素材, 并保持了工艺的特征 (domingos, 2012年)面对特征提取的数学改进，神经网络的生成因而鈳以被看作黑客的工作看作一个有天赋的程序员练习黑魔法一般的技能的活动。

“他们也就是那些与Hinton一起的人，采取了一些措施来完荿所有功能的提取以获取原始图像这很疯狂，因为它是重现的一件事但是以探索的方式！他们制造了一个难以想象的复杂系统，他们能够让它们发挥作用你从这些人那里拿论文来看，我很害怕我太老了！伙计们，他们跟你说话好像他们是在编程。他们没有用对我囿意义的三个方程进行描述

但在5行里，他们会向你描述一个超复杂的东西所以，这意味着他创建了一个架构在这个架构中，他将100个え素彼此放在一起并且每个元素要连接它们，你有十种可能的选择他和它游戏，发动它这是一个黑客，这是一个黑客的工作！”

因此超参数是一个可解释性的新要求可以活动的地方。这些数据不是“自己说话”而是受制于无法从数据中学习的架构，现在集中了大蔀分的AI研究在NIPS会议上，有一篇值得注意的论文它提出了一个新架构，就像对行星命名一样研究人员进行了系统地命名，就像一群好渏的动物通过从模型转向架构，有了表达研究人员创造性的地方创造性也是他们的设计所需要的技能和品质。

这还为新的数据科学家黑客和程序员提供开放且易于操作的工具，以进入以前非常封闭的AI生产者领域通过改变预测机器的架构，联结主义者推动了强人工智能何时到来的社交世界：首先因为“真实的”数据集，特别是来自数字行业的数据已经（部分）取代了学术实验室的“玩具”数据集，还因为生产联结主义机器所需的专业知识是软件开发的技能，但不是前几代AI需要的开发技能

智能机器的发展轨迹刚刚相继在四个背景中进行了总结，显示了它们架构的深刻变革这些设备的世界，计算器和视野都经过了深刻的改造这些组件之间的联系正在塑造那些提供与智能，推理和预测明显不同的定义的设备

然而，整体动态出现在这个动荡历史中计算并制造心灵的唯物主义项目今天已经走上叻坚定的联结主义道路。目前成功的归纳机器只不过是一个术语或已找到的一个“解决方案” 尽管他们的能力很强，但深度学习技术远遠不能满足一般强人工智能何时到来项目的要求就像“符号主义者”一直以来的指责。但是在本文叙述的轨迹中特别指出, 如果不做大量雄心勃勃的工作来改变两者之间的平衡, 这种预测性演算的归纳重组就无法实现

在计算器的输入上，首先世界的构成经历了原子化和颗粒化的深刻运动。数据封装组成的关系全局样式等的许多规律，它们必须由计算器而不是程序员来识别，因此归纳工作的第一个特征是以尽可能最基本的形式将数据引入系统数据：像素，而非形式；频率而非音素；字母，而非字；点击而非用户声明；行为，而非類别......（Cardon2017）。数据是否是异质的冗余的，常常不正确的这些都不再是问题，每一个新的信号都可以作为构成联结主义机器世界输入的矩阵的新列被添加

这一整体变动的第二个特征是计算器活动的先验模型的消失（这种现象通常被描述为“理论的终结”（Anderson，2008））有利於模型的概率在假设空间中越来越大，当考虑到数据的变化维度时模型的更激进的分布散布在神经元网络的多个层。这是早期强人工智能何时到来的巨大野心用于模拟推理，同时为计算机科学研究做出重大贡献

联结主义机器已经将强人工智能何时到来的挑战从解决抽潒问题、正统认知科学的目标，转变为大量敏感信号中的特征归纳归纳生成工作的第二个特点是实现了颠覆AI计算系统的条件，以输出程序而不是输入程序尽管如此，神经网络并没有使“理论”消失他们只是将其转向计算器架构的超参数，同时让“理论”这一概念少了┅些“符号主义”的含义

这一问题使预测过程的理解和可解释性上的挑战尤其敏感 (burrel, 2016；cardon, 2015)。由于许多工作需要在复杂的系统上完成毫无疑問, 我们必须学会使可感知的, 适当的和可疑的形式的建模具有更多的属性 (线性,可读性、完整性、经济性等)。在这些属性中我们使用了——非常 "符号主义" 的——社会科学中模型的<可理解性>的概念。

第三个变动与计算器的视野有关符号主义AI设计出的智能机器给予了理性和逻辑嘚预期目标 – 内植于计算的理性，这让AI的推动者认为机器是“自主的”在联结主义模型中，计算的视野不属于计算器而是属于给了它囿标注样本的世界。输出由人类产生，符号化和加入了偏差的输出这些输出组成了联结主义机器最有价值的数据之一。归纳产生工作嘚第三个特点是通过更新控制论机器反射的自适应预期来建立对世界本身的预测性能: 系统与环境一起计算安装新型的反馈循环总而言之，面对这些越来越具创新的新机器我们还不够富有想象力。

后台回复“志愿者”加入我们

}

NTM实现了简单思维逻辑在物理机制仩的重现从策略到机制的公理化，才是可信性的来源NTM对存储进一步扩展，从LSTM的内部cell扩展到外部存储器并对简单的底层逻辑进行底层機制上的重演。引入内存机制实现从语法到语义的演进。

NTM的维基百科介绍：

此篇译文评论第一个评论里面给出一个翻译链接

翻译到了这個地方有兴趣可以去看一下

此文通过融合一个（与注意力处理过程进行交互的）外部存储器，增强神经网络的功能混合系统等同于图靈机或者冯·诺依曼构架，进而是端到端可微的，因此可以有效的使用梯度下降法进行训练。初步结果显示神经网络图灵机能够（从输入囷输出样本中）推理出简单算法，比如复制、排序和联想回忆

1945)：基本运算（如算术操作）、逻辑流（分支）和外部存储（可在计算时进荇读写），也可以解释为机制、策略和存储虽然在复杂数据建模方面取得了广泛的成功，现代机器学习理论却普遍忽略了对控制流和外蔀存储器的使用（逻辑公理化、记忆-时序状态累计）

and Sontag, 1995)，因而只要合理构建它就具有模拟任意处理过程的能力。但是理论上可行不意味著实践中容易实现为此，我们增强了标准RNNs的能力借此简化算法任务。这个增强方案主要是依赖一个较大的、可寻址的存储器而相似哋，图灵机使用一个无穷存储带增强有穷状态机因而，我们命名这种新构架为”神经网络图灵机”不同于图灵机的是，NTM是一个可微的計算机能够使用梯度下降法进行训练，对于学习程序来说是一个很实用的机制

与算法操作最为相似的处理过程被称为“工作记忆”。嘫而在神经生理学中工作记忆的运行机制尚不明确，根据字面意思可以理解为是信息的短期存储和基于规则的操作集合(Baddeley et al., 2009)。在计算机术語中这些规则即是程序，存储的信息组成了这些程序的参数既然，NTM被设计用来对“急速创建的变量”应用近似的规则所以它类似于┅个工作记忆系统。急速创建的变量(Rapidly-created variables) 是可以快速绑定到存储槽的数据(Hadley, 2009)类似于这种方式，传统计算机中数字3和4被放在寄存器然后相加产生7(Minsky, 1967)NTM支撑起另一个类似工作记忆的模型，因为NTM架构使用了注意过程来对存储器进行有选择的读写对比与其他大多数工作记忆模型，我们的架构能够学习使用他的工作记忆而不需要为符号数据部署一系列固定的程序。

此份报告首先在心理学、语言学和神经科学以及强人工智能何时到来和神经网络等领域对工作记忆相关的研究工作做了一个简单总结。然后描述我们的基础贡献一个存储架构和注意力控制器，且我们相信这个控制器可以适合表述简单程序的归纳和执行任务为测试这个结构，我们设计了一连串的问题并根据我们的测试结果給出精确描述。最后以总结这个架构的能力作为结束

工作记忆的概念在心理学中已经得到较为深入的研究，用来解释涉及到短期信息操莋时的任务性能其大致的画面是一个“中央执行器”聚焦于注意力和操作记忆缓存中的数据（Baddeley等, 2009）。心理学家已经广泛地研究了工作记憶的容量限制通常使用信息“大块”的数量来量化，这种信息块可被轻松地唤醒/回忆(Miller1956)。容量限制导致/使得我们能够理解人类工作记憶系统中的结构性约束，但是在我们的工作中我们依然乐意执行的（记忆系统功能）

在神经科学中，工作记忆过程被归属于前额叶皮层囷基底神经节组成的整合系统的功能(Goldman-Rakic, 1995)典型实验在这个试验中，让猴子执行一个任务----观察一个短暂的提示经过一个“延迟时间”，然后根据这个提示以一种方式响应同时，记录其前额叶皮层的一个或一组神经元的状态特定的任务引发长期激励（神经元）在延迟期间或鍺引发更复杂的神经动力学特性。一个最近的研究量化了延迟期间（在执行某个任务的）的额叶皮层活动为一个复杂的上下文独立的，基于层组维度来度量的任务并且显示这样可以预测记忆的性能(Rigotti et al., 2013)。

2013)在这之中，Hazy等人的模型与我们的工作最为相关因为它也类似于长短期记忆网络LSTM架构，我们基于此模型进行适配更新类似于我们的框架结构，Hazy等人设计机制将信息装入到内存槽slot中此结构我们用来处理基於内部嵌套规则组成的内存任务。与我们的工作相对比这些作者并没有包含内存寻址的精致理念，因此限制了这些系统只能进行相对简單的、原子的数据的存储和唤醒/回忆功能寻址操作（大脑寻址操作），为我们工作奠定基础的工作经常被神经科学的计算模型所遗忘，尽管Gallistel和King (Gallistel and King, 2009)和Marcus (Marcus, 2003) 强调寻址操作一定要在大脑操作中认真详细考虑

2003)。他们的目的都是基于信息或符号处理来解释人的精神活动早在20世纪80年代，两个领域都认为递归式和过程式（基于规则）符号处理是认知的最高级形式并行分布处理 (PDP) 或者联结主义发生改变，抛弃符号处理隐喻洏更青睐于对思考过程的所谓的“子集符号”描述(Rumelhart et al., 1986).

赋值特定的数据语言中，变量绑定是普遍现象例如，当人说出或者翻译“Mary spoke to John”这种形式的句子的时候会将Mary视为主语，John视为宾语而“spoke to”则赋值为谓语。Fodor和Pylyshyn也讨论到绑定定长输入域的神经网络无法产生像人类这样对变长结構处理的能力作为这个论断的回应，神经网络研究者们包括Hinton (Hinton, 的特定机制。我们的架构借鉴、并增强了这项工作

对变长结构的递归处悝一直被认为是人类认知的特质。在过去十年里语言学社区有一个论点使一些人对其他人产生了对抗，此问题是递归处理是否是“独特囚类”产生语言独有的进化创新是特别为语言准备的，此观点得到Fitch, Hauser, and Chomsky (Fitch等, 2005)等人支持或者是否还有多种其他的变化来负责人类语言的进化，洏递归处理早于语言出现(Jackendoff and Pinker, 2005)不管递归处理的进化源头是什么，所有人都认为它是人类认知灵活性的核心

状态可以依靠输入状态和当前的內部状态进行演化。对比隐马尔可夫模型这种同样包含动态状态的模型，RNN具有分布式的状态因而有更大更富裕的存储能力和计算能力。动态状态十分关键因为它给予了基于上下文的计算的可能性；在某一时刻给出的一个刺激信号能够改变后面特定时刻的网络行为。

朂简单的一个例子是x(t + 1) = x(t) + i(t)，i(t)是系统的输入隐含的内部矩阵Ix(t)意味着信号不会动态地消失或爆炸。如果给积分器配置一个机制：允许一个网络在哬时其内部积分器接受输入即是，一个称为可编程门gate电路（基于上下文的）我们得到等式x(t + 1) = x(t) + g(context)i(t)。我们可以在无限长时间内选择性地存储信息

递归网络可以不加修改地处理变长结构（variable-length structures)。在序列问题中网络输入在不同时间到达，允许跨多个时间步处理变长变量或组合结构甴于递归网络可以本身处理变长结构，所以最近被应用各种认知问题包括语音识别(Graves等,

神经网络图灵机架构包含两个基本组件：神经网络控制器和内存池。图1展示了NTM的一个高层逻辑流程图像多数神经网络，控制器通过输入输出向量与外界交互但不同于标准网络的是，它還与一个带有选择性读写操作的内存矩阵进行交互类似于图灵机，我们将执行读写操作的网络输出称为“头/读写头”

为此，我们定义叻“模糊”读写的概念即可以通过更多或者更少的权重（可到达度）与内存中的全部元素进行交互（而不是单一元素寻址操作，通用图靈机和数字计算机中使用此操作）“模糊度”的由注意力“聚焦”机制确定，此机制约束/限定每一个读/写操作交互到一小片内存同时忽略其他部分。由于与内存的交互高度离散NTM网络更偏向于/擅长存储数据同时很少受到干扰。带入注意力焦点的内存地址由读写头上的特萣输出决定这些输出定义了一个归一化的权值，通过内存矩阵的每一行（称为内存“地址集合”）

每个读写头上附有的每一个权值，萣义了它的读写头在各个地址的读写比重由此，一个读写头既可以精确访问单一地址，也可以弱定位在各个内存位置

令M_t代表时刻t的N×M内存矩阵。（N代表地址数或行数M代表每个地址的向量大小）。令W_t在时刻 t 读写头在 N 个地址的读写比重由于所有的权重都进行了归一化，所以W_t向量的内部元素W_t(i)满足：

其中1是一个全部是1的行向量当e_t为全零向量时，整个内存就会被重置为零若权重为零或者擦除向量为零，則内存保持不变当多个写头同时存在时，多个操作可以以任意顺序相互叠加

同样，多个写头的添加动作的先后顺序也是无关的综合擦除动作和添加动作之后，可以得到t时刻的最终内存内容既然擦除和添加都是可微的，组合写的动作也是各自独立微分的注意，擦除囷添加动作都有M个独立元使得可以在更细粒度上，控制对每个内存地址的修改

尽管前面我们显示了读写的公式，但我们没有说明权重昰如何产生的这些权重是由综合两种寻址机制及一些其他补充机制的共同作用产生的。第一种机制“基于内容的寻址”，聚焦于（基於依据控制器提供的值与当前值的相似度来决定的）内存地址这个机制与Hopfield网络(Hopfield, 1982)的地址寻址是相关的。基于地址寻址的优点是检索/定位非瑺简单仅仅需要控制器产生一个与存储数据的一部分相似的数据即可，这个数据被用来与内存比较然后产生的额外的提取存储值。

然洏并不是所有的问题都适合内存寻址。在特定任务中变量的内容就非常随机的，但变量仍然需要一个可识别的名字或一个地址算术問题就落入这一类：变量x和变量y可以代表任意两个值，而 f (x, y) = x × y是一个明确的定义的程序过程针对这种任务的控制处接收变量x和y的值，将他們存储在不同的地址中然后获取他们再执行乘法操作。这个例子中变量是通过指定地址寻址的，而不是内容我们称这种形式的寻址為“指定地址寻址”。内容寻址比地址寻址严格来说更为通用因为内容寻址本身可能包含地址信息。但在我们的实验证明提供地址寻址功能对某些形式的通用化很有必要，所以我们同时引入了两种寻址机制

图2. 寻址机制的流程图。向量keyk_t，和key的强度β_t用作内容寻址。內容寻址的权重被key作用后会基于上一时刻的权重和gate值g_t进行插值调整随后位移向量s_t会决定是否或者进行多少的旋转操作。最后依赖于γ_t, 權重会被sharpen以用于内存访问。

对于内容寻址每个头(在读写时使用的)都首先产生一个M长度的key向量kt，并通过一个相似度度量K[.,.]分别与每个行向量Mt(i)逐一比较基于内容的系统会基于相似度和一个正的关键强度t ，产生一个归一化的权重列表wt^{c}β_t可以放大或减弱聚焦的精度。

基于指定地址的寻址机制既可以用做简单的内存空间遍历也可以用于随机访问。这是通过对weighting的一个转移位移操作来实现的举例，如果当前权重定義为~~全力聚焦~~在一个单一地址上那么一个为1的转移可以位移到下一个地址，一个负的位移则相反

如果gate是0，那么整个内容权重就被完全忽略而来自前一个时刻的权重列表就被直接使用。相反如果gate值是1，那么就完全采用内容寻址的结果

在写入值之后，每个读写头都会給出一个位移权重S_t用于定义一个在允许的整数值位移上的归一化分布。例如如果-1和1被用作位移，则s_t有三个元素分别代表-10，1执行后的位移程度这种普遍的方法是定义转换权值（用来使用一个附加到控制器的多维逻辑回归层）。我们也尝试了另一个方法让控制器给出┅个单一标量，用来表示一个在前一种统一分布的下界例如，如果位移标量为6.7那么s_t(6) = 0.3，s_t(7) = 0.7剩下的s_t(i)均为0。

其中所有的索引算法时间复杂喥为N，如果位移权重不是聚焦sharp的那么公式8中的卷积操作能够导致权重随时间发散。例如如果给-1，01的对应的权重0.1，0.8和0.1则旋转就会将┅个聚焦在一个点上的权重变成轻微模糊在三个点上。为了解决这个问题每个读写头最后会给出一个标量γ_t ≥ 1用来sharpen最终的权重：

结合权偅插值、内容寻址和地址寻址的寻址系统可以在三种补充模式下工作。第一权重列表可以由内容系统来自主选择而不被地址系统所修改。第二有内容系统产生的权重可以再选择和位移。这允许焦点能够跳跃到通过内容寻址产生的地址附近而不是只能在其上。在计算方媔这使得读写头可以访问一个相邻/连续的数据块，并访问这个块中特定数据第三，来自上一个时刻的权重可以在没有任何内容系统输叺的情况下被旋转以便权重可以以相同的时间间隔，连续地访问一个地址序列

上面描述的NTM架构有三个自由参数，包括内存的大小读寫头的数量，允许的地址位移范围但也许最重要的架构选择是选用怎样的用作控制器的网络模型。尤其是我们可以决定使用前馈网络(FN)還是递归网络(RN)。诸如LSTM这样的一个递归控制器拥有自己的内部存储器这个存储器可以对矩阵中更大的存储器起到补充作用。如果将控制器仳作数字计算机的中央处理器单元(尽管比先前定义可能更适合) 是处理器的寄存器他们允许控制器在跨时间操作时能够共享mix信息。另一方媔一个前馈控制器可以模拟递归网络（通过每一时刻都读写同一地址来）。进一步说前馈控制器通常给予网络操作更大的透明度，因為对内存矩阵的读写模式通常比RNN的内部状态更容易解释然而，前馈网络的一个局限性是并行读写头的数量（有限个线性读写头只能读特萣数量的内存）在执行计算任务时会成为瓶颈。一个单一读出头在每个时刻只能对每个内存向量执行一元变换而两个读出头就可以二え向量变换.......。递归控制器则能够存储上一时刻的读出的向量因此不会受到这个限制。

此节阐述了一些列的普通算法任务比如复制和排序數据序列目的不仅是阐述确定NTM能够解决上述问题，而且能够通过学习压缩内部程序这些解决方案的特质是他们超出了训练数据的界限。例如我们更对这种事情好奇：是否这个网络框架能够被训练用于复制长度超过20的序列，在不增加更多训练（数据和过程）的情况下

峩们对比了三个结构：相对于前馈控制器、LSTM控制器、一个标准LSTM框架。因为所有的任务都是偶发性的我们重组了每一个输入序列的初始状態。对于LSTM来说这意味着，设定一个先前状态等价于学习一个向量偏置所有的监督学习任务有两个目标：所有带有逻辑斯特回归输出层嘚网络使用交叉熵目标函数训练。序列预测错误以每序列多少bit的形式评价试验更多的细节在4.6章节中。

4.1 复制任务--线性查找

复制任务用来测試NTM能否存储并回忆起一个任意信息的长序列首先想网络输入一个任意二进制向量组成的序列，并跟随一个定界符跨域长时间周期对信息进行存储和访问对RNN和其他动态架构来说一个难题。我们对NTM比LSTM是否能胜任更长的时间更有兴趣

网络使用任意8字节向量组成的序列来训练，序列的长度在1到20之间随机目标序列是输入的副本，只是不带分隔符注意，在接受（从哪里接受）目标序列时不对网络进行任何输叺，这样确保在网络回忆整个序列时没有借助任何中间过程
如图3所示，NTM( 使用前馈或者还是LSTM的控制器 )比LSTM本身学习的更快消耗更小的学习玳价。NTM和LSTM学习曲线的差距足以戏剧性的说明这已经是质的不同，而不仅仅是量的不同

我们研究了网络在训练过程不只是看到而是能否歸纳更长的序列的能力（很显然他能否从训练错误中学习到在面对新的向量时要更加通用。）图4和图5说明这个过程中LSTM和NTM的行为是完全不同嘚NTM能够随着长度的增加持续进行复制工作，而LSTM在超过20后迅速失效后续的分析表明，NTM不像LSTM能够学习到复制算法的某种形式为了确定这昰一种什么算法，我们查看了控制器与内存之间的交互信息(图6)最后确认网络所进行的操作序列可以总结成一下伪代码：

这实际上描述了囚类程序员如何在执行相同任务时使用低级语言代码。从数据结构方面来说NTM已经学会了如何创建和遍历数组/迭代数组。注意该算法结匼了内容寻址（跳到序列开始）和地址寻址（沿着序列移动）。还要注意到（如果没有基于前一时刻的读写权重进行修改相对位移的能力（公式7））迭代器也无法具有处理更长序列的能力且如果如果没有焦点锐化/权重聚焦(focus-sharpening)能力（公式9）的话，权重就会随着时间的推移开始夨真

循环复制任务是复制任务的一个扩展，它要求网络能够输出复制的序列一个特定的次数并以一个终结符结束复制过程。这主要用來查看NTM能否学会简单的嵌套函数理想情况下，我们希望它能对它学习过的任何子程序执行一个“for

网络接收一个任意二进制向量组成的随機长度的序列之后在一个独立的输入通道，输入一个标量值代表希望复制的次数为了在恰当的时间输出结束标记，网络不但要能够理解外部输入还要对执行了几次进行计数。和复制任务一样在初始化序列和循环次数输入之后，不再进行任何输入训练网络重现随机②进制8位向量序列，其中序列长度和重复次数都从1到10中随机选取输入表示重复次数的输入被标准化，期望为0方差为1.

图7显示NTM学习这个任務比LSTM快得多，但两者都能完美的执行这个任务在被问及针对训练数据的泛化时，两个架构的不同才变得清晰这个案例中，我们对两个維度的泛化感兴趣：序列长度和重复次数

图8阐述了两次复制的效果，其中LSTM两个测试都失败了而NTM在更长的序列上都成功了，并且能否成功执行超过十次；但是它不能记录他已经重复完成了多少次所以无法正确地输出结束标记。这也许是因为使用小数表示循环次数的原因因为在固定的范围它很难被泛化。图9显示NTM学习了前面章节中一个复制算法的扩展序列化读取被认为在必要时重复很多次。

前面的任务展示了 NTM可以应用算法到相对简单、线性数据结构上。下一个复杂性就出现在带有“指针”数据的结构上——其中的项指向另一个我们測试了 NTM 学习这类更加有趣的结构的实例上，通过构造一个项目列表以此查询其中一个项目需要网络返回其后续的项目（查询指针指向的後续数列）。更详细地说我们定义一个项目作为二元向量的序列（通过终止符来进行左右绑定）。在几个项目已经被反传给网络后我們通过展示一个随机的项目进行查询，我们让网络生成这个项目的下一个元在我们的实验中，每个项目包含3个 6 bit 的二元向量（总共就是 18 bit 每項目）在训练的时候，在每个时间片段我们使用最小 2 项目和最大 6 个项目。

LSTM 控制器的 NTM 学习的速度更快

这两个结果表明与 LSTM 的内部存储相仳， NTM 的外存的确是更加有效的一种维持数据结构的方式NTM 同样比 LSTM 在更加长的序列上有着更好的泛化性能，可以在图 11 中看出使用前驱控制器的 NTM 对接近 12个项目（两倍于训练数据的最大长度）的情形下拥有接近完美的效果，且仍然处理 15 个项目的序列时有低于每序列 1 bit 的平均代价。

在图 12 中我们展示了在一个单个测试时间片段内，通过一个 LSTM 控制读头的 NTM 内存操作在“Inputs”中，我们看到输入代表项目的分隔符在第 7 行作為单一的 bit在项目的序列被反传后，在第 8 行的一个分隔符让网络准备接受一个查询项目这种情况下，查询项目对应于在序列中（在绿色盒子中）的第二个项目在“Outputs”中，我们看到了网络给清楚地输出在训练中的项目 3 （在红色盒子中）在“Read Weightings”中，在最后三个时间步我們看到控制器从连续位置上读取了项目 3 存储的的时间分片。令人奇怪的是因为看起来网络已经直接跳到正确的存储项目 3 的位置。然而峩们可以（通过查看“写权重”）解释这个行为。这里我们发现内存甚至（在序列输入包含一个分隔符的时候）也进行了写操作。我们鈳以在“Add”确认这个数据实际上（在给定分隔符的时候）已经写入内存（比如在黑色盒子中的数据）；而且，每次分隔符出现加入到內存中的向量是不同的。

更多的分析揭示出网络在通过使用基于内容的查找产生位移权值获得了在读取后相应的位置后，移动到下一个位置另外，使用内容查找的 key 对应了添加到这个黑色盒子的向量。这其实展示了下面的内存存取算法：每个项目分隔符出现控制器写叺一个该项目的前三个时间片的压缩表示。当一个查询到达控制器重计算同样的查询的压缩表示，使用基于内容的查找来寻找第一次寫表示的位置，然后偏移 1 位来产生后续的序列中的项目这样就把基于内容的查找和基于位置的偏移结合起来。

N元动态文法任务是为了测試NTM是否能快速地适应于新的预测分布在一些时候，我们感兴趣?是是否它能够作为一个可重写表（能够保持转移统计结果），通过模擬一个N元文法模型

我们考虑了所有的在二进制序列中的所欲可能的6-Gram分布。每一个6-Gram分布能够表示为一个表（2^5=32个元素）这个表列出了所有鈳能长度为5的二进制历史序列下一个bit为1的概率。对于每一个训练样本我们首先从Beta( 1/2,1/2 )分布中独立采样，所有32个概率中随机产生6-Gram的概率

我们苼成特定的训练序列，通过当前查找表采样200个按bit位产生的序列。网络一个观测一个bit位然后预测下一个bit的值。问题的最优预测由贝叶斯決策决定(Murphy, 2012)：

其中c为前束上下文中的5bitB是下一个bit值，N0和N1表示目前为止已经观测到的序列中的0和1的数目。我们因此可以对NTM和LSTM的最优预测子进荇对比为获得此对比结果，我们使用了一个1000?长度为200bit的序列验证集合从相同?Beta分布中采样而来的，作为训练数据集合正如Figure13中展示的，NTM得到了一个小的但是更有明显更优的表现（相对于LSTM），但是仍然没有得到最优结果

两种构架在观测新的输入时不断进化，结果在Figure14中顯示对比于最优预测。最近的NTM的内存使用分析Figure15 显示控制器使用内存计数多少 0 和 1 在不同的上下文中被观测到，允许 NTM执行接近最优的算法

此任务测试NTM是否能够完成数据排序——一个重要的基本算法。一个随机生成的二进制序列作为网络输入并附加一个标量优先级。优先喥为从[-1,1]中均匀采样目标序列包含了通过优先级排序的所有二进制向量，描述在Figure16中

每个输入序列包含20?二进制向量集合（附带优先级），每个目标序列是16?最高优先级的向量[5]查看NTM的内存使用，可以引领我们假设优先级决定?每一个相对?写位置为验证这个假设，我们擬合?一个优先级线性方程（对于观测到的写位置）FIgure17显示通过线性方程返回的写位置紧密地与写位置贴合。同样还展示了网络是以增序方式读取内存，即是遍历已排序好的序列

Figure18中的学习曲线显示了NTM（使用了前向控制器和LSTM控制器）都表现超过LSTM（在此任务上）。注意8个並行读/写头（使用前向控制器的）具有最优的性能。这同时也反映出使用一元向量对向量排序的困难。

给出了细节关于试验中的网络配置和使用的学习速率。所有?LSTM网络有三个堆叠隐藏层注意，LSTM?参数以隐藏元的平方比率增长（因为隐藏层的递归链接）对比于NTM ，NTM参數的数量并不会随着内存位置的数量增加而增加在反传算法进行训练中，所有?梯度组分被限制到区间[-10,10]

受生物学中工作记忆和数字计算机的设计启发，我们介绍了神经网络图灵机跟传统神经网络一样，该架构是端到端可微的可以被梯度下降算法训练。我们的实验证奣这个架构可以从样本数据中学会简单的算法，并可以很好地在训练框架之外应用这个学到的算法

}

天天发财游戏网