去年,麻省理工学院的研究人员宣布,他们构建了“液体”神经网络,其灵感来自小物种的大脑:一类灵活、强大的机器学习模型,可以在工作中学习,可以适应不断变化的条件,用于现实世界的安全关键任务,如驾驶和飞行。这些“液体”神经网络的灵活性意味着将血统提升到我们的互联世界,为涉及时间序列数据的许多任务提供更好的决策,例如大脑和心脏监测、天气预报和股票定价。

但是,随着神经元和突触数量的增加,这些模型的计算成本变得昂贵,并且需要笨拙的计算机程序来解决其潜在的复杂数学问题。所有这些数学,类似于许多物理现象,随着大小而变得难以解决,这意味着计算许多小步骤来得出解决方案。

现在,同一组科学家发现了一种缓解这一瓶颈的方法,通过突触解决两个神经元相互作用背后的微分方程,以解锁一种新型的快速高效的人工智能算法。这些模式具有与液体神经网络相同的特征——灵活、因果、健壮和可解释——但速度快几个数量级,可扩展。因此,这种类型的神经网络可用于任何涉及随着时间的推移洞察数据的任务,因为它们即使在训练后也很紧凑且适应性强——而许多传统模型是固定的。

这些模型被称为“封闭形式连续时间”(CfC)神经网络,在一系列任务中优于最先进的同类模型,在从运动传感器识别人类活动、模拟步行机器人的物理动力学建模和基于事件的顺序图像处理方面具有更高的加速和性能。例如,在医学预测任务中对220,8名患者进行抽样时,新模型的速度提高了000倍。

关于这项工作的一篇新论文发表在Nature Machine Intelligence上。

“我们称之为'CfC'的新机器学习模型用封闭形式近似取代了定义神经元计算的微分方程,保留了液体网络的美丽特性,而无需进行数值积分,”麻省理工学院教授Daniela Rus说,计算机科学和人工智能实验室(CSAIL)主任,新论文的资深作者。“CfC模型是因果的,紧凑的,可解释的,并且训练和预测是有效的。它们为安全关键型应用提供值得信赖的机器学习开辟了道路。

保持液体

微分方程使我们能够计算世界或现象演变的状态,但不是一直到时间 - 只是一步一步。例如,为了对自然现象进行建模,并理解以前和未来的行为,例如人类活动识别或机器人的路径,该团队利用了一袋数学技巧来找到门票:一个“封闭形式”解决方案,在单个计算步骤中对整个系统的整个描述进行建模。

通过他们的模型,人们可以在未来的任何时候以及过去的任何时间计算这个方程。不仅如此,计算速度要快得多,因为您不需要逐步求解微分方程。

想象一下,一个端到端的神经网络从安装在汽车上的摄像头接收驾驶输入。网络经过训练以生成输出,例如汽车的转向角。2020 年,该团队通过使用具有 19 个节点的液体神经网络解决了这个问题,因此 19 个神经元加上一个小型感知模块可以驾驶汽车。微分方程描述了该系统的每个节点。使用封闭式解决方案,如果您在此网络内替换它,它将为您提供确切的行为,因为它很好地近似于系统的实际动态。因此,他们可以用更少数量的神经元来解决问题,这意味着它将更快,计算成本更低。

这些模型可以接收时间序列(时间发生的事件)的输入,可用于分类、控制汽车、移动人形机器人或预测财务和医疗事件。通过所有这些不同的模式,它还可以提高准确性、鲁棒性和性能,更重要的是,计算速度——这有时是一种权衡。

解决这个方程对推进自然和人工智能系统的研究具有深远的影响。“当我们对神经元和突触的通信进行封闭式描述时,我们可以构建具有数十亿个细胞的大脑计算模型,由于神经科学模型的高计算复杂性,这种能力在今天是不可能的。闭式方程可以促进这种大层次的模拟,因此为我们理解智力开辟了新的研究途径,“麻省理工学院CSAIL研究附属机构Ramin Hasani说,他是新论文的第一作者。

便携式学习

此外,有早期证据表明,Liquid CfC模型在一个环境中通过视觉输入学习任务,并将他们学到的技能转移到一个全新的环境中,而无需额外的培训。这被称为分布外泛化,这是人工智能研究最基本的开放挑战之一。

“基于微分方程的神经网络系统很难求解和扩展到数百万和数十亿个参数。获得神经元如何相互作用的描述,不仅仅是阈值,而是解决细胞之间的物理动力学,使我们能够建立更大规模的神经网络,“哈萨尼说。“这个框架可以帮助解决更复杂的机器学习任务 - 实现更好的表示学习 - 并且应该是任何未来嵌入式智能系统的基本构建块。

“最近的神经网络架构,如神经常微分方程和液体神经网络,具有由代表无限潜在状态的特定动态系统组成的隐藏层,而不是显式的层堆栈,”波音公司Aurora Flight Sciences的AI和机器学习小组负责人Sildomar Monteiro说,他没有参与本文。“这些隐式定义的模型显示出最先进的性能,同时需要的参数比传统架构少得多。然而,由于训练和推理所需的高计算成本,它们的实际采用受到限制。他补充说,这篇论文“显示了这类神经网络的计算效率的显着提高......[并且]有可能实现与安全关键型商业和国防系统相关的更广泛的实际应用。

相关文章