构建神经网络的新方法可让人工智能更易理解

调整人工神经元在神经网络中的工作方式,可以让人工智能更容易被破解。

人工神经元作为深度神经网络的基本构件,几十年来几乎从未改变过。虽然神经网络赋予了现代人工智能强大的力量,但它们也是不可捉摸的。

在GPT4等大型语言模型中使用的现有人工神经元的工作原理是接收大量输入,将它们相加,然后通过神经元内部的另一种数学运算将总和转换为输出。这些神经元的组合构成了神经网络,而它们的组合工作可能很难解码。

但是,新的神经元组合方式的工作原理却有些不同。现有神经元的部分复杂性既被简化,又被移到了神经元之外。在内部,新神经元只需将其输入相加并产生输出,而无需额外的隐藏操作。这种神经元网络被称为“Kolmogorov-Arnold网络”(Kolmogorov-Arnold Networks,简称KANs),以其提出者俄罗斯数学家的名字命名。

麻省理工学院研究人员领导的研究小组对这种简化进行了详细研究,该简化可以让我们更容易理解神经网络产生特定输出的原因,帮助验证它们的决策,甚至探查是否存在偏差。初步证据还表明,随着KANs的扩大,其准确性的提高速度比传统神经元网络更快。

纽约大学研究机器学习基础的Andrew Wilson说:“这是一项有趣的工作。人们正试图从根本上重新思考这些(网络)的设计,这很好。”

KANs的基本要素实际上早在20世纪90年代就已提出,研究人员一直在构建这种网络的简单版本。但是,麻省理工学院领导的团队进一步推进了这一想法,展示了如何构建和训练更大的KANs,对它们进行了实证测试,并对一些KANs进行了分析,以展示人类如何解读它们解决问题的能力。团队成员、麻省理工学院迈克斯·泰格马克(Max Tegmark)实验室的博士生刘子鸣说:“我们重振了这一想法。而且,有了可解释性……我们有希望(可能)不再(必须)认为神经网络是黑匣子。”

虽然时间尚早,但该团队在KANs方面的工作已经引起了人们的关注。GitHub上涌现出了许多页面,展示了如何将KANs用于图像识别和解决流体动力学问题等各种应用。

寻找公式

目前的进展是在刘子鸣和麻省理工学院、加州理工学院以及其他机构的同事试图了解标准人工神经网络的内部运作时取得的。

如今,几乎所有类型的人工智能,包括用于构建大型语言模型和图像识别系统的人工智能,都包含称为多层感知器(multilayer perceptron,简称MLP)的子网络。在MLP中,人工神经元排列成密集、相互连接的“层”。每个神经元内部都有一个被称为“激活函数”的东西——这是一种数学运算,它接收大量输入,并以某种预先指定的方式将其转换为输出。

在MLP中,每个人工神经元接收前一层所有神经元的输入,并将每个输入与相应的“权重”(表示该输入重要性的数字)相乘。这些加权输入相加后传递给神经元内部的激活函数以产生输出,然后再传递给下一层的神经元。例如,MLP为所有神经元的输入权重选择正确的值,然后学会区分猫和狗的图像。最重要的是,激活函数是固定的,在训练过程中不会改变。

一旦经过训练,MLP的所有神经元和它们的连接在本质上就像另一个函数,接受输入(例如,图像中的数万个像素)并产生所需的输出(例如,0表示猫,1表示狗)。了解函数的外观,即数学形式,是理解函数为什么会产生某些输出结果的重要部分。例如,为什么在输入某人的财务状况后会将其标记为信用良好?但MLPs是黑匣子。对于图像识别等复杂任务来说,逆向工程网络几乎是不可能的。

甚至当刘子鸣及其同事试图反向设计MLP以完成涉及定制“合成”数据的简单任务时,他们也举步维艰。

刘子鸣说:“如果我们连这些神经网络合成数据集都无法解读,那么处理真实世界的数据集就毫无希望了。我们发现要理解这些神经网络真的很难。我们想改变其建造结构。”

数学绘图

主要的变化是去掉了固定的激活函数,引入了一个简单得多的可学习函数,在输入神经元之前对每个输入进行转换。

MLP神经元中的激活函数会接收大量输入,而KAN神经元外的每个简单函数则不同,它只接收一个数字,然后输出另一个数字。现在,在训练过程中,KAN不再像MLP那样学习单个权重,而是学习如何表示每个简单函数。在今年发表在预印本服务器ArXiv上的一篇论文中,刘子鸣及其同事表明,神经元之外的这些简单函数更容易解释,从而有可能重建整个KAN正在学习的函数的数学形式。

不过,该团队只在简单的合成数据集上测试了KANs的可解释性,而没有在图像识别等更为复杂的实际问题上进行测试。刘子鸣说:“(我们)正在慢慢突破界限。可解释性是一项极具挑战性的任务。”

刘子鸣及其同事的研究还表明,随着规模的扩大,KANs的任务准确度比MLPs高。研究小组从理论上证明了这一结果,并在与科学相关的任务(如学习与物理学相关的函数近似值)中进行了实证展示。刘子鸣说:“目前还不清楚这一观察结果是否会推广到标准的机器学习任务中,但至少对于科学相关的任务来说,这似乎很有希望。”

刘子鸣承认,KANs有一个重要的缺点:与MLP相比,训练KAN需要更多的时间和计算能力。

中国西交利物浦大学的张迪说:“这限制了KANs在大规模数据集和复杂任务中的应用效率。”但他认为,更高效的算法和硬件加速器可能会有所帮助。

原文链接

(机器翻译,轻度译后编辑,仅供参考。)

编辑:李旭媛

审校:章坚

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部