商城首页欢迎来到中国正版软件门户

您的位置:首页 >鲁特格斯大学等五所高校联手破解AI记忆难题

鲁特格斯大学等五所高校联手破解AI记忆难题

  发布于2026-04-28 阅读(0)

扫一扫,手机访问


这项由鲁特格斯大学、塔夫茨大学、纽约大学、河内科技大学与莫纳什大学联合开展的研究,以arXiv预印本形式发布(编号:arXiv:2211.16780),最新版本更新于2026年4月。感兴趣的读者可通过该编号检索完整论文。

一、从“鱼的记忆”说起:AI为何总是忘东忘西

想象一下,如果你每学一门新课,就会把上一门课的内容忘得一干二净,学习还有什么意义?这正是当前人工智能系统面临的真实困境,研究者称之为“灾难性遗忘”。

如今的AI,尤其是用于图像识别、语音理解的神经网络,有个恼人的毛病:学习新东西时,常常会把旧知识覆盖掉。这就像用新录音覆盖旧磁带,原有的内容瞬间消失。对于需要持续适应变化的场景来说,这无疑是个致命缺陷。

但现实世界偏偏最需要这种持续学习的能力。自动驾驶汽车得不断从新路况中学习,机器人需要根据传感器数据持续进化,视频推荐系统也得时刻跟上用户口味的变化。这些场景有个共同点:数据像流水一样源源不断,根本不可能停下来,等AI攒够所有数据再统一学习。

研究团队将这种最具挑战性的场景,命名为“在线类增量学习”。在这个设定下,AI每次只能看到一小批新数据,只能做一次更新,而且在处理新内容时,甚至不知道自己正处在第几个“任务”。这就好比要求学生每天只能复习五分钟新内容,还不许翻课本目录,但期末考试却要考所有学过的内容——压力之大,可想而知。

二、现有方案的局限:用一个图钉代表整幅地图

面对这个难题,学界此前提出了不少策略。最常见的一类做法,是在AI的“记忆空间”里,为每个类别设置一个“代表点”,也叫“原型”。每当学到新样本,就把对应的特征向这个点拉近,同时推远其他类别的点,以此保持清晰的分类边界。

这个思路不难理解,就像在地图上用一颗图钉来标记一座城市。但问题在于,一座城市不只是一个点——它有老城区、商业区、工业区,分布千差万别。只用一颗图钉,必然丢失大量细节。

现实世界的数据同样如此。以手写数字识别为例,不同人写的数字“1”,形状可能天差地别:有的竖直,有的倾斜,有的带钩,有的像横杠。这种现象叫做“多模态性”,意思是同一类数据在特征空间里会形成多个不同的聚集区,而非整齐地聚在一个点周围。

一些研究者意识到了这个问题,转而采用“高斯混合模型”来为每个类别设置多个代表点。这个模型可以理解为用多个椭圆形的“泡泡”覆盖一片区域,每个泡泡对应一个数据聚集区。然而,这些方法有个致命伤:代表点一旦设定,就被固定下来,不再更新。

麻烦的是,AI的内部记忆空间本身就在不断变化。学习新数据时,其特征提取能力也在调整,导致同样的输入图片,在记忆空间里的落点会发生漂移——就像地图的坐标系悄悄挪动了,但城市的图钉还钉在原地。于是,那些固定不动的代表点越来越无法反映真实的数据分布,模型表现自然随之下滑。

三、研究团队的新思路:让代表点跟着数据一起“游泳”

面对这两个痛点——单一代表点无法捕捉多模态数据,而多代表点又无法实时更新——研究团队提出了一个新框架,命名为MMOT,全称是“基于最优传输理论的在线混合模型学习”。整个研究方案还有个更响亮的名字:OTC,即“用最优传输方法在在线增量学习中培育潜在空间”。

这个框架的核心思想,可以用面团发酵来比喻。高斯混合模型就像一块面团,里面有多个发酵中心,每个中心让附近的面团膨胀成一个鼓包。现在,面团的配方和发酵温度在不断变化,每个鼓包的位置和大小也该随之改变。MMOT要做的,就是在面团持续变化的过程中,实时追踪这些鼓包,而不是一开始就把位置钉死。

实现这一点,关键在于引入了“最优传输理论”,特别是其中的“Wasserstein距离”。这是一种衡量两个分布差异的独特方式:它不仅关心两个分布“有多不同”,还计算“把一个分布变成另一个需要搬运多少东西”——就像搬家,不仅要看两栋楼的距离,还得考虑每件家具的重量和搬运路径。

与另一种常用的KL散度相比,Wasserstein距离优势明显。KL散度在数学上等价于最大化对数似然,而这正是传统EM算法的工作原理。EM算法每次更新都需要多轮迭代才能收敛,在数据持续流入的在线场景下,这种“反复折腾”的代价太高。Wasserstein距离则处处可微、连续稳定,即使两个分布的支撑集几乎不重叠,也能提供有效的梯度信号,非常适合用“小步快跑”的梯度下降法来优化。

四、MMOT的具体运作:高斯混合模型遇上最优传输

具体来说,MMOT是这样工作的。对于每一个类别,研究团队用一个高斯混合模型来表示它的数据分布:这个模型由若干个高斯分量组成,每个分量有自己的均值(代表一个“质心”)、方差(代表这个聚集区的“扩散范围”)和权重(代表该聚集区在整体中的比例)。

为了让这个混合模型尽可能贴近真实数据分布,团队将问题转化为最小化真实数据分布与混合模型之间的Wasserstein距离。通过“熵正则化对偶形式”技术,这个目标函数被转化为期望值的形式,从而可以用小批量数据做随机梯度优化——这正好契合在线学习“每次只看一小批数据”的设定。

为了让梯度能顺畅地流回混合模型的参数,团队还引入了两个技巧。一是“重参数化技巧”:从高斯分布采样时,把随机性分离出来,表示为均值加上标准差乘以一个标准正态噪声。二是“Gumbel-Softmax技巧”:在从多个高斯分量中选择时,用一种连续的近似方式代替离散抽签,使得权重参数也能通过梯度下降来学习。

这两个技巧结合,使得混合模型的所有参数——每个质心的位置、每个分量的扩散范围、每个分量的权重——都可以通过普通的梯度下降来更新,无需EM算法那种反复迭代的流程。每来一批新数据,只需做几步梯度更新,质心们就能跟着数据的变化悄悄挪动,始终保持对当前数据分布的准确描述。

还有个值得注意的细节:虽然每个类别的混合模型是独立学习的,彼此不直接交互,但每个模型只会用自己对应类别的数据来更新,因此不同类别之间的信息不会混淆。整个过程对单个类别内部是无监督的,但从全局看仍然是类条件的,结构清晰,不会出现类别特征被无序混合的问题。

五、动态保持策略:让不同类别的“泡泡”保持距离

有了MMOT学到的多个质心后,研究团队还设计了一个配套的训练策略,称为“动态保持”。这个策略的目的是利用质心信息,加强模型对不同类别的区分能力,防止随着新任务的学习,旧类别的特征在记忆空间里逐渐模糊。

动态保持的核心是一个对比式的目标函数。对于当前批次中的每一个样本,目标函数鼓励它的特征向自己所属类别的所有质心靠近,同时远离其他类别的特征和质心。不同于只用一个原型的方法,这里用多个质心代表每个类别,相当于用多条“磁力线”来吸引样本,而非只有一个吸引中心。特别是那些位于类别边界区域的质心,能够更精准地定义类别的边界,帮助模型学到更清晰的决策分界线。

经过动态保持训练后,同一类别的样本在记忆空间里会聚得更紧密,不同类别的样本则会被推得更远。这种“内部紧凑、外部分离”的结构,使得模型在面对新任务时,不容易把旧类别的特征挤乱,从而更好地对抗灾难性遗忘。

六、记忆回放与样本选择:让缓冲区里的旧样本更有代表性

在线增量学习通常还维护着一个“记忆缓冲区”,用来存储一小部分历史样本,以便在学习新任务时重播旧数据,防止遗忘。研究团队的方案在样本选择上也利用了MMOT学到的质心信息。

具体做法是:对于每个质心,从当前批次中选取距离该质心最近的若干个样本加入缓冲区。这样一来,缓冲区里保存的样本能够覆盖每个类别的不同聚集区域,具有更强的代表性和多样性,而非随机堆砌的一批数据。当缓冲区满了需要替换时,则随机淘汰旧样本,让位于新到来的样本。这种有针对性的采样方式,使得有限的缓冲区空间能发挥出更大价值,为动态保持策略提供更高质量的历史数据支撑。

七、推断阶段:用马氏距离做更聪明的分类

当模型训练完毕,需要对未见样本进行分类时,MMOT的多质心结构也带来了推断方式上的创新。

传统方法通常计算样本特征与每个类别单一原型之间的距离,选择最近的类别作为预测结果。在MMOT框架下,每个类别有多个高斯分量,每个分量都有自己的质心和协方差矩阵。研究团队采用“马氏距离”来衡量样本与每个高斯分量的相似度。

马氏距离与普通欧氏距离的区别,可以用“胖瘦判断”来比喻。欧氏距离只看两点之间的直线长度,就像只看体重;马氏距离则同时考虑数据分布的形状,就像结合身高和骨架来判断胖瘦。对于分布形状不规则的高斯分量,马氏距离能给出更准确的相似度判断。

对于一个待分类的样本,模型先计算它与某个类别下所有高斯分量的马氏距离,取最小值作为该样本与这个类别的“相似度分数”,然后在所有类别中选择分数最低(即最相似)的那个作为预测结果。多个质心组成的“防护网”,比单个质心的“一根杆”能更全面地覆盖类别的特征空间,对那些落在类别边缘区域的样本尤其友好。

八、实验验证:在四个标准数据集上的表现

研究团队在四个广泛使用的基准数据集上验证了OTC的效果,分别是手写数字识别的MNIST、小图像分类的CIFAR-10和CIFAR-100,以及更具挑战性的Tiny-ImageNet。这些数据集被分割成多个连续的任务:CIFAR-10分成5个任务,CIFAR-100分成10个任务,Tiny-ImageNet分成100个任务。模型每次只接收一小批数据,批次大小仅为10张图片,从缓冲区调取的旧样本批次大小为64。

对比的基线方法包括9种当前最具代表性的方案:ER、ASER、CoPE、OCM、GSA、OnPro、MOSE、SBS以及BiC+AC。评价指标主要是两个:最终平均准确率(越高越好)和最终平均遗忘度(越低越好)。

在平均准确率方面,OTC在大多数数据集和内存配置下都超越了所有基线,领先幅度达到2%乃至13%。特别是在最具挑战性的Tiny-ImageNet数据集(100个连续任务)上,OTC比次优基线高出约13%,这是一个相当显著的差距。在内存最为紧张的配置下,OTC的优势最为突出,这对实际部署场景尤为重要。

在遗忘控制方面,OTC在CIFAR-10和CIFAR-100上始终处于遗忘最小的前两名。在Tiny-ImageNet上,有一个基线CoPE的遗忘度看起来更低,但研究团队通过可视化分析揭示了背后的原因:CoPE在这个数据集上从一开始就学得很差,初始准确率本来就低,所以后来遗忘的“量”自然也少。这就好比一个人本来就没学会多少内容,当然不容易忘——但这不代表它学得好。OTC即使遗忘略多,仍然在最终准确率上超越了它,保持在表现最优的前三名之列。

研究团队还通过t-SNE可视化直观展示了不同方法下记忆空间的结构。使用4个自适应质心的OTC,其特征点分布明显比使用单一质心的方法更有条理,不同类别之间的边界更清晰,同一类别内部的结构也更完整。

九、消融实验:每个设计选择的贡献有多大

为了更深入地理解每个设计选择的必要性,研究团队还做了一系列消融实验。

在质心数量的影响方面,研究发现并非质心越多越好。以CIFAR-10为例,当质心数量从1个增加到4个时,准确率稳步提升;但当质心继续增加到5个乃至更多时,性能开始下降,尤其在内存较小的配置下更为明显。直觉上,质心数量太少则无法充分刻画数据的多模态结构,太多则可能导致过拟合,而且每个质心分配到的历史样本数量也会相应减少,降低学习质量。内存越大,能支撑的理想质心数量也越大。

在样本选择策略的影响方面,研究对比了“基于质心选择样本”与“随机选择样本”两种方式。结果显示,基于质心的选择策略在所有质心数量配置下都优于随机选择,差距约在2到3个百分点。这说明质心确实帮助提升了缓冲区样本的代表性和多样性,让有限的存储空间发挥出更大的价值。

在离线学习场景中,研究团队也将OTC与DER++、GeoDL、Co2L等典型的离线类增量学习方法做了比较。即使在不限制在线更新次数的离线场景下,OTC依然在CIFAR-10和CIFAR-100上全面超越这些基线,最大差距超过6%,说明OTC的优势不局限于在线场景,具有更广泛的适用性。

十、与传统EM算法的效率对比

研究团队还从计算复杂度角度详细分析了MMOT与传统EM算法的差异。

在传统EM算法中,每次更新需要对所有数据点计算所有K个高斯分量的响应度,然后更新参数,这个过程需要重复许多次才能收敛,总体时间复杂度很高。

MMOT则通过重参数化和Gumbel-Softmax技巧,把整个过程转化为单次(或少次)梯度更新。由于不需要维护每个数据点对应每个分量的责任矩阵,内存消耗也更低。当EM的迭代次数超过几次时,MMOT在时间和内存上都更加经济,且单次随机更新的方式天然适合数据持续流入的在线场景。

说到底,这项来自五所高校联合团队的研究做了一件很有价值的事:它找到了一种既能捕捉数据复杂结构、又能实时跟上数据变化、还能高效运行的方案,把三个原本相互制约的需求统一在了一个框架里。数据的多模态性不再是障碍,特征空间的漂移不再是隐患,计算效率也不再是瓶颈。

这对于需要持续学习的AI系统来说意义不小。未来的自动驾驶系统、家用服务机器人、个性化推荐引擎,都需要在运行中不断学习而不遗忘。OTC提供的这套工具,可能会成为这类系统的重要基础设施之一。当然,任何研究都有其局限:质心数量的最优设置需要根据具体场景调整,缓冲区的选样策略还比较简单,未来也许有更精妙的替代方案。但作为在线增量学习领域将最优传输理论与混合模型结合的首次系统性探索,它开辟了一条值得继续深走的路。

如果你对这个话题感兴趣,不妨思考这样一个问题:除了图像识别,还有哪些场景的AI系统面临着“既要记住旧的、又要学好新的”这种两难困境?那些场景下,数据的多模态性又会以什么形式出现?有兴趣深入了解的读者,可以通过arXiv编号2211.16780查阅完整论文。

Q&A

Q1:OTC方法中的“多质心”和普通原型方法的“单原型”有什么本质区别?

单原型方法用一个固定点代表一个类别,就像只用城市中心点代表整座城市,无法反映数据内部的多样性。OTC的多质心方法则用多个自适应的代表点来覆盖一个类别的不同聚集区域,并且这些代表点会随着新数据的到来不断更新位置,更准确地追踪数据分布的真实结构,对边缘样本的分类尤为有利。

Q2:在线类增量学习中灾难性遗忘是什么意思?

灾难性遗忘是指AI模型在学习新任务时,把之前学到的旧任务知识快速、大量地覆盖掉。就像每学一门新课就忘掉上一门课一样。这在数据持续流入、模型不断更新的场景下尤为严重,是在线持续学习领域最核心的挑战之一。OTC通过动态保持策略和基于质心的样本回放,让模型在学习新内容时同时维护对旧类别的记忆。

Q3:MMOT框架为什么用Wasserstein距离而不用更常见的KL散度来训练高斯混合模型?

KL散度在数学上等价于EM算法的最大化对数似然,而EM算法每次更新都需要多轮迭代,在数据实时流入的在线场景中代价过高。Wasserstein距离是处处可微的连续度量,即使两个分布几乎不重叠也能提供有效梯度,天然支持用梯度下降做单步更新,同时还尊重数据的几何结构,使得高斯混合模型的参数学习更准确、更稳定。

本文转载于:https://www.163.com/dy/article/KRI6H22K0511DTVV.html 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注