您的位置:首页 >训练AI只需要跑完前10%,剩下的90%都能在小模型上跑
发布于2026-04-24 阅读(0)
扫一扫,手机访问

(来源:麻省理工科技评论)
训练一个大型AI模型,代价有多高?不只是烧钱,时间、能源和宝贵的算力资源,每一项都让人倍感压力。
想要一个更小、更快的模型,传统上无非两条路:要么先不计成本地训练一个庞然大物,再想办法“瘦身”;要么直接从头训练一个小模型,但往往得在性能上做出妥协。这就像要么先养胖再减肥,要么直接饿着肚子干活,都不是最优解。
现在,来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院以及Liquid AI的研究团队,提出了一种新思路,直接绕开了这个二选一的困境:让模型在训练过程中就自行压缩,而不是等到训练完成之后。
这项名为CompreSSM的技术,瞄准了一类名为“状态空间模型”的AI架构。这类模型在语言处理、音频生成乃至机器人控制等领域都有广泛应用。研究人员的灵感来自控制论中的数学工具,他们发现,在训练早期就能识别出模型中哪些部分真正有用,哪些是冗余的,从而可以精准地切除多余部分。
用论文第一作者、CSAIL博士生马克拉姆·查希内的话来说:“本质上,这是一种让模型边学习、边变小、边变快的技术。在学习过程中,模型同时也在抛弃那些对自身发展无益的部分。”
这项研究的关键洞察在于:一个状态空间模型内部组件的重要性排序,在训练初期就基本稳定了。团队使用一种叫做“汉克尔奇异值”的数学量,来衡量每个内部状态对模型整体行为的贡献度。结果表明,只需完成大约10%的训练,就能可靠地排出各个维度的重要性顺序。一旦顺序确定,那些不重要的组件就可以被安全地丢弃,剩下90%的训练将以一个更小、更快的模型继续进行。
这彻底改变了压缩的时机。正如论文通讯作者、MIT教授丹妮拉·鲁斯所指出:“这项工作有意思的地方在于,它将压缩从‘事后补救’变成了学习过程的内在环节。我们不再是先训练再缩小,而是让模型在学习过程中自行发现高效结构。这是一种构建AI系统的全新思路。”
结果相当令人振奋。在图像分类基准测试中,压缩后的模型保持了与完整版几乎相同的准确率,同时训练速度最高提升了1.5倍。
具体来看,一个被压缩到原始状态维度约四分之一的模型,在CIFAR-10基准上达到了85.7%的准确率。相比之下,一个从一开始就以同等小规模训练的模型,准确率仅为81.8%。在目前流行的状态空间架构Mamba上,该方法实现了约4倍的训练加速——将一个128维的模型压缩到约12维,性能依然保持竞争力。
“你能获得接近大模型的性能,因为在‘热身’阶段,你已经捕获了大部分复杂的动态特征,之后只保留最有用的那些状态,”查希内解释道,“所以,它的表现仍然优于从头训练的小模型。”
CompreSSM与现有方法的核心区别在于其坚实的理论支撑。常规的剪枝方法需要先完整训练大模型,再剔除参数,这意味着你依然要承担训练大模型的全部算力成本。另一种流行的知识蒸馏技术,则需要先训练一个大的“教师”模型,再去指导一个小的“学生”模型,相当于训练成本翻倍。
而CompreSSM在训练过程中就做出明智的压缩决策,从而巧妙地规避了这两种额外的成本。
研究团队将CompreSSM与这两种方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比,CompreSSM的速度快了40倍以上,且准确率更高。那种方法因为每次梯度更新都需要昂贵的特征值计算,会将训练拖慢约16倍,性能却仍不及CompreSSM。
在CIFAR-10上与知识蒸馏对比时,CompreSSM在高压缩率下的优势尤为明显:当状态维度很小时,蒸馏出的模型准确率大幅下降,而CompreSSM压缩后的模型几乎保持了完整版的性能。更关键的是,由于蒸馏每一步都需要教师和学生模型各做一次前向传播,即便学生模型更小,其训练速度反而比完整的基线模型还要慢。
那么,早期做出的压缩决策,后期会不会“误伤”重要部分?研究团队用Weyl定理证明了两个关键点:第一,在训练过程中,单个模型状态的重要性是平滑变化的;第二,这些状态的相对排序是稳定的。这两点结合起来,让使用者可以放心——那些在早期被判定为无关紧要的维度,后期不太可能突然变得至关重要。
此外,该方法还内置了一个务实的安全机制。如果某次压缩意外导致性能下降,使用者可以轻松退回到之前保存的检查点。“这让人们能够主动控制愿意付出多少性能代价,而不是去定义一个不那么直观的能量阈值,”查希内补充道。
当然,这项技术也有其适用范围。CompreSSM在那些“内部状态维度与整体性能强相关”的模型上效果最好,而这种相关性因任务和架构而异。它对多输入多输出模型特别有效,因为这类模型中状态规模与表达能力的关系最强。而对于每通道、单输入单输出的架构,收益则相对有限,因为这类模型本身对状态维度的变化就不太敏感。
目前,这套理论最适用于线性时不变系统。不过,团队已经开发出了适用于输入依赖、时变架构的扩展版本——后者正变得越来越流行。由于状态空间模型家族还延伸到了“线性注意力”等新兴架构(作为传统Transformer的替代方案,正受到越来越多的关注),CompreSSM的潜在应用范围相当广泛。
查希内与合作者将这项工作视为一块重要的垫脚石。团队已经展示了向Mamba等线性时变系统的扩展,未来的方向是将CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。
“这必须是第一步,因为在这里理论是清晰的,方法能保持原则性,”查希内说,“这是一块垫脚石,之后再向业界今天实际使用的其他架构扩展。”
未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道:“查希内和同事的工作,为现代状态空间模型的压缩问题提供了一个有趣且理论扎实的视角。该方法提供了证据,证明这类模型的状态维度可以在训练过程中被有效降低,而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向,所提出的算法有潜力成为预训练大型SSM模型的标准做法。”
据悉,这项研究已被ICLR 2026接收,并将于本月晚些时候在会议上发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。
(原文链接:https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409)
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9