训练AI只需要跑完前10%，剩下的90%都能在小模型上跑

　　发布于2026-04-24　阅读（0）

扫一扫，手机访问

训练AI，别再“先胖后瘦”了：一种让模型边学边“瘦身”的新方法

（来源：麻省理工科技评论）

训练一个大型AI模型，代价有多高？不只是烧钱，时间、能源和宝贵的算力资源，每一项都让人倍感压力。

想要一个更小、更快的模型，传统上无非两条路：要么先不计成本地训练一个庞然大物，再想办法“瘦身”；要么直接从头训练一个小模型，但往往得在性能上做出妥协。这就像要么先养胖再减肥，要么直接饿着肚子干活，都不是最优解。

现在，来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院以及Liquid AI的研究团队，提出了一种新思路，直接绕开了这个二选一的困境：让模型在训练过程中就自行压缩，而不是等到训练完成之后。

核心思路：早期识别，精准“手术”

这项名为CompreSSM的技术，瞄准了一类名为“状态空间模型”的AI架构。这类模型在语言处理、音频生成乃至机器人控制等领域都有广泛应用。研究人员的灵感来自控制论中的数学工具，他们发现，在训练早期就能识别出模型中哪些部分真正有用，哪些是冗余的，从而可以精准地切除多余部分。

用论文第一作者、CSAIL博士生马克拉姆·查希内的话来说：“本质上，这是一种让模型边学习、边变小、边变快的技术。在学习过程中，模型同时也在抛弃那些对自身发展无益的部分。”

这项研究的关键洞察在于：一个状态空间模型内部组件的重要性排序，在训练初期就基本稳定了。团队使用一种叫做“汉克尔奇异值”的数学量，来衡量每个内部状态对模型整体行为的贡献度。结果表明，只需完成大约10%的训练，就能可靠地排出各个维度的重要性顺序。一旦顺序确定，那些不重要的组件就可以被安全地丢弃，剩下90%的训练将以一个更小、更快的模型继续进行。

这彻底改变了压缩的时机。正如论文通讯作者、MIT教授丹妮拉·鲁斯所指出：“这项工作有意思的地方在于，它将压缩从‘事后补救’变成了学习过程的内在环节。我们不再是先训练再缩小，而是让模型在学习过程中自行发现高效结构。这是一种构建AI系统的全新思路。”

效果如何？性能几乎无损，训练大幅加速

结果相当令人振奋。在图像分类基准测试中，压缩后的模型保持了与完整版几乎相同的准确率，同时训练速度最高提升了1.5倍。

具体来看，一个被压缩到原始状态维度约四分之一的模型，在CIFAR-10基准上达到了85.7%的准确率。相比之下，一个从一开始就以同等小规模训练的模型，准确率仅为81.8%。在目前流行的状态空间架构Mamba上，该方法实现了约4倍的训练加速——将一个128维的模型压缩到约12维，性能依然保持竞争力。

“你能获得接近大模型的性能，因为在‘热身’阶段，你已经捕获了大部分复杂的动态特征，之后只保留最有用的那些状态，”查希内解释道，“所以，它的表现仍然优于从头训练的小模型。”

理论扎实，避免额外成本

CompreSSM与现有方法的核心区别在于其坚实的理论支撑。常规的剪枝方法需要先完整训练大模型，再剔除参数，这意味着你依然要承担训练大模型的全部算力成本。另一种流行的知识蒸馏技术，则需要先训练一个大的“教师”模型，再去指导一个小的“学生”模型，相当于训练成本翻倍。

而CompreSSM在训练过程中就做出明智的压缩决策，从而巧妙地规避了这两种额外的成本。

研究团队将CompreSSM与这两种方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比，CompreSSM的速度快了40倍以上，且准确率更高。那种方法因为每次梯度更新都需要昂贵的特征值计算，会将训练拖慢约16倍，性能却仍不及CompreSSM。

在CIFAR-10上与知识蒸馏对比时，CompreSSM在高压缩率下的优势尤为明显：当状态维度很小时，蒸馏出的模型准确率大幅下降，而CompreSSM压缩后的模型几乎保持了完整版的性能。更关键的是，由于蒸馏每一步都需要教师和学生模型各做一次前向传播，即便学生模型更小，其训练速度反而比完整的基线模型还要慢。

为何可行？稳定性的数学保证与安全机制

那么，早期做出的压缩决策，后期会不会“误伤”重要部分？研究团队用Weyl定理证明了两个关键点：第一，在训练过程中，单个模型状态的重要性是平滑变化的；第二，这些状态的相对排序是稳定的。这两点结合起来，让使用者可以放心——那些在早期被判定为无关紧要的维度，后期不太可能突然变得至关重要。

此外，该方法还内置了一个务实的安全机制。如果某次压缩意外导致性能下降，使用者可以轻松退回到之前保存的检查点。“这让人们能够主动控制愿意付出多少性能代价，而不是去定义一个不那么直观的能量阈值，”查希内补充道。

应用边界与未来方向

当然，这项技术也有其适用范围。CompreSSM在那些“内部状态维度与整体性能强相关”的模型上效果最好，而这种相关性因任务和架构而异。它对多输入多输出模型特别有效，因为这类模型中状态规模与表达能力的关系最强。而对于每通道、单输入单输出的架构，收益则相对有限，因为这类模型本身对状态维度的变化就不太敏感。

目前，这套理论最适用于线性时不变系统。不过，团队已经开发出了适用于输入依赖、时变架构的扩展版本——后者正变得越来越流行。由于状态空间模型家族还延伸到了“线性注意力”等新兴架构（作为传统Transformer的替代方案，正受到越来越多的关注），CompreSSM的潜在应用范围相当广泛。

查希内与合作者将这项工作视为一块重要的垫脚石。团队已经展示了向Mamba等线性时变系统的扩展，未来的方向是将CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。

“这必须是第一步，因为在这里理论是清晰的，方法能保持原则性，”查希内说，“这是一块垫脚石，之后再向业界今天实际使用的其他架构扩展。”

未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道：“查希内和同事的工作，为现代状态空间模型的压缩问题提供了一个有趣且理论扎实的视角。该方法提供了证据，证明这类模型的状态维度可以在训练过程中被有效降低，而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向，所提出的算法有潜力成为预训练大型SSM模型的标准做法。”

据悉，这项研究已被ICLR 2026接收，并将于本月晚些时候在会议上发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。

（原文链接：https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409）

本文转载于：https://www.163.com/dy/article/KQG8BFM505119734.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：PHP历史之2：关于胎死腹中的PHP6

下一篇：从“一步到位”到“退后一步”，欧美电动化要从增程开始“补课”

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

飞牛 BASIC 4 四盘位 NAS 亮相：Intel N150 处理器、双 2.5G 网口，最高 136TB 拓展

飞牛 BASIC 4 四盘位 NAS 首发亮相：Intel N150 处理器、双 2.5G 网口，最高 136TB 拓展 4月10日，NAS市场迎来一位新选手。飞牛BASIC 4四盘位NAS正式亮相，这款新品搭载了Intel N150低功耗处理器，并配备了双2.5G网口，为家庭和小型办公环境的数据存

10分钟前 0
正版软件

3年成长为全球人形机器人“独角兽”后，它又开启“裂变式”创新

“地球上绝大部分区域尚未被人类征服，我们不仅要做四足机器人，更想让所有机械设备拥有智力大脑，去探索更多空间。”在近日举行的智元酷拓首场媒体沟通会上，智元酷拓董事、“中国001号商业航天员”邱恒描绘了一个人机共存的未来景象。智元酷拓，是去年年底以来智元机器人“裂变”出的第四家公司。这释放出一个清晰的

10分钟前 0
正版软件

网易严选十周年官宣全球化布局稳步推进家清等品类出海

网易严选十周年：夯实国内基本盘，家清品类成全球化先锋最近，网易严选在十周年这个关键节点上，向外界清晰地勾勒了其未来的发展蓝图。一边是全球化战略的正式披露，另一边则是国内核心业务的持续深耕，两手抓的态势非常明确。家清品类：为何成为出海“排头兵”？全球化这步棋，网易严选选择了一个相当务实的落子点：

11分钟前 0
正版软件

消息称高通优先考虑由台积电制造 2nm 移动 AP，三星晶圆代工复苏遇阻

消息称高通优先考虑由台积电制造 2nm 移动 AP，三星晶圆代工复苏遇阻最近，半导体行业的一则动态引发了广泛关注。据韩媒《釜山日报》当地时间4月9日报道，高通在下一代移动应用处理器（AP）的代工选择上，风向似乎有了变化。由于三星晶圆代工的2nm制程在目标芯片上的良率未能达标，高通已重新将制造优先权

11分钟前 0
正版软件

华硕 ROG 幻世神 Cronox 机箱国行首销：配备 9.2 英寸副屏，2399 元

华硕 ROG 幻世神 Cronox 机箱国行首销：配备 9.2 英寸副屏，2399 元 4月10日，一个让高端DIY玩家瞩目的消息传来：此前在CES 2026上惊艳亮相的华硕ROG品牌首款全景机箱——幻世神Cronox，正式登陆京东平台开售。这款定价2399元的机箱，其最大的亮点莫过于那块独特的铰链

11分钟前 0