您的位置:首页 >谷歌DeepMind让AI看懂长视频的速度快了35%
发布于2026-05-25 阅读(0)
扫一扫,手机访问

最近,谷歌DeepMind与首尔国立大学联合发布了一项关于长视频理解的研究,论文以预印本形式公开,编号为arXiv:2605.17260。这项研究瞄准了一个看似简单、实则棘手的问题:如何让AI高效地“看懂”长达数小时的视频。
想象一下,让AI理解一段两小时的电影,其挑战不亚于要求一个人在一秒钟内读完一整本书。当前的主流视频AI,在处理长内容时,普遍会撞上一堵“计算墙”。而这项研究的价值,就在于它找到了一条巧妙绕过这堵墙的新路径。
要理解这堵墙,得先看看现在视频AI是怎么工作的。通常,系统会分两步走:第一步,用一个叫做“视觉编码器”的模块(可以理解为AI的眼睛)逐帧扫描视频,把每一幅画面转换成数字信号;第二步,把这些海量信号塞给一个大型语言模型(也就是AI的大脑)去做理解和推理。
问题就出在这里。视频是由无数帧画面组成的,帧数越多,产生的数字信息就越庞大。研究团队将这个问题称为“计算量的爆炸”。更麻烦的是,语言模型处理信息的复杂度是“平方级”的——信息量翻一倍,处理难度可能增加到原来的四倍。这直接导致了现有系统(比如研究中作为基准的InternVL3-8B模型)在实际中最多只能流畅处理大约64帧画面,一旦超出,速度就会急剧下降甚至崩溃。
面对这个瓶颈,过去的研究者想出了一个看似直接的办法:既然大脑(语言模型)是瓶颈,那就在信息送进去之前,先动手压缩一下,减少输入量。这类方法被称为“事后削减”。
具体来说,就是先让视觉编码器老老实实地扫描完每一帧,生成大量“视觉令牌”,然后再通过各种技术手段,删掉其中重复或不重要的部分,最后把精简版交给语言模型。
这个方法确实减轻了语言模型的负担。但谷歌DeepMind的团队发现了一个被忽略的真相:当语言模型的压力减小后,系统的速度瓶颈并没有消失,而是悄然转移到了视觉编码器身上。
道理很简单:无论事后怎么删减,视觉编码器扫描每一帧的“苦力活”一点都没少。当你为了提升效果而增加处理帧数时,视觉编码器耗费的时间就会线性增长,最终成为新的拖累。实验数据清晰地展示了这一点:在使用16倍压缩率削减信息后,语言模型轻松了,但视觉编码器耗时开始主导全局,帧数越多,整体反而越慢。这好比治好了头疼,却引发了脚疼。
在寻找新出路之前,研究团队先系统地验证了一个前提:让AI“看”更多帧画面,到底有没有用?
答案非常肯定。在Video-MME、MLVU和LongVideoBench等多个主流长视频测试集上,AI的理解准确率随着输入帧数的增加,呈现出清晰的对数增长趋势。简单说,虽然收益会递减(从1帧到2帧的提升远大于从32帧到64帧),但“多看”总是比“少看”要好。
这个发现至关重要。它意味着,如果能找到一种方法,在相同的计算预算内让AI处理更多帧,那么效果就必然提升。这正是LiteFrame设计哲学的起点。
在正式推出主角前,团队做了一项重要的铺垫工作:他们需要找到一种最优的信息压缩方式。于是,他们提出并验证了“加权平均池化”方法。
其原理并不复杂:将视频在时间和空间上分块,然后根据每个小块内信息的“重要程度”(这个重要性由图像自身的全局特征决定),来决定保留多少细节。重要的地方多留一点,不重要的地方少留一点。
对比实验显示,在16倍压缩率下,加权平均池化的平均准确率达到62.0%,显著优于简单的平均采样、随机抽帧,乃至学界其他复杂算法。更重要的是,团队验证了一个核心假设:在固定信息总量的前提下,用压缩换来的帧数增加,是笔划算的买卖——处理更多帧但经过压缩的信息,效果优于处理较少帧的原始信息。
然而,加权平均池化依然是“事后处理”,它解决不了视觉编码器本身的效率问题。真正的突破,需要更根本的架构革新。
LiteFrame的核心思路可以用一个比喻来理解:旧方法好比让一个阅读速度慢的助手读完整本书并做详细笔记,再请人删改笔记后交给老板;而LiteFrame的思路,是直接培养一个天生擅长抓重点、能快速产出精要摘要的助手。
具体而言,LiteFrame是一个全新训练的、轻量级的视觉编码器。它的参数量只有约8700万,不到原先“大眼睛”(InternViT-300M,约3亿参数)的三分之一。这个“小眼睛”不仅在速度上更快,其架构也专门为视频压缩而设计,输出天生就是精华信息。
其结构创新主要体现在两点:
第一是“深度可分离一维时间卷积”。这个模块专门负责捕捉帧与帧之间的关联。如果相邻帧画面几乎没变(比如静态背景),它就会聪明地将重复信息合并,避免冗余计算。这种操作的计算成本极低,比常用的注意力机制快得多,实验显示其延迟仅为175毫秒,优势明显。
第二是“渐进式压缩”。在编码器处理过程中,团队在第4层和第8层巧妙地插入了“步进卷积层”,逐步降低特征图的分辨率。数据量越往后越少,计算效率自然水涨船高。最终,每帧图像被压缩到只剩16个视觉令牌,效率极高。
有了好架构,下一个挑战是:如何让这个小模型在输出如此精简的信息时,还能保留大模型的“智慧”?
这就需要“压缩令牌蒸馏”技术。传统的知识蒸馏是让小模型模仿大模型的完整输出,但这里有个矛盾:老师(大模型)输出256个令牌,学生(小模型)只能输出16个,根本对不上。
CTD的巧妙之处在于,它把之前验证有效的加权平均池化直接“内化”为训练目标。训练时,先用大模型处理视频得到256个令牌,再用加权平均池化将其压缩成16个精华令牌。然后,让小模型直接学习预测这16个精华令牌。
这样做的妙处是,小模型在学习过程中,潜移默化地掌握了“如何判断信息重要性”的能力,并将其固化到自身的网络参数中。推理时,它就能直接输出高质量的精简特征,无需任何额外计算。
研究团队也尝试过另一种“重构令牌蒸馏”思路,即让小模型先压缩再尝试还原完整信息,但效果远不如CTD。这证明,明确地指导学生“学习精华”,比让它自己摸索“什么重要”要有效得多。
训练好LiteFrame后,还有一个问题:现有的语言模型(AI大脑)是配合旧编码器训练的,习惯接收256个令牌。现在突然换成16个,大脑可能会“水土不服”。
“语言模型适配”阶段就是为了解决这个兼容性问题。团队使用视频-文本配对数据,对语言模型进行了轻量级的微调(采用LoRA技术,仅调整极少量参数),让它适应新的输入格式和更长的视频序列。这个过程非常高效,在8块H100 GPU上只需数小时。有趣的是,实验发现小幅度的调整(低秩设置)效果反而更好,说明模型只需微调就能顺利适应。
将上述所有组件整合后,LiteFrame的表现堪称亮眼。核心对比如下:
与基准模型(处理16帧)相比,在处理8倍帧数(128帧)时,LiteFrame将端到端延迟降低了32.5%,同时平均准确率还有所提升。在处理256帧(相当于基准的16倍处理量)时,延迟降低34.6%,准确率仍保持微幅领先。最极端的案例是,LiteFrame处理64帧的速度,比基准模型处理8帧还要快28%,且准确率显著更高。
延迟构成的细节更能说明问题。在处理64帧时,LiteFrame的视觉编码部分仅耗时54.8毫秒,而采用“事后压缩”方法FastVID的视觉编码耗时高达161.7毫秒,差距近3倍。这正是“源头压缩”与“事后补救”的本质区别。
与另一种试图同时解决视觉和语言瓶颈的方法AutoGaze相比,LiteFrame的优势更为巨大。在256帧条件下,AutoGaze的总延迟超过6秒,其中近一半时间花在额外的“预筛选”模块上;而LiteFrame总延迟仅532.3毫秒,不到前者的十分之一,准确率反而更高。
此外,LiteFrame在短视频测试集上同样能显著降低延迟,在高分辨率视频理解任务上也展现了出色的零样本泛化能力,证明了其设计理念的通用性。
通过系统的“消融实验”,研究团队一步步拆解了每个技术组件的贡献值:
如果只是简单地将大模型蒸馏到小模型,而不做令牌压缩,效果反而会下降。加入压缩架构但使用效率较低的注意力机制,效果已接近基准。换用高效的深度可分离时间卷积,延迟进一步降低,准确率提升。最关键的一步是引入以加权平均池化为目标的CTD训练,去掉它准确率会暴跌。最后,加上语言模型适配,达到最佳性能。最终,LiteFrame用更少的延迟和更多的帧数,全面超越了原始基准。
当然,研究团队也坦诚指出了当前工作的几点局限。例如,训练数据还可以引入更多极长视频,以进一步提升处理超长内容的能力;模型在纯静态图像任务上的表现尚未评估;在尝试训练更小规模的编码器时遇到了稳定性挑战等。
归根结底,这项研究最重要的贡献可能不在于一个具体的模型,而在于一种思维范式的转变:与其在信息产出后费尽心思去削减,不如从一开始就训练一个能高效产出精华信息的系统。这种“内化压缩”的理念,为未来视频AI的效率优化开辟了一个被长期忽视的新方向。
对于实际应用而言,这意味着未来的AI视频助手将能更快、更便宜地处理更长的视频内容,这对于安防监控、内容审核、在线教育等需要长视频分析的场景,具有直接的推动意义。
Q1:LiteFrame是什么,它和普通视频AI有什么不同?
A:LiteFrame是一种新型的视觉编码器,专为处理视频而设计。它与普通视频AI的关键区别在于处理逻辑:普通AI先完整扫描每一帧再事后压缩信息;而LiteFrame在扫描的初期阶段就直接输出高度压缩后的精华信息,从而同时大幅提升了视觉编码和语言理解两端的效率。
Q2:压缩令牌蒸馏(CTD)是怎么训练LiteFrame的?
A:CTD采用了一种“目标明确的蒸馏”策略。它先利用大模型(教师)得到丰富的中间表示,然后用一种智能的池化方法(加权平均池化)将其压缩为精华版本,最后让小模型(学生)直接学习预测这个精华版本。这使得小模型内化了“如何提取重要信息”的能力。
Q3:LiteFrame比普通的事后削减方法快多少,准确率有没有损失?
A:实验数据显示,在处理256帧视频时,LiteFrame比先进的事后削减方法快约33%,比原始基准模型快约35%。更重要的是,它在速度大幅提升的同时,处理了更多帧数,且准确率没有损失,反而有微幅提升,实现了效率与性能的双赢。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
正版软件
正版软件
正版软件
正版软件
正版软件
1
2
3
4
5
6
7
8
9