千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

　　发布于2026-04-29　阅读（0）

扫一扫，手机访问

千问开源FlashQLA：为线性注意力算子注入“硬核”效率

近日，AI开源社区迎来一则重磅消息。4月29日，千问大模型团队正式开源了FlashQLA——一个基于TileLang实现的高性能线性注意力算子库。这可不是一个简单的代码发布，其背后指向一个明确的行业痛点：随着模型参数规模与序列长度的不断攀升，注意力机制的计算开销，正日益成为制约训练与推理效率的关键瓶颈。

千问正式开源FlashQLA 可减少训推过程注意力层的计算开销

那么，FlashQLA究竟意在解决什么问题？这得从千问模型自身的演进说起。自Qwen3-Next发布以来，其采用的Gated Delta Network（GDN）架构，已成为千问全系列模型的主力注意力层。从最初的Qwen3-Next-80B-A3B，到后续推出的Qwen3.5乃至Qwen3.6系列，GDN都扮演着核心角色。然而，当模型规模一路扩展至397A17B、122A10B乃至35B、27B等不同配置时，一个现实挑战浮出水面：GDN在端到端训练与推理过程中所产生的计算开销，已经变得不容忽视。

技术内核：当“门控”遇见“并行”

面对这一挑战，FlashQLA的发布给出了颇具巧思的答案。其核心亮点主要集中在两大创新上。

首先，是**Gate驱动的自动化卡内序列并行**。传统方法在处理长序列或特定张量并行（TP）配置时，常常面临计算资源利用率不足的问题。FlashQLA巧妙地利用了GDN中Gate门控所具备的指数衰减特性，实现了智能化的并行策略。简单来说，系统能在TP、长序列、注意力头数较少等场景下，自动开启卡内序列并行。这一机制如同为GPU的流多处理器（SM）安装了智能调度器，显著提升了硬件资源的利用效率。

其次，在于**硬件友好的代数改写**。FlashQLA并非简单封装，而是对GDN Chunked Prefill的前向传播与反向传播流程，进行了深度的算子融合与性能优化。通过对计算过程进行代数层面的重构，它在确保数值精度毫发无损的前提下，有效降低了Tensor Core、CUDA Core及特殊函数单元（SFU）的计算开销。这种“从算法层面为硬件量身定制”的思路，正是实现性能突破的关键。

性能表现：效率提升肉眼可见

经过这番“内外兼修”的改造，FlashQLA交出的成绩单相当亮眼。根据官方数据，在NVIDIA Hopper架构GPU上，该算子库在多种应用场景下，相较于原有的FLA triton Kernel，实现了**2至3倍的前向传播加速**，以及**约2倍的反向传播加速**。

这意味着什么？对于需要海量数据迭代的预训练场景，计算时间的缩短直接等同于研发成本的降低与迭代速度的飞跃。而对于时延敏感的端侧智能体（Agentic）推理任务，更高的推理效率则直接转化为更流畅的用户体验和更低的部署成本。可以说，FlashQLA的推出，正是瞄准了AI工业化进程中“降本增效”的核心诉求。

开源这一高性能算子库，也体现了千问团队推动技术普惠的一向思路。将经过实战验证的底层优化成果共享给社区，无疑将助力整个行业更高效地探索更大规模的模型架构与应用边界。接下来，业界可以期待基于FlashQLA的更多模型实现与性能基准测试，其生态价值将在实际应用中逐步显现。

本文转载于：https://www.163.com/dy/article/KRN55RIG05198UNI.html 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

上一篇：机构预计今年全球折叠屏手机面板出货量同比增长51%

下一篇：21对话｜陪小米智驾长到十八岁

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

武汉小米智能家电工厂正式对外开放参观，今起开启预约

武汉小米智能家电工厂正式对外开放参观，今起开启预约今天傍晚，小米集团大家电部总经理单联瑜在微博上发布了一则重要消息：武汉小米智能家电工厂正式对外开放参观，3月与4月的参观报名通道现已开启。有意思的是，为保证每位参观者都能获得深度体验，工厂特意将每场参观人数限定在20组米粉——这种小而精的安排，倒是

7分钟前 0
正版软件

联想 YOGA Pro 15 Aura AI 元启版发布：酷睿 Ultra 7 356H+RTX5060，首发 12999 元起

联想 YOGA Pro 15 Aura AI 元启版正式亮相 3月18日，联想正式推出YOGA Pro 15 Aura AI 元启版。这款新品搭载酷睿Ultra 7 356H处理器与RTX5060显卡的组合，配备32GB内存和1TB存储空间，并细分为支持触控的至尊版与标准创作版两个版本。官方定价14

8分钟前 0
正版软件

苹果 iOS/iPadOS 18.7.7 RC 发布

【点此直达升级教程】各位苹果用户注意了，新一轮系统更新已经到来。就在今天，苹果向 iPhone 和 iPad 用户推送了 iOS/iPadOS 18.7.7 的 RC（Release Candidate）版本，内部版本号定格在 22H333。值得留意的是，距离上一次 Beta 或 RC 版本发布，

8分钟前 0
正版软件

苹果 iOS/iPadOS 26.4 RC 发布

【点此直达升级教程】各位果粉注意了，苹果刚刚向iPhone和iPad用户推送了iOS/iPadOS 26.4 RC版本（内部版本号：23E244）。有意思的是，这次更新距离上一个Beta/RC版本发布仅仅过去了9天，更新节奏相当紧凑。如何升级 iOS / iPadOS / watchOS / m

8分钟前 0
正版软件

苹果 watchOS 26.4 RC 发布

【点此直达升级教程】各位 Apple Watch 用户注意了，苹果刚刚向设备推送了 watchOS 26.4 RC 版本。内部版本号定为 23T239，距离上一个测试版发布刚刚过去 9 天。如何升级 iOS / iPadOS / watchOS / macOS 开发版和公测版？想要提前体验新功

9分钟前 0