商城首页欢迎来到中国正版软件门户

您的位置:首页 >DeepSeek开源第三弹:高效FP8 GEMM库登场

DeepSeek开源第三弹:高效FP8 GEMM库登场

  发布于2025-09-10 阅读(0)

扫一扫,手机访问

2025 年 2 月 26 日,在开源周的第三天,DeepSeek 正式推出了其高效的 FP8 通用矩阵乘法(GEMM)库 —— DeepGEMM。该库不仅支持密集矩阵运算,还兼容混合专家(MoE)架构的 GEMM 操作,为 V3/R1 模型的训练与推理提供了强大助力。尤为引人注目的是,DeepGEMM 的核心代码仅约 300 行,却展现出卓越的性能表现。

DeepSeek 开源周第三弹:DeepGEMM —— 高效的 FP8 GEMM 库,核心代码仅 300 行!

为何需要 DeepGEMM?
在大规模模型的训练与推理中,矩阵乘法(GEMM,General Matrix Multiplications)是最关键的计算操作之一,尤其在深度学习过程中占据了大量计算资源。随着模型规模的不断扩展,特别是混合专家模型(MoE)的广泛应用,传统 GEMM 实现已难以满足高效计算的需求。MoE 模型通过动态激活部分专家来提升模型容量,但也带来了稀疏性和动态性的问题,使传统的密集矩阵乘法难以高效处理。

此外,低精度计算(如 FP8)在深度学习中的应用日益广泛,因其能够在降低内存消耗的同时维持较高的计算效率。然而,现有 GEMM 库对 FP8 的支持仍较为有限,特别是在 MoE 场景下,缺乏专门优化。DeepGEMM 的推出正是为了应对上述挑战,它实现了高效的 FP8 矩阵乘法,并同时支持密集和 MoE 两种模式,显著提升了大模型训练与推理的效率。

DeepGEMM 的主要特点

  • 高性能:在 NVIDIA Hopper GPU 上,DeepGEMM 的 FP8 计算性能超过 1350 TFLOPS,内存带宽峰值达到 2668 GB/s。
  • FP8 支持:作为首个专为 Hopper GPU 优化的 FP8 GEMM 库,DeepGEMM 能够有效减少内存占用并加速模型训练与推理过程。
  • 简洁而强大的实现:尽管核心代码仅约 300 行,但其性能超越了许多专家级优化内核,这得益于团队在算法设计上的精妙构思及对 GPU 架构特性的深入理解。
  • 即时编译(JIT):采用轻量级 JIT 模块,可根据硬件配置和输入尺寸在运行时动态生成高度优化的代码,从而进一步提升性能。
  • 支持密集与 MoE GEMM:不仅适用于传统密集矩阵乘法,还特别针对 MoE 模型中的 GEMM 运算进行了优化,满足多样化的模型计算需求。

DeepGEMM 的性能表现

DeepSeek 团队在 H800 GPU 上使用 NVCC 12.8 对 DeepGEMM 进行了全面测试,涵盖了 DeepSeek-V3/R1 推理中可能涉及的各种矩阵形状(包括预填充和解码阶段,但不包含张量并行)。测试结果表明,DeepGEMM 的计算性能最高可达 1358 TFLOPS,内存带宽峰值达 2668 GB/s。相比基于 CUTLASS 3.6 的优化实现,性能提升幅度最高达 2.7 倍;在 MoE 模型下的分组 GEMM(连续性布局和掩码布局)中,性能提升也超过 1.2 倍。

总结

DeepGEMM 的发布标志着 DeepSeek 在高效矩阵乘法计算领域取得了又一重要突破。该库不仅支持 FP8 低精度计算,还对 MoE 模型进行了深度优化,大幅提升了大模型训练与推理的效率。未来,DeepSeek 还将带来哪些令人期待的开源项目?让我们共同关注其在开源道路上的更多精彩表现。

参考资料
deepseek-ai/DeepGEMM:https://github.com/deepseek-ai/DeepGEMM

本文转载于:https://cloud.tencent.com/developer/article/2522822 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。

热门关注