2月26日,国内AI领域迎来技术突破——DeepSeek在”开源周”第三日发布革命性矩阵计算库DeepGemm。这款专为FP8精度设计的矩阵乘法引擎,以300行极简代码实现超越行业标杆的性能表现,为大规模语言模型训练推理注入新动能。

▍性能狂飙:Hopper架构实测1350+ TFLOPS
基于NVIDIA Hopper GPU架构深度优化,DeepGemm在H800计算卡上实测突破1350 FP8 TFLOPS性能大关。该库特别针对DeepSeek-V3/R1模型架构优化,覆盖预填充、解码等典型推理场景,在多数矩阵尺寸下性能表现超越专业团队手工优化的Cutlass 3.6实现。
▍技术特性:三大创新突破
• 智能精度管理:采用DeepSeek-V3独创的精细化缩放技术,通过CUDA核心两级累加方案,有效解决FP8张量核心累加精度损失难题
• 架构轻量化:完全基于JIT即时编译技术,零预编译依赖,核心代码精简至300行级,堪称深度学习框架的”教科书式”实现
• 多模态支持:兼容标准稠密矩阵与MoE混合专家模型两种布局,为复杂AI模型提供灵活算力支持
▍开发者友好设计
项目采用模块化架构,剥离传统框架复杂的模板依赖,代码可读性堪比教学案例。开发者可快速掌握Hopper架构的FP8优化精髓,官方特别开放性能待优化场景,诚邀社区共同完善。
开源地址:https://github.com/deepseek-ai/deepgemm
(注:当前版本仅支持NVIDIA Hopper架构GPU,需配合CUDA 12.8环境使用)
此次开源标志着国产AI基础设施取得重要突破,DeepGemm的极简哲学与极致性能,或将重塑深度学习计算库的开发范式。正如开发者所言:“我们相信优雅的代码不应以性能为代价,这正是DeepGemm存在的意义。”