DeepSeek开源周重磅更新:DeepGemm矩阵库革新AI算力,FP8性能狂飙1350 TFLOPS

2月26日,国内AI领域迎来技术突破——DeepSeek在”开源周”第三日发布革命性矩阵计算库DeepGemm。这款专为FP8精度设计的矩阵乘法引擎,以300行极简代码实现超越行业标杆的性能表现,为大规模语言模型训练推理注入新动能。

DeepSeek开源周重磅更新:DeepGemm矩阵库革新AI算力,FP8性能狂飙1350 TFLOPS插图

▍性能狂飙:Hopper架构实测1350+ TFLOPS
基于NVIDIA Hopper GPU架构深度优化,DeepGemm在H800计算卡上实测突破1350 FP8 TFLOPS性能大关。该库特别针对DeepSeek-V3/R1模型架构优化,覆盖预填充、解码等典型推理场景,在多数矩阵尺寸下性能表现超越专业团队手工优化的Cutlass 3.6实现。

▍技术特性:三大创新突破
• 智能精度管理:采用DeepSeek-V3独创的精细化缩放技术,通过CUDA核心两级累加方案,有效解决FP8张量核心累加精度损失难题
• 架构轻量化:完全基于JIT即时编译技术,零预编译依赖,核心代码精简至300行级,堪称深度学习框架的”教科书式”实现
• 多模态支持:兼容标准稠密矩阵与MoE混合专家模型两种布局,为复杂AI模型提供灵活算力支持

▍开发者友好设计
项目采用模块化架构,剥离传统框架复杂的模板依赖,代码可读性堪比教学案例。开发者可快速掌握Hopper架构的FP8优化精髓,官方特别开放性能待优化场景,诚邀社区共同完善。

开源地址:https://github.com/deepseek-ai/deepgemm
(注:当前版本仅支持NVIDIA Hopper架构GPU,需配合CUDA 12.8环境使用)

此次开源标志着国产AI基础设施取得重要突破,DeepGemm的极简哲学与极致性能,或将重塑深度学习计算库的开发范式。正如开发者所言:“我们相信优雅的代码不应以性能为代价,这正是DeepGemm存在的意义。”

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机邦
我们将24小时内回复。
2025-03-31 14:48:37
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
suduwangluo
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: