DeepSeek开源周重磅更新：DeepGemm矩阵库革新AI算力，FP8性能狂飙1350 TFLOPS

2月26日，国内AI领域迎来技术突破——DeepSeek在”开源周”第三日发布革命性矩阵计算库DeepGemm。这款专为FP8精度设计的矩阵乘法引擎，以300行极简代码实现超越行业标杆的性能表现，为大规模语言模型训练推理注入新动能。

▍性能狂飙：Hopper架构实测1350+ TFLOPS
基于NVIDIA Hopper GPU架构深度优化，DeepGemm在H800计算卡上实测突破1350 FP8 TFLOPS性能大关。该库特别针对DeepSeek-V3/R1模型架构优化，覆盖预填充、解码等典型推理场景，在多数矩阵尺寸下性能表现超越专业团队手工优化的Cutlass 3.6实现。

▍技术特性：三大创新突破
• 智能精度管理：采用DeepSeek-V3独创的精细化缩放技术，通过CUDA核心两级累加方案，有效解决FP8张量核心累加精度损失难题
• 架构轻量化：完全基于JIT即时编译技术，零预编译依赖，核心代码精简至300行级，堪称深度学习框架的”教科书式”实现
• 多模态支持：兼容标准稠密矩阵与MoE混合专家模型两种布局，为复杂AI模型提供灵活算力支持

▍开发者友好设计
项目采用模块化架构，剥离传统框架复杂的模板依赖，代码可读性堪比教学案例。开发者可快速掌握Hopper架构的FP8优化精髓，官方特别开放性能待优化场景，诚邀社区共同完善。

开源地址：https://github.com/deepseek-ai/deepgemm
（注：当前版本仅支持NVIDIA Hopper架构GPU，需配合CUDA 12.8环境使用）

此次开源标志着国产AI基础设施取得重要突破，DeepGemm的极简哲学与极致性能，或将重塑深度学习计算库的开发范式。正如开发者所言：“我们相信优雅的代码不应以性能为代价，这正是DeepGemm存在的意义。”

{{userData.name}}已认证

神奇！deepseek被ai.com跳转

百度搜索的deepSeek R1满血版上线了 支持互联网搜索

AingDesk：一键部署DeepSeek等上百款AI模型在自己电脑，开源免费无限制！

DeepSeek 开源周第二弹：全球首个MoE专用通信库DeepEP正式发布

选择聊天工具：

百度搜索的deepSeek R1满血版上线了支持互联网搜索