DeepSeek 开源第五弹:高性能文件系统3FS突破6.6 TiB/s吞吐,赋能AI数据洪流

2月28日,国内AI领域先锋DeepSeek在其“开源周”压轴日宣布,正式开源3FS(Fire-Flyer File System)高性能并行文件系统及配套数据处理框架Smallpond。这一组合剑指AI时代海量数据处理的效率瓶颈,凭借突破性的吞吐性能与去中心化架构设计,为深度学习训练、推理等场景提供了全新的基础设施支持。

3FS:重新定义分布式存储性能极限

作为专为现代SSD硬件RDMA高速网络量身打造的文件系统,3FS通过创新的并行架构设计,彻底释放硬件潜能。其核心亮点在于:

  • 集群吞吐登顶:在180节点规模的测试集群中,3FS实现了6.6 TiB/s的聚合读取吞吐,相当于每秒传输逾14部4K蓝光电影。
  • 基准测试横扫:以25节点完成GraySort基准测试时,以3.66 TiB/分钟的成绩刷新效能标杆,展现极速排序与数据搬运能力。
  • 单节点爆发力:单个客户端节点的KVCache查询峰值突破40 GiB/s,满足高并发实时需求。
  • 架构革命:采用无中心节点的分布式设计,同时确保强一致性语义,兼顾性能与数据可靠性。

穿透AI工作流全场景,化解数据“卡脖子”难题

3FS并非实验室技术,而是直接服务于DeepSeek自身大模型训练体系(如V3/R1版本),覆盖AI数据生命周期的关键环节:

  • 训练前:加速TB级数据预处理与分布式加载,缩短模型迭代周期。
  • 训练中:实现分钟级千卡集群检查点保存/恢复,规避训练中断风险。
  • 推理时:支撑毫秒级向量检索与KVCache查询,保障低延迟响应。
  • 长期运维:提供PB级模型参数的高效版本管理,简化生产部署。

Smallpond:轻量级数据处理的“涡轮引擎”

同步开源的Smallpond框架,将3FS与DuckDB分析引擎深度融合,打造“即时可用”的数据处理方案:

  • 零服务依赖:无需常驻后台进程,按需启动释放资源。
  • PB级扩展:依托3FS分布式存储,轻松应对超大规模数据集。
  • SQL友好:内置DuckDB支持标准查询语言,降低开发门槛。

开源生态双星闪耀
3FS与Smallpond已全面开放源代码,开发者可通过以下链接深入探索:

此次开源标志着DeepSeek“开源周”计划的圆满收官,也预示着AI基础设施领域或将迎来新一轮性能革新。随着算力竞争进入白热化,突破存储瓶颈的3FS能否成为国产大模型训练的“隐形引擎”?业界正拭目以待。

给TA打赏
共{{data.count}}人
人已打赏
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
在线客服
主机邦
我们将24小时内回复。
2025-03-28 18:33:32
您好,有任何疑问请与我们联系!
您的工单我们已经收到,我们将会尽快跟您联系!
[QQ客服]
176363189
suduwangluo
[小黄]
17307799197
[企业邮箱]
sudu@yunjiasu.cc
取消

选择聊天工具: