2月28日,国内AI领域先锋DeepSeek在其“开源周”压轴日宣布,正式开源3FS(Fire-Flyer File System)高性能并行文件系统及配套数据处理框架Smallpond。这一组合剑指AI时代海量数据处理的效率瓶颈,凭借突破性的吞吐性能与去中心化架构设计,为深度学习训练、推理等场景提供了全新的基础设施支持。
3FS:重新定义分布式存储性能极限
作为专为现代SSD硬件与RDMA高速网络量身打造的文件系统,3FS通过创新的并行架构设计,彻底释放硬件潜能。其核心亮点在于:
- 集群吞吐登顶:在180节点规模的测试集群中,3FS实现了6.6 TiB/s的聚合读取吞吐,相当于每秒传输逾14部4K蓝光电影。
- 基准测试横扫:以25节点完成GraySort基准测试时,以3.66 TiB/分钟的成绩刷新效能标杆,展现极速排序与数据搬运能力。
- 单节点爆发力:单个客户端节点的KVCache查询峰值突破40 GiB/s,满足高并发实时需求。
- 架构革命:采用无中心节点的分布式设计,同时确保强一致性语义,兼顾性能与数据可靠性。
穿透AI工作流全场景,化解数据“卡脖子”难题
3FS并非实验室技术,而是直接服务于DeepSeek自身大模型训练体系(如V3/R1版本),覆盖AI数据生命周期的关键环节:
- 训练前:加速TB级数据预处理与分布式加载,缩短模型迭代周期。
- 训练中:实现分钟级千卡集群检查点保存/恢复,规避训练中断风险。
- 推理时:支撑毫秒级向量检索与KVCache查询,保障低延迟响应。
- 长期运维:提供PB级模型参数的高效版本管理,简化生产部署。
Smallpond:轻量级数据处理的“涡轮引擎”
同步开源的Smallpond框架,将3FS与DuckDB分析引擎深度融合,打造“即时可用”的数据处理方案:
- 零服务依赖:无需常驻后台进程,按需启动释放资源。
- PB级扩展:依托3FS分布式存储,轻松应对超大规模数据集。
- SQL友好:内置DuckDB支持标准查询语言,降低开发门槛。
开源生态双星闪耀
3FS与Smallpond已全面开放源代码,开发者可通过以下链接深入探索:
- 3FS项目地址:https://github.com/deepseek-ai/3FS
- Smallpond框架地址:https://github.com/deepseek-ai/smallpond
此次开源标志着DeepSeek“开源周”计划的圆满收官,也预示着AI基础设施领域或将迎来新一轮性能革新。随着算力竞争进入白热化,突破存储瓶颈的3FS能否成为国产大模型训练的“隐形引擎”?业界正拭目以待。