6月,在德国汉堡ISC高性能计算大会的展台上,GPU、液冷、量子计算的声浪依旧汹涌,但今年,会场的主角悄悄换了人。
IO500榜单——全球高性能计算存储领域最权威的评测体系——公布了最新一期结果:中科曙光ParaStor F9000分布式全闪存储系统,同时拿下生产型全节点和10节点两大榜单的第一名。
在这一榜单近十年的历史中,能够同时统领这两个维度的,此前只有少数几家美国厂商,中科曙光成为首家达成此成就的中国公司。
与研究性榜单不同,生产型榜单的评选有一条硬性要求:存储系统必须已在真实业务环境中不间断运行超过一年,这意味着F9000并非实验室里的测试样机,而是一套正在产线上承担生产任务、随时会被业务中断打扰的真实系统。
中科曙光北京公司副总裁何振则将这一差异概括为评价标准的迁移:从“峰值性能”转向“真实系统能力”,考核的重点变成了长期稳定性、复杂负载适配能力和大规模扩展时的一致性表现。
在何振看来,这次夺冠的意义远不止“拿了一个冠军”:“这是国产高端存储第一次在全球最严格的真实生产型评测体系中,形成了系统性领先。”
ParaStor F9000凭什么赢?
中科曙光分布式存储总工程师袁清波,把F9000的技术壁垒归纳成三层,并坦言这三层的技术难度是递进的。
最显性的差异在硬件形态上,市面上2U24盘位的NVMe全闪机型并不罕见,但F9000采用了一种业内称为“双子星”的特殊设计——在2U的空间里塞进两个完全独立的物理节点,每个节点都有自己的主板、CPU、内存、网卡和SSD。
更关键的创新藏在连接方式里:CPU一侧直连NVMe介质,另一侧直连网卡,中间完全不经过PCIe Switch转接。“这给我们提供了两倍的PCIe Lane数量。”袁清波说。
与此同时,这两倍的Lane数量被有意识地“对半分”给了SSD和网卡,袁清波指出,“这种均衡恰恰是行业里容易被忽视的地方,做标准服务器的人,对网络和SSD这两个硬件的定位是相同的,但对存储系统来说,读的时候数据从盘上读出经网卡发出,写的时候从网卡收进再下到盘上,数据流动方向刚好相反。”
ParaStor围绕每个CPU核心,把与之相关的内存、网卡、SSD绑定成一个独立的IO子域,确保混合负载之间相互隔离又能灵活配置。“用户发出的每一次IO,从发出那一刻起,我们就知道它要走哪个网卡、用哪块内存、经哪个核,最后落在哪块盘上。”袁清波说。
效果体现在一个具体指标上:系统吞吐量已被推至内存带宽的峰值。
“基本上没有传统方案能做到这一点,”袁清波说,“一旦后面硬件有提升,比如网卡频率提高10%,我们的性能也能同步提升10%。”
在这套架构之上,还叠加了一层QoS调控机制,能针对不同业务分别设定带宽和IOPS的上下限——这正是F9000在“业务不能停”的生产环境里,额外完成打榜测试而不互相干扰的关键。
硬件形态和软件架构再往下走,是一层更难以复制的壁垒:全栈自研,石静的体会很直接:如果软硬件不是从底层设计的,跨层、跨参数的相互影响根本无从优化,只能在别人定好的边界里小修小补。
从战略的视角来看,何振表示:“全国产自研的意义,并不只是供应链层面的可靠保障,更重要的是带来了体系级优化空间——核心软硬件栈完全可控,使存储系统可以在协议栈、数据路径、调度机制等多个层面进行深度协同优化。”
把存储本身跑快,只是基础。F9000面向AI场景,能够做到“以存提算、以存代算、以存降本”三级协同——本质上是把存储从被动的数据供给层,升级为参与计算路径设计的一部分。
在计算节点侧,F9000做了三层加速:把节点本地内存和NVMe SSD池化为近算力缓存,在训练前先将数据集“预热”进来,避免每次跨网络回源到后端存储;再通过XDS技术,让数据直接从网卡进入GPU显存,绕开CPU内存转发。
“我们已经把内存带宽跑到了峰值,但XDS可以进一步突破内存带宽的限制——数据根本不走内存了。”袁清波解释,这之所以关键,是因为AI训练对数据供给的容错率极低,一旦数据没供到位,GPU集群就只能空转等待。
网络侧,F9000优先适配的是曙光自研的scaleFabric——一款400G原生无损RDMA网络,中科曙光高速网络互联产品部总工程师万伟透露,网卡设计之初就考虑了存储的极端需求:在10万卡集群规模下,存储节点需要面向所有计算节点的并发访问,现有IB的QP规模根本撑不住,团队直接把这一指标扩展了一倍。
存储侧的重心,则从“更快供给”转向“主动分担”。两项能力承担了这个角色:KV Cache offload自动将GPU闲置的KV缓存块迁移到后端全闪存储,推理时再通过XDS高速通路回传显存,实测降低60%以上GPU显存占用,单卡并发推理承载量提升2到10倍;存储端AI算子加速库则把数据清洗、向量编码等预处理操作下沉到存储侧执行,跨节点数据传输量减少70%。
袁清波把这套组合拳的意义概括为一句话:“未来存储系统的竞争将从单一性能指标,转向系统级综合能力——数据路径效率、端到端延迟控制能力、GPU利用率提升能力,以及高并发场景下的整体吞吐稳定性,这些指标共同决定系统在真实AI负载下的有效价值。”
把存储从数据仓库变成AI调度中枢
大模型训练进入万卡、十万卡规模之后,一个共识正在行业里形成:瓶颈,已经从“算力不足”转移到了“数据供给不足”。
袁清波表示:“在大规模AI训练体系中,算力本身已经高度冗余,真正限制系统效率的是数据供给能力。如果存储无法持续提供高带宽、低时延的数据流,GPU将处于等待状态,导致算力资源浪费。”
这种瓶颈转移,正在逼着存储的角色发生根本性变化,石静的判断是,ParaStor不再是一个数据容器,在AI的驱动下,它正在向“AI数据工厂”跃迁,存储开始成为计算路径设计的一部分。
这种跃迁已经发生在具体场景里。
在具身智能领域,曙光为智元机器人提供了超过500GB/s聚合读带宽的专属存储方案,支撑多款通用型机器人的快速迭代;自动驾驶领域,曙光连续为国内头部造车新势力提供超百PB存储资源,覆盖从数据采集到仿真验证的全流程闭环,模型研发周期缩短40%以上;科学计算领域,F9000支撑了414.7亿原子规模的液态水分子动力学模拟——存储开始直接参与数据与计算高度耦合的科学发现过程。
截至目前,ParaStor F9000已搭载于曙光scaleX万卡超集群,支撑了百余个AI与高性能计算领域的生产应用。
而下一代AI基础设施的竞争焦点,已从单一硬件能力转向系统级协同,何振将这种竞争的核心概括为三个维度:存算网一体化的数据流动效率、跨层资源调度能力,以及整体TCO优化。
“国产厂商的优势,在于更完整的系统工程能力——可以从整机、网络到软件栈进行端到端优化,而不是局限于单点性能提升。”
这套系统级竞争的逻辑,恰好撞上了当前存储市场近15年来最陡峭的涨价周期,海外巨头把产能向HBM、DDR5等高附加值领域倾斜,传统存储市场出现供给缺口。
但何振认为,这轮涨价的本质不是单一器件价格波动,而是AI算力需求爆发后,存储、网络、算力同步扩张带来的系统性成本上升。
正是在这个矛盾里,“以技术换效率、以效率降成本”开始成为国产存储的差异化路径。F9000的智能数据分层,把高频数据放到高性能路径上,低频数据沉淀到性价比更高的介质,再叠加软硬件协同优化提升单节点带宽——本质上是把原本需要线性堆叠硬件的投入,转化为更高密度、更高利用率的系统能力。
何振的判断很干脆:“谁能在同等算力需求下,用更少的资源、更高的利用率完成计算任务,谁就能在新一轮基础设施建设中获得优势。”
告别“替代”叙事,中国存储换了一张牌
这次双榜登顶,放在更大的坐标系里看,踩在了一次范式转换的节点上——从“国产替代”切换到“全球并跑”。
2026年第一季度,中国存储器出口额同比增长174.2%,长江存储全球NAND闪存市占率升至13%,国产存储正在从“政策单引擎”切换到“政策+性能”双引擎并驱。
产业层面的数据提供了宏观注脚,但具体到每一款产品能否真正打开局面,仍需要接受市场和时间的检验,也正是基于这一认知,曙光内部对这次登顶的定位保持着清醒与克制。
何振首先划清了能力验证与商业成功之间的边界:“这次在IO500的突破,更多是对产品能力的一次国际级验证,不直接等同于商业市场的规模化结果。”
基于这一判断,曙光的海外策略没有奔着规模扩张去,而是以科研机构、超算中心为切入点,优先进入对性能和工程能力要求更高的细分市场。
石静的判断同样克制:“它不算一张全球通行证,只是代表我们具有这样一个能力——算是给全球的一个亮相。”
但亮相的意义,从来不只是被看见,石静说:"未来竞争的核心不在于'替换多少存量',而在于'能否在新一代AI基础设施中成为默认选项'。"
从产业大势到产品定位,从海外策略到生态愿景,这些冷静的研判背后,是二十年技术积累所沉淀出的底气。
被问到拿下双第一的心情时,石静用了八个字:"行稳致远、长期主义。"
二十多年,足够一条技术路线从实验室走到全球评测的聚光灯下。这次IO500双榜登顶,是一个节点,不是句号。
雷峰网雷峰网