十年榜单首迎中国双料冠军：这次赢的不只是性能,双料冠军什么意思

6月，在德国汉堡ISC高性能计算大会的展台上，GPU、液冷、量子计算的声浪依旧汹涌，但今年，会场的主角悄悄换了人。

IO500榜单——全球高性能计算存储领域最权威的评测体系——公布了最新一期结果：中科曙光ParaStor F9000分布式全闪存储系统，同时拿下生产型全节点和10节点两大榜单的第一名。

在这一榜单近十年的历史中，能够同时统领这两个维度的，此前只有少数几家美国厂商，中科曙光成为首家达成此成就的中国公司。

与研究性榜单不同，生产型榜单的评选有一条硬性要求：存储系统必须已在真实业务环境中不间断运行超过一年，这意味着F9000并非实验室里的测试样机，而是一套正在产线上承担生产任务、随时会被业务中断打扰的真实系统。

中科曙光北京公司副总裁何振则将这一差异概括为评价标准的迁移：从“峰值性能”转向“真实系统能力”，考核的重点变成了长期稳定性、复杂负载适配能力和大规模扩展时的一致性表现。

在何振看来，这次夺冠的意义远不止“拿了一个冠军”：“这是国产高端存储第一次在全球最严格的真实生产型评测体系中，形成了系统性领先。”

ParaStor F9000凭什么赢？

中科曙光分布式存储总工程师袁清波，把F9000的技术壁垒归纳成三层，并坦言这三层的技术难度是递进的。

最显性的差异在硬件形态上，市面上2U24盘位的NVMe全闪机型并不罕见，但F9000采用了一种业内称为“双子星”的特殊设计——在2U的空间里塞进两个完全独立的物理节点，每个节点都有自己的主板、CPU、内存、网卡和SSD。

更关键的创新藏在连接方式里：CPU一侧直连NVMe介质，另一侧直连网卡，中间完全不经过PCIe Switch转接。“这给我们提供了两倍的PCIe Lane数量。”袁清波说。

与此同时，这两倍的Lane数量被有意识地“对半分”给了SSD和网卡，袁清波指出，“这种均衡恰恰是行业里容易被忽视的地方，做标准服务器的人，对网络和SSD这两个硬件的定位是相同的，但对存储系统来说，读的时候数据从盘上读出经网卡发出，写的时候从网卡收进再下到盘上，数据流动方向刚好相反。”

ParaStor围绕每个CPU核心，把与之相关的内存、网卡、SSD绑定成一个独立的IO子域，确保混合负载之间相互隔离又能灵活配置。“用户发出的每一次IO，从发出那一刻起，我们就知道它要走哪个网卡、用哪块内存、经哪个核，最后落在哪块盘上。”袁清波说。

效果体现在一个具体指标上：系统吞吐量已被推至内存带宽的峰值。

“基本上没有传统方案能做到这一点，”袁清波说，“一旦后面硬件有提升，比如网卡频率提高10%，我们的性能也能同步提升10%。”

在这套架构之上，还叠加了一层QoS调控机制，能针对不同业务分别设定带宽和IOPS的上下限——这正是F9000在“业务不能停”的生产环境里，额外完成打榜测试而不互相干扰的关键。

硬件形态和软件架构再往下走，是一层更难以复制的壁垒：全栈自研，石静的体会很直接：如果软硬件不是从底层设计的，跨层、跨参数的相互影响根本无从优化，只能在别人定好的边界里小修小补。

从战略的视角来看，何振表示：“全国产自研的意义，并不只是供应链层面的可靠保障，更重要的是带来了体系级优化空间——核心软硬件栈完全可控，使存储系统可以在协议栈、数据路径、调度机制等多个层面进行深度协同优化。”

把存储本身跑快，只是基础。F9000面向AI场景，能够做到“以存提算、以存代算、以存降本”三级协同——本质上是把存储从被动的数据供给层，升级为参与计算路径设计的一部分。

在计算节点侧，F9000做了三层加速：把节点本地内存和NVMe SSD池化为近算力缓存，在训练前先将数据集“预热”进来，避免每次跨网络回源到后端存储；再通过XDS技术，让数据直接从网卡进入GPU显存，绕开CPU内存转发。

“我们已经把内存带宽跑到了峰值，但XDS可以进一步突破内存带宽的限制——数据根本不走内存了。”袁清波解释，这之所以关键，是因为AI训练对数据供给的容错率极低，一旦数据没供到位，GPU集群就只能空转等待。

网络侧，F9000优先适配的是曙光自研的scaleFabric——一款400G原生无损RDMA网络，中科曙光高速网络互联产品部总工程师万伟透露，网卡设计之初就考虑了存储的极端需求：在10万卡集群规模下，存储节点需要面向所有计算节点的并发访问，现有IB的QP规模根本撑不住，团队直接把这一指标扩展了一倍。

存储侧的重心，则从“更快供给”转向“主动分担”。两项能力承担了这个角色：KV Cache offload自动将GPU闲置的KV缓存块迁移到后端全闪存储，推理时再通过XDS高速通路回传显存，实测降低60%以上GPU显存占用，单卡并发推理承载量提升2到10倍；存储端AI算子加速库则把数据清洗、向量编码等预处理操作下沉到存储侧执行，跨节点数据传输量减少70%。

袁清波把这套组合拳的意义概括为一句话：“未来存储系统的竞争将从单一性能指标，转向系统级综合能力——数据路径效率、端到端延迟控制能力、GPU利用率提升能力，以及高并发场景下的整体吞吐稳定性，这些指标共同决定系统在真实AI负载下的有效价值。”

把存储从数据仓库变成AI调度中枢

大模型训练进入万卡、十万卡规模之后，一个共识正在行业里形成：瓶颈，已经从“算力不足”转移到了“数据供给不足”。

袁清波表示：“在大规模AI训练体系中，算力本身已经高度冗余，真正限制系统效率的是数据供给能力。如果存储无法持续提供高带宽、低时延的数据流，GPU将处于等待状态，导致算力资源浪费。”

这种瓶颈转移，正在逼着存储的角色发生根本性变化，石静的判断是，ParaStor不再是一个数据容器，在AI的驱动下，它正在向“AI数据工厂”跃迁，存储开始成为计算路径设计的一部分。

这种跃迁已经发生在具体场景里。

在具身智能领域，曙光为智元机器人提供了超过500GB/s聚合读带宽的专属存储方案，支撑多款通用型机器人的快速迭代；自动驾驶领域，曙光连续为国内头部造车新势力提供超百PB存储资源，覆盖从数据采集到仿真验证的全流程闭环，模型研发周期缩短40%以上；科学计算领域，F9000支撑了414.7亿原子规模的液态水分子动力学模拟——存储开始直接参与数据与计算高度耦合的科学发现过程。

截至目前，ParaStor F9000已搭载于曙光scaleX万卡超集群，支撑了百余个AI与高性能计算领域的生产应用。

而下一代AI基础设施的竞争焦点，已从单一硬件能力转向系统级协同，何振将这种竞争的核心概括为三个维度：存算网一体化的数据流动效率、跨层资源调度能力，以及整体TCO优化。

“国产厂商的优势，在于更完整的系统工程能力——可以从整机、网络到软件栈进行端到端优化，而不是局限于单点性能提升。”

这套系统级竞争的逻辑，恰好撞上了当前存储市场近15年来最陡峭的涨价周期，海外巨头把产能向HBM、DDR5等高附加值领域倾斜，传统存储市场出现供给缺口。

但何振认为，这轮涨价的本质不是单一器件价格波动，而是AI算力需求爆发后，存储、网络、算力同步扩张带来的系统性成本上升。

正是在这个矛盾里，“以技术换效率、以效率降成本”开始成为国产存储的差异化路径。F9000的智能数据分层，把高频数据放到高性能路径上，低频数据沉淀到性价比更高的介质，再叠加软硬件协同优化提升单节点带宽——本质上是把原本需要线性堆叠硬件的投入，转化为更高密度、更高利用率的系统能力。

何振的判断很干脆：“谁能在同等算力需求下，用更少的资源、更高的利用率完成计算任务，谁就能在新一轮基础设施建设中获得优势。”

告别“替代”叙事，中国存储换了一张牌

这次双榜登顶，放在更大的坐标系里看，踩在了一次范式转换的节点上——从“国产替代”切换到“全球并跑”。

2026年第一季度，中国存储器出口额同比增长174.2%，长江存储全球NAND闪存市占率升至13%，国产存储正在从“政策单引擎”切换到“政策+性能”双引擎并驱。

产业层面的数据提供了宏观注脚，但具体到每一款产品能否真正打开局面，仍需要接受市场和时间的检验，也正是基于这一认知，曙光内部对这次登顶的定位保持着清醒与克制。

何振首先划清了能力验证与商业成功之间的边界：“这次在IO500的突破，更多是对产品能力的一次国际级验证，不直接等同于商业市场的规模化结果。”