这项由中国科学院自动化研究所、中国科学院大学、新加坡国立大学和中国人民大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.25914。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

每当你打开一份堆满数字的Excel表格,苦苦思索怎么把这些冷冰冰的数据变成一张让老板眼前一亮的图表时,你大概不会意识到,这个看似平凡的日常挑战,正是当今最顶尖的人工智能系统集体翻车的地方。这支来自中国多所顶尖研究机构的团队,正是抓住了这个被学术界长期忽视的痛点,打造了一个名为"DV-World"的测试平台,专门用来检验AI在真实数据可视化工作中的实际表现。结论出乎意料:即便是目前全球最强大的AI模型,在这套考题面前也只能勉强及格,得分普遍低于50%。

要理解为什么这件事值得关注,不妨把数据可视化想象成一场厨艺比赛。过去的AI测试就像是让选手在标准化厨房里按照印好的食谱,用规格统一的食材做出一道菜,然后拍照打分——这当然比什么都不做强,但它完全无法反映一个厨师在真实餐厅里工作时面对的复杂状况:食材换了、客人改了需求、上一个厨师做了一半的菜需要你接手完成,而且你还得当场与顾客沟通确认他到底想要什么口味。DV-World的意义,正是把这场考试从标准化厨房搬到了真实的餐厅后厨。

**一、现有测试平台的三大硬伤**

在正式介绍DV-World之前,有必要先搞清楚现有的同类测试平台究竟缺了什么,毕竟在这项研究发布之前,学术界已经有了不少测试AI数据可视化能力的方案,从ChartMimic到VisEval再到MatPlotBench,数量不少,为何还需要一个新的?

答案藏在三个根本性的脱节里。第一个脱节,是"环境脱节"。现有的测试几乎都把AI关在一个整洁的代码沙盒里——给你一份数据、一个任务说明,你用Python写几行代码,生成一张图片,完事。然而,真实世界里绝大多数普通职场人员处理数据的方式,不是打开Python终端,而是打开Excel。Excel里的图表不是简单的图片,它是一个活生生的对象,与单元格里的数据实时连接,有自己的轴、系列、数据范围绑定关系。当你改变某个单元格的数值,图表会自动随之更新——这种"活"的数据绑定能力,正是Excel图表区别于普通Python生成图片的核心,也是现有AI测试几乎完全忽视的领域。

第二个脱节,是"创作至上"的近视眼。现有测试基本上都是一锤子买卖:给AI一个需求,AI从零开始生成一张图,打分,结束。但现实中的可视化工作哪里是这样的?更多的时候,你面对的是一张已有的图表,需要换上新数据、按照新要求调整样式、保留原有的设计风格——就像画家不是每次都在空白画布上作画,更多时候是在别人已有的画作基础上进行修改和再创作。这种"演化式"的可视化工作,在现有测试中几乎是空白。

第三个脱节,是对"完美需求"的假设。几乎所有现有测试都假设用户的需求是清晰完整的,AI只需要照章执行就好。而现实中的用户呢?"帮我做个图分析一下我们公司的业绩趋势"——这句话里有多少未被说出口的假设?是按月还是按季度?是用折线图还是柱状图?"业绩"指的是收入、利润还是销量?高明的可视化助手应该主动发现这些模糊之处并向用户求证,而不是凭空猜测然后一本正经地输出一张可能完全错误的图表。

正是为了填补这三个空白,DV-World应运而生。

**二、DV-World的三张考卷**

DV-World包含260道精心设计的题目,分为三大模块。这三个模块分别考察了不同维度的能力,恰好对应了上述三个脱节问题。

第一张考卷叫做DV-Sheet,专门考察AI在原生Excel环境中的操作能力。这个模块包含130道题,进一步细分为三种子类型。"创建"子任务要求AI根据用户需求,在Excel工作簿里生成一张原生图表,并且图表必须通过单元格引用与数据动态绑定,不能是硬编码的静态数值——就像餐厅厨师不能把菜单上的价格写死在菜里,而是要让价格能随着食材成本的变化而自动调整。"修复"子任务则更像是接手前任厨师留下的烂摊子:拿到一个有问题的图表,诊断出错误所在并修复它。测试数据显示,74.5%的修复任务中存在噪声数据,错误类型多达12种,包括数据绑定错误、坐标轴缩放问题、图表类型与数据性质不匹配等。"仪表板"子任务则是终极挑战,要求AI把多张图表和数据表格组合成一个完整的商业分析仪表板,像一个专业的BI报表设计师一样规划好整体布局、保证每个元素都传达出有价值的洞察。

这个模块使用的数据平均每个工作簿有36列、超过11000行,这种规模的真实数据,对AI来说既是能力挑战,也是现实感的来源。评分方面,DV-Sheet结合了两种机制:一种是"表格覆盖率",直接检查AI生成的数据值是否与标准答案匹配(对数字类数据允许微小的误差容忍),另一种是基于AI大模型的视觉质量评判,两者结合给出最终分数。

第二张考卷叫做DV-Evolution,包含80道题,专门测试AI的"图表演化"能力。每道题给AI提供一张参考图片(展示目标样式)、一份新数据集,以及一些修改要求,AI需要理解参考图片的视觉语义,把它"翻译"成能处理新数据的可执行代码。更考验功底的是,这些代码还得在五种不同的可视化框架里分别实现:Python的Matplotlib/Seaborn、商业数据大屏常用的Apache ECharts、学术可视化语法框架Vega-Lite、底层网页图形库D3.js,以及交互式分析常用的Plotly.js。就像一个厨师不仅要知道怎么做菜,还要能用中餐灶、法餐灶、日式铁板、美式烤架和印度泥炉分别把同一道菜做出来。每个框架有自己的思维模式和语法规则,AI能否在它们之间自如切换,正是这个模块要检验的核心。

第三张考卷叫做DV-Interact,包含50道题,是三张考卷中最贴近真实用户场景的一张。每道题都设置了一个故意模糊不清的可视化需求,AI需要通过与"用户模拟器"的多轮对话,逐步厘清真正的需求,再生成最终图表。这个用户模拟器不是简单的问答机器人,它有一套严格设计的两阶段机制:第一阶段是"守门人",专门检测AI是不是在试图走捷径——如果AI直接问"你想要什么代码"或者"告诉我数据库的列名是什么",守门人会直接拒绝,因为这不是用户应该回答的问题;第二阶段是"回应生成器",根据预设的隐藏真实需求和反应规则,给出符合普通用户认知水平的自然语言回复,不包含任何技术细节,只说人话。这确保了AI必须通过真正的理解和推理来还原用户意图,而不是通过套取信息走捷径。每道题平均设置了3.17个模糊点,覆盖15种不同类型的歧义,从"最近几年"到底是多少年、"高绩效"到底怎么定义,到"用收入还是利润"这类聚合逻辑歧义。

**三、考卷是怎么打分的**

这套评分体系本身就是一项重要的学术贡献,因为它解决了一个长期困扰研究者的难题:怎么公平、准确地给可视化作品打分?

研究团队采用了"混合评估框架"。核心量化指标叫做"表格覆盖率",用于检验AI生成的数据值与标准答案之间的吻合程度。这个指标使用了"名称优先、类型其次"的智能对齐策略:先尝试通过列名匹配(去掉单位、统一大小写后比较),找不到匹配的列名时再根据数据类型(数字型、日期型、类别型)进行推断性匹配。匹配成功后,文本类数据要求精确相等,浮点数类数据允许在一定误差范围内视为匹配。

在此基础上,还有基于大模型的视觉质量评判。研究团队邀请专家为每类任务设计了多维度的评分细则,涵盖可靠性、适切性、美观性、完整性、一致性等维度,然后用AI大模型(主要是Gemini-2.5-Flash)按照这些细则为AI生成的图表打分。为了验证这套评分体系的可靠性,团队专门做了人工验证:在210道题、3000多个评分项目上,让人类专家与AI评判系统分别打分,结果显示两者的一致性极高(加权Kappa值达到0.821,组内相关系数达到0.850),不同AI评判模型之间的模型排名完全一致。这意味着这套评分系统不是某个特定AI的偏见,而是反映了人类专家水平的客观判断。

对于DV-Interact模块,还额外引入了"交互成功率"这个指标,综合考量AI主动提问的次数、成功解决歧义的轮次、以及被拒绝的不当提问次数,鼓励AI高效、精准地提问,而非漫无目的地乱问或者根本不问。

**四、顶尖AI们考了多少分**

当这套考题摆在Gemini-3-Pro、GPT-5.2、DeepSeek-V3.2、Grok-4等一线AI模型面前时,结果多少令人意外。

在DV-Sheet模块,表现最好的是Gemini-3-Pro,总分仅为40.48分(满分100)。GPT-5.2和DeepSeek-V3.2都未能突破38分。相比之下,人类专家的得分高达80至88分,差距悬殊。具体来看,AI在三个子任务上的表现参差不齐。在"创建"子任务中,数据准确性是最大的短板,超过50%的错误来源于数值计算错误和数据绑定问题。在"修复"子任务中,成功率最高的AI(GLM-4.7、Grok-4)也只有40%多,而且不同类型的修复任务难度差异很大:过滤逻辑错误相对容易修复,但坐标轴缩放问题和视觉编码错误则让AI们普遍卡壳。在"仪表板"子任务中,一个有趣的规律是:随着数据表格规模的增大,AI的表现会持续下降,当单元格总数超过50万时,几乎所有模型的得分都接近腰斩——这说明大型数据集对AI的空间规划和推理能力构成了实质性挑战。

研究团队还发现了一个有意思的相关性:在"创建"子任务中,AI的表格覆盖率(数值准确性)和视觉美观性之间存在正相关关系。也就是说,数值算得越准,图表往往也画得越漂亮。这背后的逻辑很直觉:如果连数据都搞错了,图表自然无从谈起。

在DV-Evolution模块,最高分由Gemini-3-Pro拿下,总分51.44分,其次是Gemini-3-Flash的49.46分和GPT-4.1的44.67分。各框架之间的表现差异显著:所有模型在Python和Vega-Lite上表现相对较好,在D3.js和Plotly.js上表现明显较差。研究团队分析认为,D3.js需要大量低层次的代码操作,生成代码行数往往超过500行,而研究显示代码行数越多,AI的表现就越差——这就好比让厨师写越来越详细的操作步骤,反而越容易写错。另一个有趣发现是,当研究人员从AI的工具箱里拿走"加载图片"工具(即不让AI在生成代码过程中参考参考图)时,所有模型的表现都有所下降,其中Gemini-3-Pro在D3.js任务上的下降幅度最大,达到7.69%——这说明视觉参考对于保持语义忠实度至关重要。

错误类型分析揭示了框架专属的失败模式:D3.js这类低层次库主要让AI在样式上翻车(Gemini-3-Flash的视觉样式错误率高达40.96%),而Apache ECharts和Vega-Lite这类高层次框架则主要暴露AI在数据映射逻辑上的薄弱——前者数据一致性错误率最高达55%,后者布局错误率最高达51%。

在DV-Interact模块,Grok-4以40.43分领跑,但大多数顶尖模型都未能突破38分。更有意思的是,研究团队发现"问题质量"远比"问题数量"重要。Grok-4和DeepSeek-V3.2的提问频率很高,但无效提问比例也高,最终成绩反而不如提问更有针对性的Gemini-3-Pro。Gemini-3-Pro在"有无主动提问"两种情况下的性能差距高达23个百分点,是所有模型中提问质量与任务收益相关性最强的。与此同时,能力较弱的小模型在主动提问后性能反而下降,说明低质量的提问非但帮不上忙,还会引入噪声。

从错误类型来看,DV-Interact的失败主要集中在两种模式:一种是"认知执行落差",即AI与用户成功确认了需求,却在最终生成图表时偏离了商定的内容,GPT-5.2在这一问题上的发生率高达60%;另一种是"交互回避",即AI过度自信地不经确认直接执行,GLM-4.7的这一问题发生率接近60%。

**五、这套题是怎么设计出来的**

260道题的背后,是18名可视化领域专家历时数月的精心设计。

数据来源方面,团队从ExcelForum、MrExcel、Chandoo.org等真实的Excel用户社区收集了800多个真实问题帖子,以及Kaggle平台上的开放数据集。这些数据经过了三步处理:首先保留原始数据的结构特征(如合并单元格、不规则布局),然后对数值进行扰动(在保持数据分布规律的前提下替换具体数字),最后对个人身份信息进行匿名化处理。这三步确保了数据既有真实感,又不侵犯隐私。

题目设计方面,不同类型的任务有不同的设计策略。对于"创建"和"仪表板"类任务,采用了两阶段流程:先由五名专家统一规范题目措辞,再由另外七名专家独立完成任务,以减少单一专家偏见。对于"修复"任务,专家先制作出正确的图表,再系统性地注入各类常见错误,确保每道题都有确定性的正确答案。对于DV-Evolution任务,专家验证了参考实现与目标实现之间的语义等价性,并确保目标代码严格遵循"不硬编码"原则。对于DV-Interact任务,专家从一个具体明确的可视化需求出发,系统性地引入受控的歧义点,记录下解决这些歧义的问答模式,形成隐藏的"真实意图"文档和"反应规则"查找表。

评分细则的设计同样费时费力,每份评分细则平均需要专家花费约6小时进行设计,并经过多轮评审达成共识。为了降低漏判率,专家还专门收集了五个不同AI模型的输出样本,确保评分细则能够覆盖各种合理的解题策略。

**六、用户模拟器有多真实**

DV-World的用户模拟器是整套系统中最有创意的设计之一,因此值得单独展开讲讲。

模拟器使用GPT-5-Mini(即OpenAI的轻量级高效模型)作为底层大脑,这个选择并非偶然——研究团队对比了包括Gemini-3-Pro、O4-mini、GPT-4.1等在内的9种不同模型作为模拟器时的表现,发现GPT-5-Mini在"指导忠实度"(与预设真实意图的匹配程度)和"与人类行为的相关性"两个维度上都达到了最优平衡,且成本最低,堪称性价比之王。GPT-5-Mini达到了88.67%的忠实度和0.86的皮尔逊相关系数(这个数字越接近1,说明与人类行为越相似),而且对150个真实交互轨迹的人工审计也证实了这个结论。

当研究团队从模拟器中移除"阶段一过滤"或"反应规则"两个组件时,忠实度和人类相关性都出现了显著下降,说明这两个机制对于保持模拟器的真实性至关重要。

从行为特征来看,9种模拟器大致可以分为三类:GPT-5.2和GPT-5-Mini属于"理想导师"型,提问频率高、反馈清晰度高,与这类模拟器交互后AI的得分提升幅度最大;O4-mini和Gemini-3-Pro属于"标准用户"型,提问频率和反馈质量居中;Gemini-2.5-Pro和GPT-4.1则属于"挑剔客户"型,反馈清晰度较低,对AI的挑战更大。这三类模拟器的存在,使得DV-World能够从不同角度全面评估AI的交互能力,而不是只有一种固定风格的用户。

**七、人类专家和AI的差距有多大**

研究团队还专门进行了人类基准测试,让10名人类专家在允许使用任何外部工具(包括搜索引擎和AI助手)的条件下,完成每个模块各10道题,然后互相交叉评分。

结果是:DV-Sheet模块人类得分约80至88分(不同子任务有所差异),DV-Evolution模块人类得分约82至88分,DV-Interact模块人类得分约79.6分。相比之下,当前最好的AI模型在这三个模块的最高分分别约为40.48分、51.44分和40.43分。无论从哪个角度看,人类与AI之间都存在着约30至40个百分点的巨大差距,而且这个差距在需要"原生环境操作"和"多轮交互对齐"的任务上尤为突出。

**八、研究结论与未来展望**

归根结底,DV-World告诉我们的,不仅仅是"当前AI还不够好"这个简单结论,更重要的是,它精准地指出了AI不够好的具体位置和具体原因。

在Excel原生环境操作上,AI最大的短板是数值精确性和数据绑定关系的管理——超过50%的错误源于数值计算问题。在跨框架图表演化上,最大的挑战是布局与可读性问题(占错误总量的42%),其次是数据一致性(32%),样式问题反而排在最后(26%)。在多轮交互对齐上,认知执行落差(理解了需求却执行错了)和交互回避(明知需求模糊却不主动提问)是两大主要症结。

这些发现对未来的AI研究方向有明确的指引意义。对于打算开发数据可视化AI工具的团队来说,DV-World提供了一面极为严苛的镜子,能够清晰地照出产品的真实能力边界。对于普通用户来说,这项研究提示我们,在把数据可视化任务完全委托给AI之前,仍然需要保持一定的批判性审视,尤其是在数值精确性和需求完整性方面。

这项研究的数据集、评测框架和详细代码均已在项目主页公开(dv-world-project.github.io),研究者和开发者可以直接在这套平台上测试自己的系统,也可以参考其评测方法论设计类似的基准测试。

Q&A

Q1:DV-World测试平台与其他数据可视化AI测试有什么本质区别?

A:DV-World与现有测试平台的核心区别在于三个维度:首先,它在真实的Excel原生环境中测试AI操作能力,而非简单的代码生成沙盒;其次,它包含"图表演化"任务,考验AI在已有图表基础上修改适配的能力,而非只考察从零创建;最重要的是,它引入了多轮对话模块,模拟真实用户提出模糊需求时AI应如何主动提问澄清。这三点对应了真实职场数据可视化工作的核心挑战,是现有测试普遍缺失的。

Q2:DV-World测试中表现最好的AI模型是哪个?

A:在不同模块中表现最好的模型有所不同。在Excel原生操作模块(DV-Sheet)中,Gemini-3-Pro得分最高,约为40.48分;在图表演化模块(DV-Evolution)中,同样是Gemini-3-Pro领先,得分约51.44分;在多轮交互模块(DV-Interact)中,Grok-4得分最高,约为40.43分。但无论哪个模块,最高分都低于52分,与人类专家80分以上的表现相比差距明显。

Q3:DV-World的用户模拟器如何防止AI作弊?

A:DV-World的用户模拟器设计了两阶段防作弊机制。第一阶段是"守门人",它会自动检测AI是否在试图套取敏感信息,比如直接要求提供实现代码、询问数据库具体列名或要求给出答案——一旦检测到这类行为,模拟器会直接拒绝回答。第二阶段是"回应生成器",它严格按照预设的隐藏真实意图和反应规则生成自然语言回复,不包含任何技术细节,确保AI只能通过合理的澄清提问来理解用户意图,而无法走捷径获取关键信息。