Automated Benchmark

模型编程性能测试汇总

自动化评测于 2026-04-17 14:17:56 CST 使用 Playwright Core + Google Chrome Headless 执行,桌面端视口为 1440×900,移动端视口为 390×844。

GitHub:https://github.com/versun/coding-model-comparison

参与模型数
17
最高总分
KAT-Coder-Pro V2
98 / 100
最快完成模型
Step 3.5 Flash
完成时间:41秒
平均分
79.5
交互项最强:KAT-Coder-Pro V2

测试提示词

展开查看原始 Prompt
不要使用任何的mcp和skill,请编写一个单文件的 HTML/JS 应用(不使用构建工具,使用 CDN 引入 React 和 D3.js)。
功能:

生成 100 个随机数据点。

绘制一个力导向图(Force-directed Graph)。

实现交互:鼠标悬停节点显示 Tooltip,点击节点高亮其相邻节点,支持滚轮缩放画布。

UI 风格要求现代、极简、暗色模式。

自动化评测结果

排名 模型 总分 运行环境 完成时间 节点 渲染稳定 图数据 Tooltip 邻接高亮 缩放 交互完整度 信息架构 暗色主题 移动端 成果
1 KAT-Coder-Pro V2 98 Claude Code 48秒 100 370 10/10 16/16 18/18 17/18 10/10 8/8 5/6 6/6 8/8 查看页面
2 Claude Opus 4.7 97 Claude Code 1分 10秒 100 192 10/10 16/16 17/18 17/18 10/10 8/8 5/6 6/6 8/8 查看页面
3 GPT 5.4 95 Codex CLI 4分 20秒 100 234 9/10 16/16 17/18 17/18 10/10 6/8 6/6 6/6 8/8 查看页面
4 Claude Opus 4.6 94 Claude Code 53秒 100 158 10/10 16/16 17/18 17/18 10/10 6/8 4/6 6/6 8/8 查看页面
5 GLM 5 94 Claude Code 2分 14秒 100 287 10/10 16/16 17/18 15/18 10/10 7/8 5/6 6/6 8/8 查看页面
6 Qwen3.6 Plus Preview 94 Claude Code 3分 46秒 100 121 10/10 16/16 17/18 17/18 10/10 6/8 4/6 6/6 8/8 查看页面
7 Claude Sonnet 4.6 93.5 Claude Code 1分 2秒 100 234 10/10 16/16 16/18 17/18 10/10 6/8 4.5/6 6/6 8/8 查看页面
8 GPT 5.3 Codex 92.5 Codex CLI 1分 40秒 100 261 10/10 16/16 16/18 17/18 10/10 6/8 3.5/6 6/6 8/8 查看页面
9 Gemini 3.1 Pro Preview 91 Claude Code 2分 15秒 100 145 10/10 16/16 17/18 15/18 10/10 6/8 3/6 6/6 8/8 查看页面
10 Kimi 2.6 Code Preview 90 Claude Code 1分 21秒 100 211 10/10 16/16 12/18 17/18 10/10 7/8 4/6 6/6 8/8 查看页面
11 Kimi 2.5 84 Claude Code 1分 53秒 100 190 10/10 16/16 16/18 6/18 10/10 7/8 5/6 6/6 8/8 查看页面
12 GPT 5.4 Mini 84 Codex CLI 4分 14秒 100 197 10/10 16/16 16/18 6/18 10/10 6/8 6/6 6/6 8/8 查看页面
13 Minimax 2.7 79.5 Claude Code 1分 03秒 100 235 10/10 16/16 15/18 6/18 10/10 6/8 2.5/6 6/6 8/8 查看页面
14 Mimo V2 Pro 71.5 Claude Code 1分 03秒 105 190 10/10 14/16 0/18 17/18 10/10 5/8 1.5/6 6/6 8/8 查看页面
15 Minimax 2.5 71.5 Claude Code 2分 38秒 100 205 10/10 16/16 0/18 17/18 10/10 4/8 0.5/6 6/6 8/8 查看页面
16 Step 3.5 Flash 11.5 Claude Code 41秒 0 0 1/10 0/16 0/18 0/18 0/10 0/8 0.5/6 6/6 4/8 查看页面
17 GLM 5V Turbo 10.5 Claude Code 59秒 0 0 0/10 0/16 0/18 0/18 0/10 0/8 0.5/6 6/6 4/8 查看页面

评分细则

维度 分值 自动化检测方式
渲染稳定性 10
检查页面是否稳定完成首次渲染,并且交互探针能够正常工作。
  • 可交互 SVG 已渲染4 分存在可见 SVG 且页面进入可评估状态。
  • 目标节点可定位1 分自动化能锁定一个真实节点作为后续交互探针。
  • 节点达到最低可用量1 分可见节点数达到基础可用阈值。
  • 边达到最低可用量1 分可见边数达到基础可用阈值。
  • 无 pageerror2 分运行期无致命页面异常。
  • 无 console error1 分控制台未出现错误级日志。
图数据完整度 16
评估节点数量、边数量以及图区域是否足够完整。
  • 节点数量接近 1007 分对 100 个随机数据点的还原是否准确。
  • 边数量充分3 分图结构是否具备足够的连边密度。
  • 图探针可用2 分自动化可定位中心节点并用于交互探测。
  • 图区域高度充足2 分图表占据了足够的垂直空间。
  • 图区域宽度充足2 分图表占据了足够的水平空间。
Tooltip 交互 18
检查悬停反馈是否存在、信息是否丰富、字段是否足够完整。
  • 悬停后 Tooltip 可见4 分悬停真实节点后出现 Tooltip。
  • Tooltip 可重复触发3 分多次独立探测时 Tooltip 能稳定出现,而不是只偶发成功。
  • Tooltip 文本长度3 分Tooltip 提供了足够的信息量,而不是只显示一个短标签。
  • Tooltip 字段丰富度3 分Tooltip 中包含多行、多块或多字段信息。
  • Tooltip 信息结构3 分Tooltip 不是单一值,而是能读出多项语义信息。
  • Tooltip 探针一致性2 分页面中存在稳定的 Tooltip 容器或明确唯一的候选。
邻接高亮 18
检查点击后是否能区分目标节点、相邻节点与非相邻节点。
  • 目标节点反馈3 分被点击节点自身出现明显状态变化。
  • 节点层区分4 分节点样式在点击后出现充分变化。
  • 边层区分4 分连边样式在点击后出现足够变化。
  • 非邻接节点弱化4 分非相邻节点被显著弱化或降低透明度。
  • 高亮语义标记1 分存在 highlighted/selected/active 等可识别语义类。
  • 高亮响应可重复2 分多次独立点击探测时,高亮响应能稳定复现。
缩放能力 10
检查滚轮缩放是否生效、变化是否明显,以及能否稳定复现。
  • 检测到缩放响应4 分对图区域滚轮操作后容器状态发生变化。
  • 缩放幅度3 分缩放比例的变化足够明显。
  • 缩放变换被记录2 分transform / viewBox 等状态明显变化。
  • 缩放响应可重复1 分多次独立滚轮探测时,缩放都能稳定出现。
交互完整度 8
奖励更完整的交互体验,例如拖拽、控件、图例和操作提示。
  • 节点可拖拽3 分拖拽真实节点后,节点位置出现清晰位移。
  • 拖拽可重复1 分多次独立拖拽探测时,节点拖动能稳定成功。
  • 游标反馈1 分图区域或节点使用 pointer / grab / move 等交互型游标。
  • 控件数量1 分存在两个或以上明确控制入口,例如按钮或摘要操作。
  • 图例说明1 分页面存在图例或分组说明,帮助理解图中类别。
  • 操作提示1 分页面明确提示用户如何缩放、拖拽、点击或悬停。
信息架构 6
检查页面是否提供标题、说明、辅助信息与基础可访问性。
  • 标题层级1 分存在明确标题或标题层级。
  • 说明文案2 分提供足够的说明、帮助或上下文文案。
  • 辅助信息块1 分提供统计、面板、摘要等辅助信息块。
  • 控制与摘要入口0.5 分存在按钮、链接或摘要式操作入口。
  • 移动端 viewport 元信息0.5 分声明了 viewport,便于移动端正确缩放。
  • 图表可访问性标识1 分为 SVG 或图表区域提供 ARIA 语义。
暗色主题 6
检查背景是否足够深、正文是否足够亮、整体对比是否达标。
  • 背景亮度3 分截图采样的平均背景亮度足够低。
  • 正文亮度2 分正文颜色足够亮,能够形成暗色界面阅读对比。
  • 整体明暗对比1 分背景与文本之间保持足够的亮度差。
移动端适配 8
在 390px 宽视口下检查溢出、图高度、节点保留率和基础元信息。
  • 无明显横向溢出3 分移动端滚动宽度与视口宽度接近。
  • 图区域高度2 分移动端仍保留足够的图表高度。
  • 节点保留率2 分移动端仍能看到足够数量的节点。
  • 移动端元信息1 分页面声明了 viewport,利于移动端布局。