Automated Benchmark

模型编程性能测试汇总

自动化评测于 2026-04-03 21:19:55 CST 使用 Playwright Core + Google Chrome Headless 执行,桌面端视口为 1440×900,移动端视口为 390×844。

GitHub:https://github.com/versun/coding-model-comparison

参与模型数
15
最高总分
KAT-Coder-Pro V2
97 / 100
最快完成模型
Step 3.5 Flash
完成时间:41秒
平均分
77.9
交互项最强:KAT-Coder-Pro V2

测试提示词

展开查看原始 Prompt
不要使用任何的mcp和skill,请编写一个单文件的 HTML/JS 应用(不使用构建工具,使用 CDN 引入 React 和 D3.js)。
功能:

生成 100 个随机数据点。

绘制一个力导向图(Force-directed Graph)。

实现交互:鼠标悬停节点显示 Tooltip,点击节点高亮其相邻节点,支持滚轮缩放画布。

UI 风格要求现代、极简、暗色模式。

自动化评测结果

排名 模型 总分 运行环境 完成时间 节点 渲染稳定 图数据 Tooltip 邻接高亮 缩放 信息架构 暗色主题 移动端 成果
1 KAT-Coder-Pro V2 97 Claude Code 48秒 100 370 10/1018/1820/2018/2012/125/66/68/8 查看页面
2 GPT 5.4 96 Codex CLI 4分 20秒 100 234 9/1018/1819/2018/2012/126/66/68/8 查看页面
3 Opus 4.6 95 Claude Code 53秒 100 159 10/1018/1819/2018/2012/124/66/68/8 查看页面
4 Qwen3.6 Plus Preview 95 Claude Code 3分 46秒 100 121 10/1018/1819/2018/2012/124/66/68/8 查看页面
5 GLM 5 94 Claude Code 2分 14秒 100 287 10/1018/1819/2016/2012/125/66/68/8 查看页面
6 Claude Sonnet 4.6 93.5 Claude Code 1分 2秒 100 233 10/1018/1817/2018/2012/124.5/66/68/8 查看页面
7 GPT 5.3 Codex 92.5 Codex CLI 1分 40秒 100 260 10/1018/1817/2018/2012/123.5/66/68/8 查看页面
8 Gemini 3.1 Pro Preview 92 Claude Code 2分 15秒 100 144 10/1018/1819/2016/2012/123/66/68/8 查看页面
9 Kimi 2.5 83 Claude Code 1分 53秒 100 190 10/1018/1817/207/2012/125/66/68/8 查看页面
10 GPT 5.4 Mini 83 Codex CLI 4分 14秒 100 200 10/1018/1817/206/2012/126/66/68/8 查看页面
11 Minimax 2.7 79.5 Claude Code 1分 03秒 100 236 10/1018/1816/207/2012/122.5/66/68/8 查看页面
12 Minimax 2.5 72.5 Claude Code 2分 38秒 100 204 10/1018/180/2018/2012/120.5/66/68/8 查看页面
13 Mimo V2 Pro 71.5 Claude Code 1分 03秒 105 188 10/1016/180/2018/2012/121.5/66/68/8 查看页面
14 Step 3.5 Flash 12.5 Claude Code 41秒 0 0 1/100/180/200/201/120.5/66/64/8 查看页面
15 GLM 5V Turbo 11.5 Claude Code 59秒 0 0 0/100/180/200/201/120.5/66/64/8 查看页面

评分细则

维度 分值 自动化检测方式
渲染稳定性 10
检查页面是否稳定完成首次渲染,并且交互探针能够正常工作。
  • 可交互 SVG 已渲染4 分存在可见 SVG 且页面进入可评估状态。
  • 目标节点可定位1 分自动化能锁定一个真实节点作为后续交互探针。
  • 节点达到最低可用量1 分可见节点数达到基础可用阈值。
  • 边达到最低可用量1 分可见边数达到基础可用阈值。
  • 无 pageerror2 分运行期无致命页面异常。
  • 无 console error1 分控制台未出现错误级日志。
图数据完整度 18
评估节点数量、边数量以及图区域是否足够完整。
  • 节点数量接近 1008 分对 100 个随机数据点的还原是否准确。
  • 边数量充分4 分图结构是否具备足够的连边密度。
  • 图探针可用2 分自动化可定位中心节点并用于交互探测。
  • 图区域高度充足2 分图表占据了足够的垂直空间。
  • 图区域宽度充足2 分图表占据了足够的水平空间。
Tooltip 交互 20
检查悬停反馈是否存在、信息是否丰富、字段是否足够完整。
  • 悬停后 Tooltip 可见5 分悬停真实节点后出现 Tooltip。
  • Tooltip 可重复触发3 分多次独立探测时 Tooltip 能稳定出现,而不是只偶发成功。
  • Tooltip 文本长度4 分Tooltip 提供了足够的信息量,而不是只显示一个短标签。
  • Tooltip 字段丰富度3 分Tooltip 中包含多行、多块或多字段信息。
  • Tooltip 信息结构3 分Tooltip 不是单一值,而是能读出多项语义信息。
  • Tooltip 探针一致性2 分页面中存在稳定的 Tooltip 容器或明确唯一的候选。
邻接高亮 20
检查点击后是否能区分目标节点、相邻节点与非相邻节点。
  • 目标节点反馈4 分被点击节点自身出现明显状态变化。
  • 节点层区分4 分节点样式在点击后出现充分变化。
  • 边层区分4 分连边样式在点击后出现足够变化。
  • 非邻接节点弱化4 分非相邻节点被显著弱化或降低透明度。
  • 高亮语义标记2 分存在 highlighted/selected/active 等可识别语义类。
  • 高亮响应可重复2 分多次独立点击探测时,高亮响应能稳定复现。
缩放能力 12
检查滚轮缩放是否生效,以及缩放变化是否足够明显。
  • 检测到缩放响应5 分对图区域滚轮操作后容器状态发生变化。
  • 缩放幅度4 分缩放比例的变化足够明显。
  • 缩放变换被记录2 分transform / viewBox 等状态明显变化。
  • 缩放比例可读1 分缩放前后比例为可解析的有效数字。
信息架构 6
检查页面是否提供标题、说明、辅助信息与基础可访问性。
  • 标题层级1 分存在明确标题或标题层级。
  • 说明文案2 分提供足够的说明、帮助或上下文文案。
  • 辅助信息块1 分提供统计、面板、摘要等辅助信息块。
  • 控制与摘要入口0.5 分存在按钮、链接或摘要式操作入口。
  • 移动端 viewport 元信息0.5 分声明了 viewport,便于移动端正确缩放。
  • 图表可访问性标识1 分为 SVG 或图表区域提供 ARIA 语义。
暗色主题 6
检查背景是否足够深、正文是否足够亮、整体对比是否达标。
  • 背景亮度3 分截图采样的平均背景亮度足够低。
  • 正文亮度2 分正文颜色足够亮,能够形成暗色界面阅读对比。
  • 整体明暗对比1 分背景与文本之间保持足够的亮度差。
移动端适配 8
在 390px 宽视口下检查溢出、图高度、节点保留率和基础元信息。
  • 无明显横向溢出3 分移动端滚动宽度与视口宽度接近。
  • 图区域高度2 分移动端仍保留足够的图表高度。
  • 节点保留率2 分移动端仍能看到足够数量的节点。
  • 移动端元信息1 分页面声明了 viewport,利于移动端布局。