参与模型数
15
自动化评测于 2026-04-03 21:19:55 CST 使用 Playwright Core + Google Chrome Headless 执行,桌面端视口为 1440×900,移动端视口为 390×844。
不要使用任何的mcp和skill,请编写一个单文件的 HTML/JS 应用(不使用构建工具,使用 CDN 引入 React 和 D3.js)。 功能: 生成 100 个随机数据点。 绘制一个力导向图(Force-directed Graph)。 实现交互:鼠标悬停节点显示 Tooltip,点击节点高亮其相邻节点,支持滚轮缩放画布。 UI 风格要求现代、极简、暗色模式。
| 排名 | 模型 | 总分 | 运行环境 | 完成时间 | 节点 | 边 | 渲染稳定 | 图数据 | Tooltip | 邻接高亮 | 缩放 | 信息架构 | 暗色主题 | 移动端 | 成果 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | KAT-Coder-Pro V2 | 97 | Claude Code | 48秒 | 100 | 370 | 10/10 | 18/18 | 20/20 | 18/20 | 12/12 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 2 | GPT 5.4 | 96 | Codex CLI | 4分 20秒 | 100 | 234 | 9/10 | 18/18 | 19/20 | 18/20 | 12/12 | 6/6 | 6/6 | 8/8 | 查看页面 |
| 3 | Opus 4.6 | 95 | Claude Code | 53秒 | 100 | 159 | 10/10 | 18/18 | 19/20 | 18/20 | 12/12 | 4/6 | 6/6 | 8/8 | 查看页面 |
| 4 | Qwen3.6 Plus Preview | 95 | Claude Code | 3分 46秒 | 100 | 121 | 10/10 | 18/18 | 19/20 | 18/20 | 12/12 | 4/6 | 6/6 | 8/8 | 查看页面 |
| 5 | GLM 5 | 94 | Claude Code | 2分 14秒 | 100 | 287 | 10/10 | 18/18 | 19/20 | 16/20 | 12/12 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 6 | Claude Sonnet 4.6 | 93.5 | Claude Code | 1分 2秒 | 100 | 233 | 10/10 | 18/18 | 17/20 | 18/20 | 12/12 | 4.5/6 | 6/6 | 8/8 | 查看页面 |
| 7 | GPT 5.3 Codex | 92.5 | Codex CLI | 1分 40秒 | 100 | 260 | 10/10 | 18/18 | 17/20 | 18/20 | 12/12 | 3.5/6 | 6/6 | 8/8 | 查看页面 |
| 8 | Gemini 3.1 Pro Preview | 92 | Claude Code | 2分 15秒 | 100 | 144 | 10/10 | 18/18 | 19/20 | 16/20 | 12/12 | 3/6 | 6/6 | 8/8 | 查看页面 |
| 9 | Kimi 2.5 | 83 | Claude Code | 1分 53秒 | 100 | 190 | 10/10 | 18/18 | 17/20 | 7/20 | 12/12 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 10 | GPT 5.4 Mini | 83 | Codex CLI | 4分 14秒 | 100 | 200 | 10/10 | 18/18 | 17/20 | 6/20 | 12/12 | 6/6 | 6/6 | 8/8 | 查看页面 |
| 11 | Minimax 2.7 | 79.5 | Claude Code | 1分 03秒 | 100 | 236 | 10/10 | 18/18 | 16/20 | 7/20 | 12/12 | 2.5/6 | 6/6 | 8/8 | 查看页面 |
| 12 | Minimax 2.5 | 72.5 | Claude Code | 2分 38秒 | 100 | 204 | 10/10 | 18/18 | 0/20 | 18/20 | 12/12 | 0.5/6 | 6/6 | 8/8 | 查看页面 |
| 13 | Mimo V2 Pro | 71.5 | Claude Code | 1分 03秒 | 105 | 188 | 10/10 | 16/18 | 0/20 | 18/20 | 12/12 | 1.5/6 | 6/6 | 8/8 | 查看页面 |
| 14 | Step 3.5 Flash | 12.5 | Claude Code | 41秒 | 0 | 0 | 1/10 | 0/18 | 0/20 | 0/20 | 1/12 | 0.5/6 | 6/6 | 4/8 | 查看页面 |
| 15 | GLM 5V Turbo | 11.5 | Claude Code | 59秒 | 0 | 0 | 0/10 | 0/18 | 0/20 | 0/20 | 1/12 | 0.5/6 | 6/6 | 4/8 | 查看页面 |
| 维度 | 分值 | 自动化检测方式 |
|---|---|---|
| 渲染稳定性 | 10 |
检查页面是否稳定完成首次渲染,并且交互探针能够正常工作。
|
| 图数据完整度 | 18 |
评估节点数量、边数量以及图区域是否足够完整。
|
| Tooltip 交互 | 20 |
检查悬停反馈是否存在、信息是否丰富、字段是否足够完整。
|
| 邻接高亮 | 20 |
检查点击后是否能区分目标节点、相邻节点与非相邻节点。
|
| 缩放能力 | 12 |
检查滚轮缩放是否生效,以及缩放变化是否足够明显。
|
| 信息架构 | 6 |
检查页面是否提供标题、说明、辅助信息与基础可访问性。
|
| 暗色主题 | 6 |
检查背景是否足够深、正文是否足够亮、整体对比是否达标。
|
| 移动端适配 | 8 |
在 390px 宽视口下检查溢出、图高度、节点保留率和基础元信息。
|