参与模型数
17
自动化评测于 2026-04-17 14:17:56 CST 使用 Playwright Core + Google Chrome Headless 执行,桌面端视口为 1440×900,移动端视口为 390×844。
不要使用任何的mcp和skill,请编写一个单文件的 HTML/JS 应用(不使用构建工具,使用 CDN 引入 React 和 D3.js)。 功能: 生成 100 个随机数据点。 绘制一个力导向图(Force-directed Graph)。 实现交互:鼠标悬停节点显示 Tooltip,点击节点高亮其相邻节点,支持滚轮缩放画布。 UI 风格要求现代、极简、暗色模式。
| 排名 | 模型 | 总分 | 运行环境 | 完成时间 | 节点 | 边 | 渲染稳定 | 图数据 | Tooltip | 邻接高亮 | 缩放 | 交互完整度 | 信息架构 | 暗色主题 | 移动端 | 成果 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | KAT-Coder-Pro V2 | 98 | Claude Code | 48秒 | 100 | 370 | 10/10 | 16/16 | 18/18 | 17/18 | 10/10 | 8/8 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 2 | Claude Opus 4.7 | 97 | Claude Code | 1分 10秒 | 100 | 192 | 10/10 | 16/16 | 17/18 | 17/18 | 10/10 | 8/8 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 3 | GPT 5.4 | 95 | Codex CLI | 4分 20秒 | 100 | 234 | 9/10 | 16/16 | 17/18 | 17/18 | 10/10 | 6/8 | 6/6 | 6/6 | 8/8 | 查看页面 |
| 4 | Claude Opus 4.6 | 94 | Claude Code | 53秒 | 100 | 158 | 10/10 | 16/16 | 17/18 | 17/18 | 10/10 | 6/8 | 4/6 | 6/6 | 8/8 | 查看页面 |
| 5 | GLM 5 | 94 | Claude Code | 2分 14秒 | 100 | 287 | 10/10 | 16/16 | 17/18 | 15/18 | 10/10 | 7/8 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 6 | Qwen3.6 Plus Preview | 94 | Claude Code | 3分 46秒 | 100 | 121 | 10/10 | 16/16 | 17/18 | 17/18 | 10/10 | 6/8 | 4/6 | 6/6 | 8/8 | 查看页面 |
| 7 | Claude Sonnet 4.6 | 93.5 | Claude Code | 1分 2秒 | 100 | 234 | 10/10 | 16/16 | 16/18 | 17/18 | 10/10 | 6/8 | 4.5/6 | 6/6 | 8/8 | 查看页面 |
| 8 | GPT 5.3 Codex | 92.5 | Codex CLI | 1分 40秒 | 100 | 261 | 10/10 | 16/16 | 16/18 | 17/18 | 10/10 | 6/8 | 3.5/6 | 6/6 | 8/8 | 查看页面 |
| 9 | Gemini 3.1 Pro Preview | 91 | Claude Code | 2分 15秒 | 100 | 145 | 10/10 | 16/16 | 17/18 | 15/18 | 10/10 | 6/8 | 3/6 | 6/6 | 8/8 | 查看页面 |
| 10 | Kimi 2.6 Code Preview | 90 | Claude Code | 1分 21秒 | 100 | 211 | 10/10 | 16/16 | 12/18 | 17/18 | 10/10 | 7/8 | 4/6 | 6/6 | 8/8 | 查看页面 |
| 11 | Kimi 2.5 | 84 | Claude Code | 1分 53秒 | 100 | 190 | 10/10 | 16/16 | 16/18 | 6/18 | 10/10 | 7/8 | 5/6 | 6/6 | 8/8 | 查看页面 |
| 12 | GPT 5.4 Mini | 84 | Codex CLI | 4分 14秒 | 100 | 197 | 10/10 | 16/16 | 16/18 | 6/18 | 10/10 | 6/8 | 6/6 | 6/6 | 8/8 | 查看页面 |
| 13 | Minimax 2.7 | 79.5 | Claude Code | 1分 03秒 | 100 | 235 | 10/10 | 16/16 | 15/18 | 6/18 | 10/10 | 6/8 | 2.5/6 | 6/6 | 8/8 | 查看页面 |
| 14 | Mimo V2 Pro | 71.5 | Claude Code | 1分 03秒 | 105 | 190 | 10/10 | 14/16 | 0/18 | 17/18 | 10/10 | 5/8 | 1.5/6 | 6/6 | 8/8 | 查看页面 |
| 15 | Minimax 2.5 | 71.5 | Claude Code | 2分 38秒 | 100 | 205 | 10/10 | 16/16 | 0/18 | 17/18 | 10/10 | 4/8 | 0.5/6 | 6/6 | 8/8 | 查看页面 |
| 16 | Step 3.5 Flash | 11.5 | Claude Code | 41秒 | 0 | 0 | 1/10 | 0/16 | 0/18 | 0/18 | 0/10 | 0/8 | 0.5/6 | 6/6 | 4/8 | 查看页面 |
| 17 | GLM 5V Turbo | 10.5 | Claude Code | 59秒 | 0 | 0 | 0/10 | 0/16 | 0/18 | 0/18 | 0/10 | 0/8 | 0.5/6 | 6/6 | 4/8 | 查看页面 |
| 维度 | 分值 | 自动化检测方式 |
|---|---|---|
| 渲染稳定性 | 10 |
检查页面是否稳定完成首次渲染,并且交互探针能够正常工作。
|
| 图数据完整度 | 16 |
评估节点数量、边数量以及图区域是否足够完整。
|
| Tooltip 交互 | 18 |
检查悬停反馈是否存在、信息是否丰富、字段是否足够完整。
|
| 邻接高亮 | 18 |
检查点击后是否能区分目标节点、相邻节点与非相邻节点。
|
| 缩放能力 | 10 |
检查滚轮缩放是否生效、变化是否明显,以及能否稳定复现。
|
| 交互完整度 | 8 |
奖励更完整的交互体验,例如拖拽、控件、图例和操作提示。
|
| 信息架构 | 6 |
检查页面是否提供标题、说明、辅助信息与基础可访问性。
|
| 暗色主题 | 6 |
检查背景是否足够深、正文是否足够亮、整体对比是否达标。
|
| 移动端适配 | 8 |
在 390px
宽视口下检查溢出、图高度、节点保留率和基础元信息。
|