模型编程性能测试汇总

测试时间:2026年2月13日

GitHub: https://github.com/versun/coding-model-comparison

测试提示词
不要使用任何的mcp和skill,请编写一个单文件的 HTML/JS 应用(不使用构建工具,使用 CDN 引入 React 和 D3.js)。
功能:

生成 100 个随机数据点。

绘制一个力导向图(Force-directed Graph)。

实现交互:鼠标悬停节点显示 Tooltip,点击节点高亮其相邻节点,支持滚轮缩放画布。

UI 风格要求现代、极简、暗色模式。
参与模型数
5
最高完成度模型
GLM 5
最快完成模型
Opus 4.6
完成时间:53秒

测试明细

模型 运行环境 完成时间 100 个随机数据点 悬停节点显示信息 点击高亮相邻节点 滚轮缩放画布 完善的页面信息 完成度 成果
GLM 5 Claude Code 2分 14秒 通过 通过 通过 通过 通过 5 查看
Opus 4.6 Claude Code 53秒 通过 通过 通过 通过 未通过 4 查看
GPT 5.3 Codex Codex CLI 1分 40秒 通过 通过 通过 通过 未通过 4 查看
Kimi 2.5 Claude Code 1分 53秒 通过 通过 未通过 通过 通过 4 查看
Minimax 2.5 Claude Code 2分 38秒 未通过 未通过 通过 通过 未通过 2 查看

点击“成果”可进入每个模型的独立页面。