DeepSeek v4、GPT 5.5，8 大模型编程实测

DeepSeek v4 与 GPT-5.5 发布后，本文对包括两者在内的 8 款主流模型进行前端代码生成实测。通过统一提示词开发一款适配多端的 3D 飞行避障游戏，结果显示 DeepSeek v4 与 GPT-5.5 均能一次成功运行且细节出色，但前者缺失触控支持，后者生成耗时较长；其余模型在场景设计、交互逻辑或稳定性上各有优劣。测试旨在直观对比各模型实际编码表现，开发者可访问体验网站查看具体效果。

发布于2026年4月30日 11:44

编辑零重力瓦力

评论0 条

阅读129

#AI 模型 #DeepSeek #ChatGPT

这两天，DeepSeek v4 与 GPT-5.5 接连发布。作为当前关注度最高的开源和商业模型，两个新版本都对代码生成能力进行了重点优化。

为了直观观察不同模型前端编码能力的表现，我让它们和目前关注度较高、编码能力较强的 6 个模型进行了一次横向实测对比，希望为大家提供一些参考。

本次测试，8 个模型均开启最高思考模式，并使用完全相同的提示词：

“开发一个单页 HTML 3D 飞行避障游戏，需同时适配电脑端和手机端。场景为无限生成的霓虹沙漠地平线。玩家控制一架尽量精致的飞机，通过左右方向键操作；手机端支持直接拖动飞机，以躲避障碍物并收集发光晶体。飞机加速时需具备基于 Three.js 的粒子拖尾效果。整体场景需明亮、细节逼真，游戏内文字使用中文。”

测试结果
1. DeepSeek v4 Pro
代码一次生成并成功运行，未发现明显 Bug。飞机建模较为精致，材质具有一定光泽感，整体操作较为流畅。不足之处在于游戏不支持鼠标与屏幕触控，仅支持键盘操作。同时，键盘方向与飞机实际移动方向相反。

2. GPT-5.5
代码一次生成并成功运行，未发现明显 Bug。飞机与场景设计完成度高，视觉效果较为出色。操作体验流畅，同时支持键盘、鼠标和屏幕触控。但生成耗时较长，完整游戏生成时间接近 20 分钟。

3. Claude Opus 4.7
代码一次生成并成功运行，未发现明显 Bug。整体操作较为流畅，但飞机与场景设计相对简单。此外，游戏难度偏高，实际可玩性较差。

4. Kimi K2.6
代码一次生成并成功运行，未发现明显 Bug。飞机与场景设计相对粗糙。键盘响应过于灵敏，整体可控性和可玩性较差。

5. Mimo V2.5 Pro
代码一次生成并成功运行，未发现明显 Bug。飞机与场景设计相对简洁，操作体验较为流畅。比较有趣的事，飞机移动并非简单平移，而是加入了翻转效果，增强了游戏的动态表现和趣味性。同时，代码生成速度较快。

6. GLM 5.1
代码生成过程中出现两轮 Bug，经修正后可运行。飞机设计较为精致，操作体验也较流畅。但场景中没有障碍物，不具可玩性。

7. MiniMax 2.7
代码一次生成并成功运行，未发现明显 Bug。飞机与场景设计相对粗糙，操作体验尚可。
但场景中出现了一个异常障碍物，会随着飞机飞行持续后退。

8. Gemini 3.1 Pro
代码生成过程中出现三轮 Bug，经修正后可运行。场景设计的较为简单，飞机主体不够清晰。同时，键盘控制过于灵敏，操控难度较高，可玩性较差。

特别说明
本次测试，每个模型均仅进行了一次生成。由于大模型代码生成结果存在随机性，单次测试无法完全代表模型的真实综合能力，结果仅供参考。

我为本次测试搭建了一个专门的体验网站：modeltest.caprompt.com。大家可以直接进入网站，亲自体验不同模型生成的游戏效果。

大家还有哪些希望测试的模型或项目，欢迎留言评论。

DeepSeek v4、GPT 5.5，8 大模型编程实测

相关文章

GPT-5.6 Sol Ultra 1 小时证明 60 年未解的图论猜想

一个人用 Claude 把 53 万行 Zig 重写成 Rust

GPT-5.6 正式发布：三档定价、7.8% ARC-AGI-3、Sol 自主训练 Luna，943 条评论里的真实声音

评论区