我用MiniMax M3手搓了一款爆火的游戏,效果有点吓人
MiniMax 最近有点忙。5 月 29 号它跟中信证券签了协议正式启动 A 股上市辅导。今年 1 月MiniMax 才刚在港交所挂牌。从成立到上市它只用了大约四年是全球从成立到 IPO 历时最短的 AI 公司。结果港股这边落地还不到半年MiniMax 马上又把 A 股排上了日程。6 月 1 号M3 上线。一家正在冲刺双上市的公司挑这个节骨眼甩出新旗舰多少是想让市场看见点东西的。那它到底有没有这个底气我直接上手测了一遍。一、复刻苏丹的游戏3小时听说 M3 做长链路任务的稳定性很强我斗胆复刻了一下苏丹的游戏。这是去年一款现象级的 2d 卡牌游戏由于题材新颖当时火得一塌糊涂。玩家扮演苏丹身边的近臣被迫卷进一场残忍的命运游戏中。先上我 3 小时跑的成品demo1怎么样是不是已经很有那味了用 AI 做游戏难就难在它不是写一段能跑通的代码就行而是要搭建一整套系统。不仅时间长而且任务复杂。但凡稳定性差一点跑一半就断掉是常事。提示词帮我做一个可以在浏览器里玩的 2D 叙事卡牌游戏 demo目标是 10 分钟左右的可玩流程。题材参考苏丹的游戏的经典框架玩家扮演侍奉一位残暴统治者的近臣每一轮必须在限定回合内调用手里的人物牌和资源牌去完成苏丹的任务完不成就会触发惩罚。氛围阴郁、华丽、带宿命感画风走暗金加深色的中世纪宫廷调性。请先做核心策划方案。我的做法是先让 M3 生成了10分钟 demo 的核心玩法策划方案和剧本文本确定 demo 里要展现什么。然后依照这个反推需要的美术资产让 M3 调用工具依次生成。如果是做普通的游戏M3 给的这套美术资产完全够用。但我要的是复刻苏丹的游戏的画风所以最后还是用 Image 2.0 辅助生成了一下。丢入资产后就可以按照策划方案开始跑了。我个人体验下来M3 比较方便的有两点第一它根据任务自主调用了两个 Agent 一个负责跑代码另一个负责作检验。每更新完一个版本无论改变的地方是大还是小都会有自主检验环节并给到报告。第二每跑出一版都会给你 4 张截图便于你调整页面布局。不用每次都下载 html 文件进去查看细节。更让我感叹的是它的稳定性三个小时几十次迭代跑下来一次没崩断根本就不给你抽打它的机会。除了以上这些M3 还给我了一个惊喜。这是 M3 跑的 demo 的主界面这是其他模型用同样的美术资产跑的 demo 的主界面这一 Part 我没有用到复杂的提示词全靠它自己统筹生成不禁感慨有点太强了....大家觉得跑得怎么样我反正是跑爽了。二、给马斯克和奥特曼做了网页15分钟由于前面这个长程任务跑了太久我决定做点轻松的。我让它把马斯克告 OpenAI 那场官司梳理成一个网页。直接作效果展示不得不说M3 的前端审美真的很不错。15分钟成品网页就做好了。我一开始嫌它第一版没有人像追加了一句让它再生成几张马斯克和奥特曼的同框图顺便把数据看板和时间轴也做扎实点。然后 M3 就自己去画图了。一口气出了 4 张马斯克和奥特曼的同框图封面的双人肖像也是它生成的生成好就自己嵌入了网页里。这才是多模态该有的样子。丢一句话把查资料、写代码、画图、排版一条龙全干了根本不用我在几个工具之间来回折腾。网页做完了它还自己验收了一下用 Playwright 跑了遍校验自己截图看渲染对不对确认没有报错、十个板块全都正常显示才将文件交付给我。其实各家模型的前端能力都不弱了但是能力强是一回事跑任务靠不靠谱是另一回事。有些模型上线时吹得神乎其神结果用一会儿就降智。跑不了多久就开始偷懒了。这个 Case 测下来 M3 是真的省心至少没让我守在屏幕前当监工。三、卫星地图 30分钟最后我让它做一张北京 AI 公司的卫星地图。它的难点在于几百多家公司得一个个落到真实坐标上还得在缩放时不打架。提示词给我做一个北京市AI公司的行业导览地图要求可以互动请自主设计自主抓取地点信息。开工前 M3 没急着写代码先自主加载了相关的 skill然后调了一份北京的 GeoJSON 地理数据打底用 ECharts 搭出第一版。不过M3 自己嫌这张图不够真实主动把底图换成了真正的卫星图层。这一换就出大问题了公司标记一个都显示不出来。我把那张光秃秃的图甩给它。M3 没狡辩直接滑跪认错说自己之前被 headless 浏览器的截图骗了。认完错它马上开始查这个 bug。没有随便瞎改一通而是先加日志把中间算出来的坐标打出来看问题一下就暴露了。原来那份坐标数据是经度在前、纬度在后而 M3 基于公式把顺序读反了。改过来之后标记全部归位。bug 修完M3 还自己加了一条能从九十年代滚到 2026 的时间轴外加缩小时自动聚类的视图。成品在此demo2我觉得当作 demo 拿出去效果已经很不错了。但最大的问题就是数据精度太粗糙离真能用还差很多。里面不少坐标都是估算的。想要解决这件事只有真去高德抓 POI 或者用企查查 API 作批量解析。四、能力提升跑完前面的 Case是时候看看硬指标了。先看官方的成绩单。M3 是国内第一个把编程智能体、百万上下文、原生多模态这三样前沿能力凑齐的模型而且是这个梯队里唯一开源的。编程能力上官方称它在 SWE-Bench Pro 上超过了 GPT-5.5 和 Gemini 3.1 Pro接近 Opus 4.7。视觉生成能力SVG-Bench 上反超 Opus 4.7多模态能力OmniDocBench 上压过 Gemini 3.1 Pro智能体能力Claw-Eval 上拿最高分。不过我更在意的是另一个官方放出来的细节。为了测 M3 能不能扛住长任务官方让 M3 在英伟达的高端 GPU 上手写并优化一个 FP8 矩阵乘法的底层算子。在这个长达 24 小时的 CUDA 优化任务里大多数模型撞墙三十次就主动退出了只有 M3 和 Opus 4.7 还在硬扛M3 的最优解一直到第 145 次提交才出现。如果这个稳定性是真的那比任何一个跑分都更打动我。我在实测过程中觉得 M3 的 3D 建模能力和代码能力有明显提升。这是我让它做的赛博朋克风售货机它不仅生成了一套 SVG 选择界面售货机的部分外观能在页面上改做出来的质感也确实在线玻璃的透明度、PBR 材质的金属反光、屏幕的自发光都兼顾到了。demo3然后我测试了一道 Nuxt 3 升到 Nuxt 4 的代迁移题。这题的考点在目录结构Nuxt 4 要求把 pages、components、中间件这些归进新的 app 目录而 server 目录留在外面不动。要知道这种题最容易让模型手痒借升级之名把项目重写一遍美其名曰升级实则推倒重来。M3 很克制答得很干净。没有推翻源码逻辑但凡是真正要迁移的地方它都精准修改了让我很有好感。五、絮叨测评下来我对 M3 的体感是好用、便宜、开源。开源就不用说了大家都清楚。关键是它确实好用能自己把活儿从头跑到尾而且不偷懒。便宜是它另一个让我留下来的理由。MiniMAX 常态的 Token Plan 有三档Plus 49 块一个月给约 6 亿 tokenMax 119 块给约 18 亿Ultra 469 块给约 55 亿。不过MiniMax 平时是有周限额的这事之前还闹过一些争议。好在MiniMAX 也及时给了老用户补偿措施。之前那批补偿积分的有效期也从一个月延到了一年再加上 M3 API 上线即开的 7 天限时 5 折。如果你在这一周里上手等于可以用打折的价格去用它最强的模型。想试的话这个时间点正好。体验链接https://agent.minimaxi.com/