Codex Computer Use 教 AI 看屏幕，HAR 流教 AI 发指令——谁才是真正的打工替身？

张

张建站

2026/4/20 5:23:54

10分钟阅读

Codex Computer Use 教 AI 看屏幕，HAR 流教 AI 发指令——谁才是真正的打工替身？

不用看API文档不用申请密钥。不需要AI“看屏幕”碰运气——录一段HARAI精确搞定一切。写完往 Openclaw 一丢你负责吃小龙虾它负责把消息发到群里。2026年4月AI界的地震级更新接踵而至。OpenAI 刚刚发布了Codex的史诗级更新赋予了AI全新的“Computer Use”能力它拥有了自己的虚拟鼠标能在Mac后台“看、点、输”替你操作几乎任何桌面应用。全世界的开发者都在为此狂欢“AI终于能自己干活了”但在聚光灯之外真正的生产力爆破却藏在一个你可能每天都在用、却从未想过能用来造机器人的功能里——浏览器的HAR录制。先别急着说“就这”。如果你认为让AI“看屏幕”是唯一的自动化捷径那你可能会白白浪费时间、金钱和算力。今天这篇文章就是要为你扒开“HAR录制自动化”的神秘面纱并把它和顶流的“OpenAI Computer Use”放在天平上称一称。看完你就知道为什么高手都在悄悄用前者而新手还在为后者的“幻觉误触”买单。暴击开场为什么说“让AI看屏幕”是杀鸡用牛刀我们先来直视Codex Computer Use的真相OpenAI 官宣Codex 现在可以通过“看、点、输”的方式像真人一样操作你的Mac电脑和应用。它能自己移动光标能处理“没有API的软件”甚至能在后台并行工作。听起来是不是无敌了这简直就是钢铁侠的贾维斯冷静。我们来做一道残忍的算术题如果你只是想“每天在GitHub上自动创建几个Issue”或者“从公司后台导出昨天的报表”让AI用视觉Computer Use来做这件事意味着巨额Token费每一秒AI都在疯狂截屏、识别、分析坐标。这烧的全是API费。以GPT-5.4 Computer Use API为例每100万输出token要30美元一个稍微复杂的网页操作跑下来几毛钱几块钱就没了——而你原本只是想省30秒时间。极低的效率AI必须像老年人上网一样“哦我看到了登录框……哦我现在移动鼠标去点它……哦我打一个字……”。执行一个5秒钟的操作AI可能需要反复截图验证30秒。致命的幻觉今天它认出“提交”按钮了明天网站UI改了一个像素它可能就“瞎了”对着空白处疯狂点击。不可否认Computer Use是操作系统级的全能王——它生来就是为了搞定那些极度非标、完全无法预测、零API的长尾死局比如修复一个Xcode里的游戏Bug。但对于你每天重复千遍的“标准机械动作”呢用Computer Use就是“用巡航导弹打蚊子”——猛是真猛贵也是真贵而且极大概率会误炸。降维打击HAR录制的“精确制导”逻辑HAR (HTTP Archive)是什么它不是录屏它是浏览器“数据底层的监控录像”。当你在浏览器里登录、点按钮、填表单时背后其实是你的电脑向服务器发送了一堆加密的“信件”网络请求。录制HAR就是把这些“信件”的格式、内容、收件人地址一个字母不差地拷贝下来。这就是HAR录制自动化的降维打击逻辑不研究视觉不依赖API文档——直接复刻你自己的“数据对话”。过程极其暴力夺舍登录态F12 → Application → Cookies复制一串字符。OK现在你的AI脚本拥有了你的“通行证”。录制核心请求在Network里点一下录制做一个你想自动化的操作比如“新建任务”然后停止。AI 逆向工程把HAR丢给AI对它说“嘿把刚才那个‘创建任务的API’给我找出来写成Python脚本。”永动开启AI分析出了URL、Headers、Payload结构吐出一份精确到毫秒的执行脚本。核心差异在这一刻体现得淋漓尽致维度 Computer Use (视觉流) HAR 录制自动化 (数据流)核心逻辑看图识字模拟人类鼠标键盘直接发包模拟人类网络请求对UI变化的容忍度零容忍(改个样式就瞎)绝对免疫(只要后端API没变)执行速度30秒起步 (加载渲染、坐标定位)毫秒级(直连服务器)Token / 算力消耗极高(每一帧都在烧钱)近乎为零(一次性分析永久复刻)编程门槛无门槛 (理论上用嘴就行)零门槛(你只需录HARAI写代码)最适合场景一次性、跨软件、无API的罕见任务高频、重复、固定的业务流程极限实战15分钟 VS 30秒用HAR再造一个飞书任务助手光说不练假把式。我们把这两种技术拉到真实的“战场”上遛一遛。场景假设你是一个项目经理每天你都要做同一件事把“用户反馈群”里的聊天精华手动敲到飞书多维表格里作为Bug追踪。这件事每天花掉你30分钟烦不胜烦且毫无价值。️ 方案 A使用 Codex Computer Use操作你对Codex说“去飞书群里把今天上午10点到12点标记为重要的消息提取关键Bug填到‘研发排期表’里。”AI执行过程AI截屏识别飞书群窗口。尝试通过图像找到“重要消息”标签如果群聊背景换了颜色或字体变了可能第一步就卡住。逐条滚动截屏OCR识别文字。切换到多维表格通过视觉找“添加一行”按钮。输入文字极其缓慢。结果耗时约 3-5 分钟如果中途没点错的话。费用约 $0.5 - $1.0 / 次 (取决于截屏张数)。风险一旦飞书改版UI这条自动化链直接报废。️ 方案 B使用 HAR 录制 Skill 脚本操作Step 1 (5分钟)打开飞书网页版 → F12 → 录制 → 点开一条消息 → 在多维表格里加一行。导出 task.har。Step 2 (10分钟)把 HAR 丢给 AI“分析这个文件找到‘发送群消息’和‘添加表格行’的API生成一个 Skill。”Step 3 (0分钟)AI 生成的 Python 脚本上线运行。结果耗时第一次15分钟搭建之后每天自动执行仅需 3秒。费用$0.000脚本在本地运行不发截图。风险即便飞书UI改得面目全非只要后端数据接口/open-apis/bitable/...没变脚本100%照常工作。哪个才是面向生产力的解法答案不言而喻。终极形态当 Skill 遇见 Openclaw——你的嘴就是鼠标上面的技术你可能觉得“嗯很牛但我还是得打开终端敲命令运行脚本”格局小了。HAR录制生成的 Skill真正的最终归宿不是你的本地文件夹而是一个叫Openclaw的地方。Openclaw 是什么你可以把它理解为AI 的“手”和“脚”——一个专门用来运行这些SKILL.md和 Python 脚本的智能体环境。整个过程会变成这样一段魔幻现实主义体验你花 15 分钟录好 HARAI 帮你生成了一个名为“飞书群发助手”的 Skill 文件夹。你把这个文件夹直接拖进 Openclaw 的聊天框或者它并关联这个技能。你关掉所有网页躺在椅子上拿起手机对着 Openclaw 说了一句人话“Hey Openclaw帮我在【摸鱼小分队】群里发一条消息就说今晚小龙虾局老地方我请了AI代班写代码必到。”⚡️ 下一秒发生了什么Codex Computer Use 做不到的事Codex Computer Use 的视角它睁开眼睛开始移动鼠标寻找飞书图标双击等待加载寻找搜索框输入“摸鱼小分队”点击进入寻找输入框打字寻找发送按钮点击发送。耗时 45 秒费用 $0.3且有 15% 概率点进了隔壁的“工作汇报群”酿成惨剧。Openclaw HAR Skill 的视角它读取了你的技能说明书发现触发词是“发消息”和“小龙虾”。Openclaw 内部只干了一件事向飞书的服务器发送了一个极简的数据包。数据包里写着接收群ID是“摸鱼小分队”内容就是那段小龙虾邀约的文字。耗时 0.8 秒。费用 $0.000。成功率 100%。为什么只有 HAR 流能让你“吃着小龙虾就把活干了”因为Openclaw Skill的组合把 AI 的执行逻辑从“模拟人类观察”降维到了“机器直接执行”。没有界面渲染等待不用等网页上那个菊花转完。没有坐标计算不用算聊天框距离屏幕左上角是 (1345, 678)。没有误触焦虑你不用担心 Openclaw 会不小心点开你昨晚看的淘宝链接。这就是为什么我说Codex Computer Use 是让 AI 替你“看电脑”你依然得守在旁边看着它别犯错。Openclaw HAR Skill 是让 AI 替你“发指令”你完全可以关机去吃小龙虾事情照样办妥。完整对比表三足鼎立谁才是真·效率之王维度️ Codex Computer Use HAR 录制 HAR Openclaw (完全体)操作入口对 AI 描述屏幕内容对着终端敲代码对着手机说人话执行速度分钟级 (受UI加载限制)毫秒级 (纯后端)即时响应 (边聊边干)执行体验像在看一位老爷爷用电脑像在看黑客跑脚本像在吩咐一位隐形的贴身秘书安全性有概率点错、误删只发指定请求只执行预设的意图场景代入你喊 AI 去发小龙虾邀约你写了脚本定时发邀约你随口一说Openclaw 就把小龙虾局组好了费用 (几乎为0)️ 从零到一实操路线图保姆级对比版好了如果你已经被我说服这里有一份“HAR流”独家的极简生存指南。第一关获得AI的“肉身”——处理认证Computer Use 做法眼睁睁看着AI笨拙地输入账号密码或尝试保存全屏Cookies。HAR流做法直接把Cookie字符串复制粘贴到脚本的环境变量里。这串字符就是你浏览器的临时身份证AI拿着它就能畅通无阻。第二关传授“武功秘籍”——提取关键操作Computer Use 做法费尽心机写 Prompt“你要先看左边找到蓝色的按钮……”HAR流做法直接把 HAR 扔给 AI。你可以这样对 AI 说“在这个HAR文件中找出向https://api.xxx.com/task/create发送请求的那一条记录。把里面的数据格式提取出来把标题和描述替换成参数生成一段可运行的脚本。”第三关组装“战斗指令”——编写 Skill.md无论哪种技术AI都需要明确的指令。Computer Use 说明书长达10页的屏幕坐标描述和异常重试分支。HAR流说明书只需要用大白话告诉AI工作流先检查本地的 Cookie 文件有没有过期。执行创建任务的脚本标题用刚才你说的话。如果返回成功就报喜如果返回失败就提醒你重新登录网页。第四关终极部署——丢进 Openclaw将写好的技能说明和脚本放在一个文件夹。拖入 Openclaw。从此你只需要说话。写在最后AI 时代的打工哲学别再盯着那炫酷的、会自己动鼠标的“桌面幽灵”羡慕不已了。真正的生产力解放从来不是看 AI 表演怎么费力地点点点而是让 AI 在你看不见的地方把事情办得妥妥的。今晚就去吃小龙虾吧。打开浏览器录下那个你最讨厌的“发日报”操作丢给 AI 生成一个 Skill然后塞进 Openclaw。明天开始你负责思考它负责发送。这才是对重复劳动最优雅的复仇。如果这篇文章对你有帮助欢迎分享给同样被重复操作困扰的朋友。也欢迎在评论区聊聊你最想自动化哪个网站的操作或者是——你打算让 Openclaw 帮你往哪个群里发小龙虾邀约

告别复杂配置！Qwen-Image-2512-ComfyUI部署全攻略，小白友好

告别复杂配置！Qwen-Image-2512-ComfyUI部署全攻略，小白友好 1. 镜像简介与核心价值 1.1 什么是Qwen-Image-2512-ComfyUI？ Qwen-Image-2512-ComfyUI是阿里开源的最新图像生成模型与ComfyUI可视化界面的预集成解决方案。这个镜像将以下三大核…...

2026/4/20 5:12:40 阅读更多 →