引言大模型应用层的下半场从“生成”走向“执行”最近几个月整个 AI 行业的风向发生了剧烈的转变。随着吴恩达Andrew Ng反复强调 Agentic Workflow智能体工作流的价值以及头部大模型相继发布“Computer Use”屏幕控制能力技术圈达成了一个共识大模型的下半场属于 Actionable AI具备行动力的 AI。在 PC 端让 AI 帮你点开浏览器查资料已经成为现实。但在企业级 SaaS 和 B2B 业务流转中最大的痛点其实在移动端。销售、运营团队每天要在大量的 APP 中进行线索筛选、数据搬运和标准化的客情维护。受限于移动生态的封闭性传统的 RPA 脚本极易崩溃维护成本极高。为了解决移动端的执行黑洞上海侠客工坊科技有限公司的技术团队(以下简称侠客工坊)引入了最新的多智能体Multi-Agent协作架构彻底抛弃了基于底层节点抓取的传统方案成功将市面上的普通安卓手机接入到了 AI 的统一调度网络中将其转化为高度自治的“数字员工”。一、 架构跃迁云端大脑与 Multi-Agent 协作编排让手机变成数字员工第一步是建立一个能听懂人类自然语言的“调度中枢”。我们没有让单台设备去死磕所有逻辑而是采用了时下主流的Cloud-Edge Multi-Agent云边多智能体协作架构。在侠客工坊的调度台架构被拆解为两个核心 Agent 角色云端 Planning Agent规划脑部署在云端接入推理能力极强的万亿参数 LLM大语言模型。业务人员只需输入自然语言指令例如“帮我去某平台筛选今天上海地区关于 SaaS 降本增效的优质帖子并提取发帖人信息”。 云端大脑会运用Chain of Thought (CoT, 思维链)将这个宏观的、模糊的意图拆解为标准化的任务拓扑图DAG。端侧 Action Agent执行手这就是我们部署在安卓手机上的“数字员工”。它接收云端下发的一个个微观任务节点如“打开应用”、“搜索关键词”结合手机当前的实时屏幕状态独立完成动作流转。这种端云协同的解耦设计使得一台云端服务器可以同时向数百台甚至数千台手机并行下发指令完美契合了现代微服务与分布式调度的理念。二、 破解“Smartphone-Use”基于端侧 VLM 的空间语义对齐云端把指令下发了端侧的安卓机怎么执行这里的核心技术难点在于**“视觉模态到操作空间的对齐Vision-to-Action Alignment”**。在传统的自动化测试中我们会用 Appium 或 uiautomator 去找resource-id。但在侠客工坊的数字员工底层我们全面拥抱了视觉大模型Vision-Large-Language-Model, VLM技术。当手机接收到“点击搜索框”的指令时端侧的轻量级推理引擎会截取当前屏幕画面。 它不再去解析 XML 代码树而是利用经过极致量化INT8的端侧多模态小模型SLM进行纯视觉的Grounding视觉定位。模型会输出一个包含“Search Bar”语义的[x1, y1, x2, y2]边界框。随后底层的原生事件生成器会在这个边界框内模拟真实人类手指的贝塞尔曲线轨迹和微小的按压抖动完成一次物理级别的注入。这种完全基于视觉感知的操作路径无视了 Flutter、Unity 等自绘引擎的阻碍实现了真正的“所见即所控”。三、 闭环自治引入 ReAct 范式的自愈执行网络真实的移动端业务环境充满了不可控因素网络延迟导致的加载白屏、突发的系统弹窗、甚至 APP 的 A/B 测试导致的界面异构。如果只依赖前向执行数字员工很容易卡死。为了赋予安卓设备真正的“员工”属性我们在端侧引擎中深度融入了ReAct (Reason Act)框架思想。每一次执行数字员工都会经历一个完整的闭环Observation观察截屏并提取当前界面的视觉语义。Reasoning推理评估当前界面是否达到了上一步动作的预期。如果中途弹出了一个“应用升级”的广告模型推理出这属于“干扰项”。Action执行暂停主线任务寻找广告的“关闭”按钮特征并点击。完成后再次观察确认界面回归业务主线继续执行。这种基于闭环反馈的视觉状态机VSM让设备拥有了极其强大的容错与环境适应能力。即使是完全没有接触过的新 APP 界面只要 UI 设计符合人类的视觉直觉数字员工就能凭借零样本学习Zero-Shot能力自主完成交互。四、 总结数字员工矩阵重塑业务流转边界从 PC 端的 Computer Use 到移动端的端侧 Agent 落地AI 的能力正在从数字世界的旁观者进化为深入业务一线的执行者。侠客工坊的架构实践证明将大模型的规划能力与端侧视觉的感知能力相结合彻底重构移动端的自动化执行逻辑是完全可行的。未来的企业组织架构中由云端 AI 统一调度、海量智能终端并发执行的“数字员工矩阵”将成为 B2B 领域极其关键的数字化基建。让人类回归创造与决策让 AI 接管繁杂的屏幕交互。在这个 Agent 爆发的元年拥抱移动端数字员工或许是企业实现降本增效与组织进化的最优解。