阿里3天3王炸！全模态、精准控图和智能体编程SOTA，但没开源

张

张建站

2026/5/21 13:23:13

10分钟阅读

阿里3天接连发布了3款重磅模型。Qwen3.5-Omni215项 SOTA 自然涌现 Vibe Coding 的原生全模态Wan2.7-Image人更真字更稳色更准的图像生成、编辑模型以及走向现实世界智能体的超强 Qwen3.6-Plus三款模型分别在全模态理解、图像精准生成与智能体编程三个维度提供了完善的解决方案。Qwen3.5-Omni 全模态原生交互Qwen3.5-Omni 实现了底层架构的全面升级。该模型能无缝理解文本、图片、音频以及音视频输入支持生成带有时间戳的精细化音视频字幕。开发团队发现了一项未经专门训练自然涌现的能力被称作视听氛围编码Audio-Visual Vibe Coding。只要把画面逻辑展示给系统用语音提出要求系统就能直接生成 Python 代码或是前端原型创意验证过程变得极为简捷。模型内部延续了思考者与表达者的分工机制。负责理解的思考者接收视觉与音频信号通过特定技术编码位置信息。在处理长达10小时音频或1小时视频时依然能够快速提取核心重点。负责表达的表达者接收多模态输出进行上下文语音生成动态对齐文本和语音单元。用户要求声音大一点或者语气开心一点系统当场就会调整也解决了偶尔漏字和数字念不清的问题。两套机制均升级为混合专家模型MoE听音频、看视频、理解文本的专家各司其职互不干扰保障了文本和视觉能力与单模态模型一样强悍。下文窗口长达256K支持113种语言识别。同时新增了语义打断、音色克隆、语音控制等实时交互功能原生支持网页搜索和复杂函数调用不仅能顺畅聊天更能切实处理复杂任务。在音频及音视频分析、推理、对话和翻译等任务上该模型共取得215项业界最佳水平SOTA成绩。通用音频理解、推理、识别、翻译、对话全面超越 Gemini-3.1 Pro音视频理解能力总体达到 Gemini-3.1 Pro 水平。文本能力与同尺寸 Qwen3.5 模型持平。Wan2.7-Image 告别标准流水线Wan2.7-Image 把图像生成的精细度推向了新的阶段。千篇一律的人工智能标准脸已成历史每个人都能根据具体需求定制专属面孔。在多图参考模式下系统最高支持输入9张参考图确保角色特征在复杂场景中保持一致。一次最高可以生成12张风格统一的分镜图。在细节把控层面系统实现了颜色的精准控制。支持指哪改哪的局部精准编辑。即便需要在画面中生成长达4000个字符的内容排版和字迹依然稳定清晰。下图是道德经前40章生成字画部分截图。全透明通道智能图层分离功能的加入让后续的图像深度处理变得更加轻松顺畅。Qwen3.6-Plus 智能编程新高度Qwen3.6-Plus 将编码智能体Coding Agent的性能提升到了新的层级。在前端页面生成、代码修复和终端自动化等开发场景的基准测试中系统均属开源SOTA。作为国内同尺寸模型中首个实现智能体编程能力全面领先的版本代码任务端到端成功率有了明显提升代码生成与工具调用也更加可靠。该模型默认提供高达100万的上下文窗口。多模态感知与视觉理解能力性能更强。从自然语音直接生成代码到定制化图像的精准输出再到处理百万级上下文的专业编程助手阿里正在不动声色地重塑我们的工作方式。虽然都没开源阿里表示将开源更小规模模型版本。参考资料https://qwen.ai/blog?idqwen3.5-omnihttps://www.alibabacloud.com/en/press-room/alibaba-unveils-wan2-7-redefining-personalized-and?_p_lc1https://qwen.ai/blog?idqwen3.6