Voicebox,开源了!
想要克隆自己的声音做配音ElevenLabs 当属首选它这个功能做的的确不错。但每月几十刀的费用加上音频数据要上传到他们服务器对不少人来说都是个门槛。对于语音输入也有不错的工具比如 WisprFlow可同样要付费隐私同样存疑。今天在 GitHub 上发现一个名叫Voicebox的开源项目狂揽了 28000 Star。它的核心定位是 ElevenLabs 和 WisprFlow 的开源平替以本地优先的 AI 语音工作室。在语音市场上ElevenLabs 主攻语音输出WisprFlow 主攻语音输入它两算是各占一边。这一次 Voicebox 把两边都做了额外还用一个本地 LLM 把中间的改写、人格化环节串了起来。也就是说我们克隆出来的声音、录下的语音片段全程不会离开自己的电脑数据隐私安全。先来说说工具的声音克隆这块。只需要我们提供几秒钟的参考音频就能生成一个属于我们自己的声音模型。覆盖 23 种语言从英语、中文到阿拉伯语、印地语、斯瓦希里语主流语言都支持。内置 7 个 TTS 引擎包括 Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等。不同引擎各有作用比如 Chatterbox Turbo 支持[laugh]、[sigh]这类情绪标签能让生成的语音带笑声、叹气等真实情绪。而 Qwen3-TTS 则擅长多语言克隆还能听懂「慢一点说」「用耳语」这种自然语言指令。至于没有独立显卡的同学可以选 Kokoro模型只有 82MCPU 也能跑得动。如果不想克隆自己的声音项目也内置了 50 多个预设音色可以直接开箱可用。生成出来的音频还能进行编辑调音、混响、延迟、压缩这些参数都能实时预览。接下来要说的这个项目另一个让我觉得挺有意思的功能那就是可以给 Agent 工具配音。Voicebox 提供一个 MCP 服务器协议任何支持 MCP 的 Agent 工具都能调用它来发声。比如将其接入到 Claude Code只需要一行命令claude mcp add voicebox \ --transport http \ --url http://127.0.0.1:17493/mcp \ --headerX-Voicebox-Client-Id: claude-code添加完成后Claude Code 就能直接用我们克隆的声音说一句「测试通过可以合并」。我们还能在设置里给不同的 Agent 绑定不同的声音听声音就能分辨是哪个 Agent 在报告。这样我们在写代码的间隙就能听到熟悉的声音报告进度让我们的开发体验更上一个台阶。另外 Voicebox 还有一个更进阶的玩法叫人格化。我们可以给每个声音绑一段自由格式的人设描述比如「冷静的工程师」「毒舌的代码审查官」。之后无论是手动生成还是 Agent 通过 MCP 调用文本都会先经过本地 LLM 按人设改写再合成语音。也就是说Agent 说出来的话不只是声音由你定的连说话风格也可以自由设定。不止于此还提供一个全局快捷键听写功能按住热键说话松开后文字会自动粘贴到当前聚焦的输入框。在 macOS 上的体验做得不错会通过辅助功能 API 精确识别目标文本框粘贴过程不会污染剪贴板。至于安装项目提供了 macOS、Windows 的安装包可到官网或 Releases 页面下载。首次使用会自动下载模型权重Kokoro 只有 82MQwen3-TTS 要几个 G可按需下载。再提一句在苹果 M 芯片上跑速度比通用方案快不少NVIDIA 显卡则会自动走 CUDA。至于 REST API 和 MCP Server 默认监听本地 17493 端口文档地址在http://127.0.0.1:17493/docs对接自己的脚本和工具非常方便。写在最后讲真的在我看来语音 I/O 的本地化是一件迟早要发生的事。但也不得不承认云端在便利性上确实有优势可订阅成本和数据隐私这两道坎一直在。我们的声音特征数据真要是被泄露或者被滥用后果可能跟密码泄露差不多严重。这也是为什么语音本地方案的需求越来越被重视的原因之一。好在这两年开源模型的不断迭代更新基本是肉眼可见地速度在追平闭源模型的效果。再加上也可在苹果 MLX、NVIDIA CUDA 这些消费级硬件本地跑 TTS、STT、LLM。而 Voicebox 的价值我觉得不止在功能上的实用更给我们提供一个新的可能。以后使用 Agen我们不一定非得对着一个冰冷的对话框也可以让它说话、有情绪、有名字。未来很快 AI Agent 即将从纯文本输出工具逐渐演化成有声音、有人设的协作伙伴。至于会不会成为主流我们就拭目以待吧。GitHub 项目地址https://github.com/jamiepine/voicebox今天的分享到此结束感谢大家抽空阅读我们下期再见Respect