Voicebox，开源了！

张

张建站

2026/5/26 16:13:29

10分钟阅读

想要克隆自己的声音做配音ElevenLabs 当属首选它这个功能做的的确不错。但每月几十刀的费用加上音频数据要上传到他们服务器对不少人来说都是个门槛。对于语音输入也有不错的工具比如 WisprFlow可同样要付费隐私同样存疑。今天在 GitHub 上发现一个名叫Voicebox的开源项目狂揽了 28000 Star。它的核心定位是 ElevenLabs 和 WisprFlow 的开源平替以本地优先的 AI 语音工作室。在语音市场上ElevenLabs 主攻语音输出WisprFlow 主攻语音输入它两算是各占一边。这一次 Voicebox 把两边都做了额外还用一个本地 LLM 把中间的改写、人格化环节串了起来。也就是说我们克隆出来的声音、录下的语音片段全程不会离开自己的电脑数据隐私安全。先来说说工具的声音克隆这块。只需要我们提供几秒钟的参考音频就能生成一个属于我们自己的声音模型。覆盖 23 种语言从英语、中文到阿拉伯语、印地语、斯瓦希里语主流语言都支持。内置 7 个 TTS 引擎包括 Qwen3-TTS、Chatterbox、LuxTTS、Kokoro 等。不同引擎各有作用比如 Chatterbox Turbo 支持[laugh]、[sigh]这类情绪标签能让生成的语音带笑声、叹气等真实情绪。而 Qwen3-TTS 则擅长多语言克隆还能听懂「慢一点说」「用耳语」这种自然语言指令。至于没有独立显卡的同学可以选 Kokoro模型只有 82MCPU 也能跑得动。如果不想克隆自己的声音项目也内置了 50 多个预设音色可以直接开箱可用。生成出来的音频还能进行编辑调音、混响、延迟、压缩这些参数都能实时预览。接下来要说的这个项目另一个让我觉得挺有意思的功能那就是可以给 Agent 工具配音。Voicebox 提供一个 MCP 服务器协议任何支持 MCP 的 Agent 工具都能调用它来发声。比如将其接入到 Claude Code只需要一行命令claude mcp add voicebox \ --transport http \ --url http://127.0.0.1:17493/mcp \ --headerX-Voicebox-Client-Id: claude-code添加完成后Claude Code 就能直接用我们克隆的声音说一句「测试通过可以合并」。我们还能在设置里给不同的 Agent 绑定不同的声音听声音就能分辨是哪个 Agent 在报告。这样我们在写代码的间隙就能听到熟悉的声音报告进度让我们的开发体验更上一个台阶。另外 Voicebox 还有一个更进阶的玩法叫人格化。我们可以给每个声音绑一段自由格式的人设描述比如「冷静的工程师」「毒舌的代码审查官」。之后无论是手动生成还是 Agent 通过 MCP 调用文本都会先经过本地 LLM 按人设改写再合成语音。也就是说Agent 说出来的话不只是声音由你定的连说话风格也可以自由设定。不止于此还提供一个全局快捷键听写功能按住热键说话松开后文字会自动粘贴到当前聚焦的输入框。在 macOS 上的体验做得不错会通过辅助功能 API 精确识别目标文本框粘贴过程不会污染剪贴板。至于安装项目提供了 macOS、Windows 的安装包可到官网或 Releases 页面下载。首次使用会自动下载模型权重Kokoro 只有 82MQwen3-TTS 要几个 G可按需下载。再提一句在苹果 M 芯片上跑速度比通用方案快不少NVIDIA 显卡则会自动走 CUDA。至于 REST API 和 MCP Server 默认监听本地 17493 端口文档地址在http://127.0.0.1:17493/docs对接自己的脚本和工具非常方便。写在最后讲真的在我看来语音 I/O 的本地化是一件迟早要发生的事。但也不得不承认云端在便利性上确实有优势可订阅成本和数据隐私这两道坎一直在。我们的声音特征数据真要是被泄露或者被滥用后果可能跟密码泄露差不多严重。这也是为什么语音本地方案的需求越来越被重视的原因之一。好在这两年开源模型的不断迭代更新基本是肉眼可见地速度在追平闭源模型的效果。再加上也可在苹果 MLX、NVIDIA CUDA 这些消费级硬件本地跑 TTS、STT、LLM。而 Voicebox 的价值我觉得不止在功能上的实用更给我们提供一个新的可能。以后使用 Agen我们不一定非得对着一个冰冷的对话框也可以让它说话、有情绪、有名字。未来很快 AI Agent 即将从纯文本输出工具逐渐演化成有声音、有人设的协作伙伴。至于会不会成为主流我们就拭目以待吧。GitHub 项目地址https://github.com/jamiepine/voicebox今天的分享到此结束感谢大家抽空阅读我们下期再见Respect

浅谈：单例模式的弊端与对策

单例的弊端回顾以下单例模式的定义：保证一个类仅有一个实例，并提供一个该实例的全局访问点。这里提到了「全局」两个字，可见单例本质就是一种全局资源。那自然无法避免全局对象的各种弊端；如：滥用问题，任…...

2026/5/26 16:13:27 阅读更多 →

4.Hermes接入Telegram，才像真正的Agent

很多人一听 “Telegram bot”，脑子里想的是一个轻量聊天机器人。但这不是理解 Hermes 的正确方式。当你把 Hermes 接到 Telegram 上，你不是简单把一个 bot 连到聊天软件里，而是把 Hermes 的 gateway 扩展成一个远程控制面板。你可以在手机、桌…...

2026/5/26 16:13:16 阅读更多 →

大白话彻底听懂PyTorch autograd的底层逻辑

💓 博客主页：瑕疵的CSDN主页 📝 Gitee主页：瑕疵的gitee主页 ⏩ 文章专栏：《热点资讯》被PyTorch autograd坑到凌晨三点，终于摸清了反向传播的底裤文章目录上周写自定义层时，梯度全为0。我盯着…...

2026/5/26 16:13:02 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →