金磊 发自 凹非寺量子位 | 公众号 QbitAI终于郭德纲最难的贯口——《莽撞人》被免费的2B国产AI给复刻出来了来展示~△图片和音频均为AI生成这段《莽撞人》是被公认的难度顶尖甚至成为北影台词课的教科书范本很多专业演员面对它也是望而却步。而之前AI语音模型要复刻这段贯口要么速度不够快要么咬字、节奏错误要么就是莫得感情。但这一次AI“无中生有”自行音色设计出来的女声版贯口不仅把节奏拿捏到位甚至连百bē战百bē胜、白bē盔白bē甲白bē旗靠……这些特殊发音也是读对了包括这两天在网上包括的沈阳翻译片段这个免费国产AI也是分分钟能复刻出来男声版△图片和音频均为AI生成那几个被网友们笑疯了的小词儿“音乐会儿”、“害有”、啊国产AI把大姨东北话的灵魂给抓得稳稳的。不止是东北话这个语言模型已经可以cover九种方言像四川话版《大话西游》经典名场面是这样的注九种方言分别是四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南语。△图片和音频均为AI生成“巴适得板”、“悔得抠脚”、“女娃儿”……这小味儿确实有点满级四川方言的味道了而且还把周星驰原配音的声色给保住了。除了方言啊这个国产2B模型还有一技——同一段语音可以用不同国家的语言来演绎例如这段原先是中文的《甄嬛传》滴血验亲的名片段就秒变成了韩语版△图片和音频均为AI生成不论是语气还是人声都有点中文原版的那个味道了。当然泰语版和西语版也是手拿把掐△图片和音频均为AI生成不仅如此啊这个语音模型是直接可以cover三十门外语的那种。来听一下30种不同风格的“你好”如此好玩还免费开源的国产语音模型到底是何许AI是也不卖关子它正是面壁智能联合OpenBMB开源社区、清华大学人机语音交互实验室新升级的VoxCPM 2。整体看下来除了多语种、多方言之外VoxCPM 2在音色设计、音色可控和高表现力方面也是较为亮眼。不少歪果仁在VoxCPM 2发布之后就立马去尝了下鲜纷纷表示“自家语言的效果针不戳”而且在音质方面市面一般是24000Hz但VoxCPM 2这次直接拔高到了48000HzCD音质这下子游戏、动画、影视、有声书等领域的人可以说是有福了。生成只需1秒钟的语音模型开源的VoxCPM 2我们现在就可以在在线体验的网站上体验了地址见文末接下来我们就一起手把手搓一个东北话版的《火影忍者》。首先在界面的左上角我们上传一段宋小宝的原声片段大概20秒左右然后在它的下方我们填一个“东北话”的指令再把台词写进要合成的文本里例如搁这儿用秽土转生跟我唠嗑可真够损的奥。最后点击下面的“Generate Speech”按钮不到一秒钟的时间宋小宝味儿的《火影》宇智波斑的台词就诞生了接下来我们只需要配上一小段视频齐活儿细心的小伙伴可能发现了刚才宋小宝音频的demo里其实是有背景杂音的但到视频里就没有了。这其实是VoxCPM 2的参考音频降噪功能只要勾选一下声音就会变得清晰还有值得注意的是视频里二代土影的声音是没有上传任何参考音频的情况下生成。如果你找不到合适的灵感大可以让VoxCPM 2自由发挥。然后如果想克隆声音的质量有保证建议上传的参考音频尽量大于等于5秒以及你还可以在“Control Instruction”里面添加提示词改变参考声音的情绪和语速等等。但克隆声音的时候是不能改变性别的哦~除此之外还有3个小细节第一个是文本规范化这是在你输入的台词里有日期、符号、阿拉伯数字等AI读不明白的内容时你就可以点它让AI读得规范起来。第二个CFG Value它的作用是用来控制AI的听话程度数值越高就越听你的要求反之AI会自由发挥。第三个就是LocDiT设置它的步数越高音频效果就会越好但生成的速度就会变慢。除此之外台词中间停顿的音效现在可以用[laughing]笑声、[sigh]叹气、[Uhm]嗯……这些标签来控制总而言之现在要玩儿逼真、有趣的声音简直太简单了。怎么做到的看到这里肯定有不少的小伙伴要问了只有2B大小还免费开源的语音模型到底是怎么做到的来咱们这就扒一波。首先就是VoxCPM 2走了一条跟市面上大多数模型不太一样的路线——采用扩散自回归连续表征Diffusion Autoregressive Continuous Representation。和市面上主流的Token-based传统方案不同的是它是基于Tokenizer-Free的TTS系统来做的设计通过端到端扩散自回归架构直接生成连续语音表征实现了隐式语义-声学的解耦。简单来说传统方案在语音转换时极易出现信息损失而这套技术能最大程度保留原始声音的声学细节、情感基调和方言特色。这也就是它既能完美复刻周星驰配音的声色又能把东北话、四川话说得地道入味的核心原因。与此同时这款模型的底气还来自面壁智能深耕多年的高密度小模型技术壁垒。VoxCPM 2完全基于面壁智能自研的MiniCPM基座打造延续了系列模型“小身板、大能量”的特质。此前VoxCPM系列就已经在Hugging Face斩获超千点赞、5.5k下载量这次升级更是把多语种、高保真、音色可控等核心能力拉到了行业新高度。更难得的是VoxCPM 2不止开源了完整的模型权重更提供了从一键上手到大规模部署的全套工具链支持原生Torch推理、LoRA及全参数微调还适配了多端UI扩展上手使用变得超简单。最后回到国产这个点。放眼全球范围内目前除了基座大模型牢牢占据了开源领先地位在小模型、端侧模型上中国公司也在持续领先。体验地址https://voxcpm.modelbest.cn/GtiHub地址https://github.com/OpenBMB/VoxCPM/HuggingFace地址https://huggingface.openbmb.com/model/openbmb/VoxCPM2一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 点亮星标 科技前沿进展每日见