目录一、15.ai 的成长史二、 AI 语音发展史拼接式合成参数式合成WaveNet (2016.9)Parallel WaveNet (2017.10)Tacotron2 (2017.12)WaveRNN (2018.2)FastSpeech (2019)HiFi-GAN (2019)15.ai (2020.3)Jukebox (2020.4)法律风险初显AudioLM (2022.9)VALL-E (2023.1)Stable Audio (2023.9)三、发展与回归时刻四、总结一、15.ai 的成长史2025年5月19日一则新闻开始在各大平台传播。停止了三年后15.ai又回来了。那么这个三四年前的AI配音网站究竟有着怎样的故事呢他又是如何成为了当年世界上最先进的AI配音技术呢1998年2月20日15出生于美国。这位老哥一直以来的网名就叫15从未透露过真实名字。大约在2013年他接触到了《我的小马驹友谊的魔法》但由于学业问题他一直没有深入这个粉丝圈。2015年他考上了麻省理工学院。15的这个项目最初开始于2016年也就是他读大一的时候。那年Google学术的DeepMind团队发表了一篇开创性的论文叫《WaveNET原始音频的生成模型》在语音合成方面展现了前所未有的音频质量。当时的15正在开发深度学习语音合成的研究项目这篇论文被他一读再读。接下来的三年15持续进行研究。2017年Google发布了Tacotron。到2019年他们在麻省理工学院展示了能够复制WaveNet和Tacotron 2的结果。当时还在读大三时15预测未来有一天只需要15秒的数据就能复制一个人的声音“15”这个网名也由此而来。在考虑读研还是就业的时候15没有继续升学而选择了和朋友一起创业。一年半后的2020年他离开了这家公司继续回到人工智能的研究当中。但由于研究生院的申请周期已经过去他决定一个人将研究进行到底。15立马开始工作他为网站搭建了一个功能齐全的前端和后端同时也在网上搜索有趣的数据源。最终他得出结论网上的数据源有很多但要么单调要么质量低劣不能满足研究需求。那么哪里还有一个真正合适的语料库这时15猛然就想到了他中学在看的那部动画片——《小马宝莉》不就是最好的音频素材库吗在4chan的MLP板块上小马全九季的大量语音片段都被打包收集了。最终实现了一个前所未有的庞大语音库。这为15.ai的深度学习模型提供了非常理想的训练材料很快每个角色就只需要几分钟的音频了。2020年底网站进行了一次更新15一次性给它添加了五十多个角色的声音而且还让不同角色都能生成带有情绪的声音即使某些角色的训练数据中缺少某些情绪。然后意外发生了人们用15.ai配音的视频在各大平台上疯狂传播15.ai在2021年初爆火曾经冷冷清清的网站如今却要每天生成几百万字语音平台运营成本最高达到12000美元。2022年初Voise vers公司窃取15.ai里的语音在未经许可的情况下就拿来给自己的平台盈利。被举报之后只好出来道歉整篇道歉文章总结下来就是知道错了下次还敢。而15的回复显然就更加简洁明了一点他在推特上只写了三个字。2022年初Voise Vers公司窃取15.ai里的语音在未经许可的情况下拿来给自己的平台盈利。被举报之后出来道歉。15在推特上只写了三个字这条推文获得了数千次转发。最终这也对Voice Vers公司的信誉带来了巨大的打击。15.ai 让各种圈子都能创作优秀的同人作品。在成功的同时15也非常自信他相信自己一个人就能处理所有事情。然而新的问题出现了也就是人工智能版权的法律问题。15因使用AI生成角色配音被指控侵权2022年9月15日15.ai被关闭。由15.ai在马圈引起的AI配音浪潮就此戛然而止。二、 AI 语音发展史拼接式合成录制配音员数小时甚至数十小时的语音将其切割成极其微小的单元如音素、音节、半音节等并建立一个庞大的语音数据库。合成时系统根据目标文本从这个数据库中“挑选”出最合适的语音单元然后将它们拼接在一起再通过复杂的信号处理算法进行平滑连接。参数式合成用隐马尔可夫模型来模拟人声的发声过程。该模型会生成一系列代表语音特性的参数如基频、共振峰、能量等然后通过一个名为“声码器”的部件将这些参数重新合成为可听的语音波形。环球网 2014-12-30 报道阿里巴巴集团UC移动事业群总裁俞永福与著名相声演员郭德纲为大家带来了一场特别的相声表演——发布了由郭德纲录制的导航语音包。WaveNet (2016.9)WaveNet: A generative model for raw audiohttps://deepmind.google/discover/blog/wavenet-a-generative-model-for-raw-audio/DeepMind 团队发布WaveNet。借由图像生成的思想利用图像中先前生成的像素点来进行新像素点的生成生成我们当前的音频信号也可以基于先前的音频。自回归Parallel WaveNet (2017.10)DeepMind 团队使用概率密度蒸馏技术发布了全新的 parallel WaveNet。速度比原始WaveNet快1000倍同时保持高音质在Google助手上开始应用。神经网络的压缩知识蒸馏Tacotron2 (2017.12)Google发布了Tacotron2它通过深度融合端到端的序列到序列模型和先进的声码器技术在语音合成的自然度和逼真度上实现了巨大飞跃其合成语音的效果甚至能与专业录音相媲美。只需要对文本语音进行简单的处理就能喂给模型进行学习极大的减少的人工干预。但仍需要大量的训练数据通常需要几十小时的音频在使用 2h 的音频时效果明显下降。端到端(encoder-decoder)LSTMWaveRNN (2018.2)DeepMind 团队使用单一 RNN 层和双 softmax 输出优化模型结构引入权重稀疏技术发布全新的 WaveRNN。LSTM新华社 2018-11-9 报道新华社与搜狗合作开发了两个人工智能新闻主播全球首个实时AI语音视频新闻主播支持24小时播报。FastSpeech (2019)微软亚洲研究院和浙江大学联合推出了 FastSpeech解决了自回归模型如 Tacotron 2中的速度限制问题。 FastSpeech 采用非自回归架构实现了并行序列生成语音合成速度提升实现了实时语音合成。Transformer非自回归HiFi-GAN (2019)HiFi-GAN 通过其创新的生成器、判别器结构以及损失函数设计在语音合成质量与效率方面取得了显著突破并成功应用于TTS、语音增强及歌声合成等领域。对抗学习卷积非自回归15.ai (2020.3)正如其名15秒数据克隆任意角色声音。15 未透露实现方法只是说在本科研究过程中开发选择“闭源、非商业、以服务形式对外”的策略。15.devfew-shotJukebox (2020.4)OpenAI 在 2020年4月 发布了音乐生成模型 Jukebox 。它能够根据流派、艺术家甚至歌词提示生成包含旋律、和声乃至人声演唱的原始音频片段。虽然生成了连贯的片段但Jukebox 难以生成常见的宏大音乐结构生成的音频音质不够完美耗时较长。自回归Transformer离散token央视网 2021-8-11 报道东京奥运会上央视体育客户端携手百度智能云集成高度拟人、流畅自然的语音合成服务打造出奥运赛事的智能语音播报新模式为用户带来及时的奥运赛事情况感受奥运的独特魅力。法律风险初显2021-4欧盟《EU Artificial Intelligence Act》发布首次定义“高风险AI系统”包括语音识别/生成等要求透明与风险控制。2022-1美国《NO FAKES Act》首次在国会提出针对未授权声音/肖像克隆的联邦级保护法案提出民事追责条款。AudioLM (2022.9)Google提出AudioLM将音频生成任务视为语言建模可在未标注语音上生成连贯语音和钢琴曲。embeddingTransformer层次化建模VALL-E (2023.1)微软在推出了一个突破性语音合成模型 VALL-E只需3秒钟的语音样本就能高度模拟一个人的声音并让这个声音流利地说出任何新的文本内容。few-/zero-shotTransformer2023-4美国FTC联邦贸易委员会 启动 Voice Cloning 风险调查警示企业不得利用语音克隆进行误导或欺诈计划制定监管框架。Stable Audio (2023.9)Stability AI 推出Stable Audio系列1.0版2023年首次实现商用级别3分钟立体声音乐生成2.0版2024年新增音频到音频转换功能支持上传素材并用文本提示生成全新音轨图片由 AI 生成三、发展与回归时刻沉舟侧畔千帆过虽然15.ai下线了但市面上的AI配音技术还在迅猛的发展。从2022年起你可以在抖音上看到注意看眼前的这个男人叫小帅演的各种电影你可以在B站上看到五星上将麦克阿瑟到处评论还有雷军开着小米su7到处锐评。到现在的购物平台直播带货广泛使用 AI 数字人和发弹幕伪装system指令干懵数字人的。还有哈基米音乐。用15.ai创作了播放量最高小马视频的up哈基米音乐的始祖巨人而15.ai逐渐被人们遗忘了。他本来是AI配音技术的领头羊早在20年就开发出了22年才开始流行的技术。而如今由于版权问题的封锁已经没有多少人会记得15.ai的成就了。在国内的互联网上几乎看不到对它的讨论毕竟谁又会去关注一个全是彩虹小马的网站呢最终2025年5月19日15发表推文宣布15.ai回归并成功规避了版权问题。此次复活后15.ai正式改名为15.dev网站里能生成六十多种声音全部来自小马的角色网站依然免费所有费用由15自己承担。当今天的同人创作者再次用15.ai进行创作时这项从2016年开始持续了九年的研究项目终究发挥出了独属于它的价值。四、总结从2016年 DeepMind 提出 WaveNet 以来TTS 进入深度学习新时代。期间 TTS 的发展是和神经网络同步的比如对抗生成网络、循环神经网络、Transformer架构TTS 很快就能应用上最新的技术。期间AI的监管环境也在变化。从早期几乎不受约束的野蛮生长到2020年首次被纳入法律框架再到今天逐步形成体系化的立法。相比模型训练中的loss等抽象指标TTS技术对人的听觉感受冲击更为直接和强烈这种社会层面的影响力恰恰推动了相关法律体系的规范化进程。从这个角度看无论是在技术迭代还是社会应用层面TTS的发展历程都可以视作半部AI发展史。而通过对15.ai这一个案的观察我们得以以小见大窥见这段历史的一个生动切面。这也解释了为什么维基百科的“深度学习语音合成”词条都需要用四分之一的篇幅来记录15.ai的贡献。* 深度学习语音合成”词条https://en.wikipedia.org/wiki/Deep_learning_speech_synthesis#History