用Qwen3-TTS制作多语言有声书：从文本到语音的完整实战流程

张

张建站

2026/7/17 6:33:47

10分钟阅读

用Qwen3-TTS制作多语言有声书从文本到语音的完整实战流程想不想把你的电子书变成专业级的有声读物Qwen3-TTS-12Hz-1.7B-CustomVoice这个强大的语音合成模型能帮你把任何文字转换成自然流畅的语音支持10种主流语言和多种方言风格。今天我就带你从零开始用这个模型制作一本多语言有声书。1. 准备工作与环境搭建1.1 你需要准备什么在开始之前确保你有以下准备一台性能足够的电脑或云服务器建议至少16GB内存带GPU更好安装好Docker和Docker Compose准备要转换的电子书文本TXT或PDF格式大约30GB的可用磁盘空间1.2 获取Qwen3-TTS镜像Qwen3-TTS已经打包成Docker镜像部署非常简单。打开终端执行以下命令拉取镜像docker pull csdn-mirror/qwen3-tts-12hz-1.7b-customvoice:latest这个镜像大约12GB下载时间取决于你的网速。喝杯咖啡耐心等待吧。2. 快速启动TTS服务2.1 单命令启动服务镜像下载完成后用这个简单命令启动服务docker run -d --name qwen-tts -p 7860:7860 --gpus all csdn-mirror/qwen3-tts-12hz-1.7b-customvoice参数说明-d后台运行--name qwen-tts给容器起个名字-p 7860:7860把容器内的7860端口映射到主机--gpus all使用所有可用的GPU如果没有GPU可以去掉这个参数2.2 验证服务是否正常运行等待1-2分钟后打开浏览器访问http://localhost:7860你应该能看到这样的界面如果看到这个界面恭喜你服务已经成功启动了3. 制作你的第一本有声书3.1 准备文本内容假设我们有一本中文小说《三体》的TXT文件现在要把它转换成有声书。首先我们需要对文本进行适当处理删除不必要的注释和特殊字符按章节分割文本每个章节一个文件确保文本编码是UTF-8这里提供一个简单的Python脚本帮你预处理文本import re def clean_text(input_file, output_file): with open(input_file, r, encodingutf-8) as f: text f.read() # 移除特殊字符和多余空格 text re.sub(r[^\w\s。、《》【】\-\n], , text) text re.sub(r\s, , text).strip() # 分割章节假设章节标题格式为第X章标题 chapters re.split(r(第[一二三四五六七八九十百]章\s.?\n), text) # 保存各章节 for i in range(1, len(chapters), 2): chapter_title chapters[i].strip() chapter_content chapters[i1] with open(f{output_file}_chapter_{i//21}.txt, w, encodingutf-8) as f: f.write(f{chapter_title}\n\n{chapter_content}) clean_text(santi.txt, santi_clean)3.2 批量生成语音文件现在我们可以用Qwen3-TTS的API批量生成语音。创建一个Python脚本generate_audiobook.pyimport os import requests import time from pydub import AudioSegment BASE_URL http://localhost:7860/api/v1/tts OUTPUT_DIR audiobook # 创建输出目录 os.makedirs(OUTPUT_DIR, exist_okTrue) def text_to_speech(text, languagezh, speakerdefault, speed1.0, output_fileoutput.wav): payload { text: text, language: language, speaker: speaker, speed: speed } try: response requests.post(BASE_URL, jsonpayload) if response.status_code 200: with open(output_file, wb) as f: f.write(response.content) print(f成功生成: {output_file}) return True else: print(f生成失败: {response.text}) return False except Exception as e: print(f请求出错: {str(e)}) return False # 获取所有章节文件 chapter_files [f for f in os.listdir() if f.startswith(santi_clean_chapter)] # 按顺序处理每个章节 for i, chapter_file in enumerate(sorted(chapter_files)): chapter_num i 1 output_file os.path.join(OUTPUT_DIR, fchapter_{chapter_num}.wav) with open(chapter_file, r, encodingutf-8) as f: text f.read() # 分批次处理长文本避免内存问题 max_length 500 # 每次处理500字 segments [text[j:jmax_length] for j in range(0, len(text), max_length)] segment_files [] for seg_num, segment in enumerate(segments): seg_file os.path.join(OUTPUT_DIR, fchapter_{chapter_num}_seg_{seg_num1}.wav) if text_to_speech(segment, output_fileseg_file): segment_files.append(seg_file) time.sleep(1) # 避免请求过于频繁 # 合并分段音频 if segment_files: combined AudioSegment.empty() for seg_file in segment_files: combined AudioSegment.from_wav(seg_file) os.remove(seg_file) # 删除临时文件 combined.export(output_file, formatwav) print(f章节 {chapter_num} 合并完成: {output_file}) print(有声书生成完成)运行这个脚本它会把所有章节文本转换成WAV音频文件并保存在audiobook目录中。4. 高级功能与优化技巧4.1 多语言有声书制作Qwen3-TTS支持10种语言我们可以轻松制作多语言版本的有声书。比如我们要制作中英双语版本def generate_multilingual(text, output_prefix): # 中文版本 text_to_speech(text, languagezh, output_filef{output_prefix}_zh.wav) # 英文版本假设有英文翻译文本 text_to_speech(english_text, languageen, output_filef{output_prefix}_en.wav)4.2 添加背景音乐和音效为了让有声书更专业我们可以添加背景音乐和音效。使用pydub库可以轻松实现from pydub import AudioSegment def add_background(audio_file, bg_file, output_file, bg_volume-20): # 加载语音和背景音乐 voice AudioSegment.from_wav(audio_file) background AudioSegment.from_mp3(bg_file) # 调整背景音乐长度和音量 background background[:len(voice)].fade_out(3000) # 3秒淡出 background background bg_volume # 降低音量 # 混合音频 combined voice.overlay(background) combined.export(output_file, formatwav)4.3 使用不同语音风格Qwen3-TTS支持多种语音风格可以为不同角色分配不同声音# 旁白使用默认声音 text_to_speech(narration_text, speakerdefault) # 男主角使用深沉声音 text_to_speech(hero_text, speakerdeep_male) # 女主角使用温柔声音 text_to_speech(heroine_text, speakersoft_female)5. 最终成品打包与分享5.1 合并所有章节把所有章节音频合并成一个完整的有声书def combine_chapters(chapter_files, output_filefull_audiobook.wav): full_book AudioSegment.empty() for chapter_file in sorted(chapter_files): chapter_audio AudioSegment.from_wav(chapter_file) full_book chapter_audio full_book AudioSegment.silent(duration2000) # 章节间添加2秒静音 full_book.export(output_file, formatwav)5.2 转换为MP3格式WAV文件体积较大我们可以转换为MP3节省空间def convert_to_mp3(wav_file, mp3_file, bitrate128k): audio AudioSegment.from_wav(wav_file) audio.export(mp3_file, formatmp3, bitratebitrate)5.3 添加元数据为有声书添加标题、作者等元数据from mutagen.mp3 import MP3 from mutagen.id3 import ID3, TIT2, TPE1, TALB def add_metadata(mp3_file, title, author, album): audio MP3(mp3_file, ID3ID3) # 添加ID3标签如果不存在 try: audio.add_tags() except: pass audio[TIT2] TIT2(encoding3, texttitle) # 标题 audio[TPE1] TPE1(encoding3, textauthor) # 作者 audio[TALB] TALB(encoding3, textalbum) # 专辑 audio.save()6. 总结与进阶建议6.1 本教程回顾我们完成了一个完整的有声书制作流程搭建了Qwen3-TTS服务环境预处理了原始文本内容批量生成了各章节的语音文件添加了背景音乐和音效合并并优化了最终成品6.2 性能优化建议批量处理可以同时启动多个容器实例并行处理不同章节缓存机制对重复内容如章节标题的语音进行缓存GPU加速确保使用支持CUDA的GPU以获得最佳性能6.3 创意扩展思路多角色广播剧为小说中不同角色分配不同声音语言学习材料制作同一内容的多语言版本个性化定制根据听众偏好调整语速和音色播客制作将博客文章自动转换为播客节目现在你已经掌握了用AI制作专业级有声书的全部技能。快去把你的文字内容变成动人的声音吧获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Omni-Vision Sanctuary 赋能嵌入式视觉：在 STM32 生态中的轻量化应用探索

Omni-Vision Sanctuary 赋能嵌入式视觉：在 STM32 生态中的轻量化应用探索 1. 嵌入式视觉的新机遇与挑战在智能家居、工业检测等场景中，嵌入式视觉系统正面临前所未有的需求增长。传统方案往往受限于硬件资源，难以部署复杂的计算机视觉模型…...

2026/5/21 21:20:12 阅读更多 →

SDMatte快速入门：3步完成Dify AI Agent集成与调用

SDMatte快速入门：3步完成Dify AI Agent集成与调用 1. 引言想给你的Dify平台快速增加一个智能抠图功能？SDMatte作为专业的图像抠图模型，可以帮你轻松实现这个需求。今天我们就来手把手教你，如何用最简单的三步，把SDM…...

2026/5/21 21:20:14 阅读更多 →

【YOLOV8模型部署实战】从训练权重.pt到ONNX格式的完整转换指南

1. YOLOv8模型部署前的准备工作当你完成YOLOv8模型的训练后，会得到一个.pt格式的权重文件。这个文件包含了模型的所有参数和结构信息，但它并不是最优的部署格式。在实际应用中，我们通常需要将模型转换为ONNX格式，以便在不同平台上…...

2026/5/21 21:28:06 阅读更多 →

Go 原子操作 vs Mutex：小粒度状态同步的性能对比

Go 原子操作 vs Mutex：小粒度状态同步的性能对比一、所有计数器都加了 Mutex，Benchmark 出来慢了一个数量级一个高频计数器，用 Mutex 保护。 var counter int var mu sync.Mutexfunc Inc() {mu.Lock()countermu.Unlock() }Benchmark 结果&a…...

2026/7/16 22:56:21 阅读更多 →

ChatGPT返回非标准JSON？别再用try-except硬扛！这7种RFC 8259兼容性兜底方案已通过千万级QPS验证

更多请点击： https://intelliparadigm.com 第一章：ChatGPT JSON格式异常的根源与危害 JSON 格式异常是 ChatGPT API 集成中最隐蔽却最致命的故障之一。当模型输出未严格遵循 RFC 8259 规范时，下游解析器会立即中断执行，导致服务雪…...

2026/7/16 17:05:43 阅读更多 →

Scrapy 是一个用 Python 编写的高性能、可扩展的开源网络爬虫框架

Scrapy 是一个用 Python 编写的高性能、可扩展的开源网络爬虫框架，原生设计为单机架构，不直接支持分布式爬虫。但通过结合外部组件（如 Redis、RabbitMQ、Kafka 等），可构建分布式爬虫系统，常见方案包括&…...

2026/7/17 0:13:52 阅读更多 →

SpringBoot 全局异常处理进阶——参数校验、自定义异常码、国际化

上一篇讲了统一返回格式和基础异常处理，这一篇讲进阶内容——参数校验自动化、自定义异常码体系、国际化消息。一、自定义异常码 public enum ResultCode {SUCCESS(200, "操作成功"),BAD_REQUEST(400, "参数错误"),UNAUTHORIZED(401, "未…...

2026/7/17 2:34:43 阅读更多 →