零基础玩转Qwen3-ASR-1.7B：手把手教你搭建个人语音转文字工具

张

张建站

2026/4/20 9:38:50

10分钟阅读

零基础玩转Qwen3-ASR-1.7B手把手教你搭建个人语音转文字工具1. 认识你的语音识别助手Qwen3-ASR-1.7B是阿里通义千问推出的开源语音识别模型它能将你说的话实时转换成文字。想象一下你对着手机说一段话瞬间就能得到文字记录 - 这就是它的核心能力。这个模型有三大特点值得关注多语言支持能识别30种主要语言和22种中文方言高准确率17亿参数的规模保证了识别精度易部署提供Web界面和API两种使用方式2. 快速搭建你的语音识别环境2.1 准备工作在开始前请确保你的设备满足以下要求操作系统Linux推荐Ubuntu 20.04GPUNVIDIA显卡显存≥8GB存储空间至少10GB可用空间2.2 一键部署方法最简单的启动方式是使用预置的Docker镜像docker pull registry.cn-hangzhou.aliyuncs.com/qwen/qwen3-asr:1.7b docker run -it --gpus all -p 8000:8000 -p 7860:7860 registry.cn-hangzhou.aliyuncs.com/qwen/qwen3-asr:1.7b等待镜像下载并启动后你会看到类似这样的提示ASR服务已启动WebUI访问地址http://localhost:7860 API服务地址http://localhost:8000/v1/chat/completions3. 两种使用方式详解3.1 Web界面使用最适合新手在浏览器打开http://localhost:7860你会看到一个简洁的界面上传音频点击上传按钮选择本地音频文件支持wav/mp3格式语言设置可选如果是中文普通话可以跳过这一步开始识别点击右下角的识别按钮查看结果文字结果会显示在右侧文本框中小技巧你可以直接使用示例音频测试复制这个URL到输入框https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav3.2 API调用方式适合开发者如果你想在自己的程序中使用识别功能可以通过API实现。以下是Python调用示例from openai import OpenAI # 初始化客户端 client OpenAI( base_urlhttp://localhost:8000/v1, # 本地服务地址 api_keyEMPTY # 无需密钥 ) # 准备音频URL audio_url https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-ASR-Repo/asr_en.wav # 发送识别请求 response client.chat.completions.create( model/root/ai-models/Qwen/Qwen3-ASR-1___7B, messages[ { role: user, content: [{ type: audio_url, audio_url: {url: audio_url} }] } ], ) # 打印识别结果 print(response.choices[0].message.content)4. 进阶使用技巧4.1 处理长音频文件模型默认支持最长30分钟的音频识别。对于超长音频建议先分割再识别from pydub import AudioSegment # 加载音频文件 audio AudioSegment.from_file(long_audio.mp3) # 按10分钟分段 segment_length 10 * 60 * 1000 # 10分钟(毫秒) segments [audio[i:isegment_length] for i in range(0, len(audio), segment_length)] # 分段识别 for i, segment in enumerate(segments): segment.export(fsegment_{i}.wav, formatwav) # 调用API识别每个分段...4.2 方言识别设置要识别特定方言可以在API请求中添加语言参数response client.chat.completions.create( model/root/ai-models/Qwen/Qwen3-ASR-1___7B, messages[ { role: user, content: [{ type: text, text: 识别这段四川话 },{ type: audio_url, audio_url: {url: sichuan_audio.wav} }] } ], )4.3 服务监控与管理通过命令行可以查看和管理服务状态# 查看服务状态 supervisorctl status # 重启Web界面 supervisorctl restart qwen3-asr-webui # 查看日志 supervisorctl tail -f qwen3-asr-1.7b stderr5. 常见问题解决5.1 显存不足问题如果遇到显存不足的错误可以尝试以下方法修改启动脚本降低显存占用# 编辑启动脚本 nano /root/Qwen3-ASR-1.7B/scripts/start_asr.sh # 找到GPU_MEMORY参数将0.8改为0.6或更低 GPU_MEMORY0.6重启服务使更改生效supervisorctl restart qwen3-asr-1.7b5.2 音频格式问题模型最佳支持的音频格式采样率16kHz声道单声道格式WAV/PCM如果你的音频不符合要求可以用ffmpeg转换ffmpeg -i input.mp3 -ar 16000 -ac 1 output.wav6. 总结与下一步通过本教程你已经学会了如何快速部署Qwen3-ASR-1.7B语音识别服务使用Web界面和API两种方式进行语音转文字处理常见问题和优化识别效果下一步建议尝试将识别服务集成到你常用的笔记或办公软件中探索实时语音转写的可能性需要结合音频流处理了解如何微调模型以适应特定场景的语音识别获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。