Qwen3.5-35B-A3B-AWQ-4bit部署教程：supervisor服务管理+日志排查全流程

张

张建站

2026/8/1 15:17:58

10分钟阅读

Qwen3.5-35B-A3B-AWQ-4bit部署教程supervisor服务管理日志排查全流程1. 环境准备与快速部署在开始部署Qwen3.5-35B-A3B-AWQ-4bit模型前我们需要确保满足以下硬件要求GPU配置至少2张24GB显存的NVIDIA显卡如RTX 3090或A10G系统要求Ubuntu 20.04/22.04 LTS存储空间至少50GB可用空间网络环境稳定的互联网连接部署步骤如下下载预构建的Docker镜像docker pull csdn-mirror/qwen35-awq:latest创建模型目录并设置权限mkdir -p /root/workspace/models chmod -R 777 /root/workspace启动容器注意替换YOUR_SSH_PORTdocker run -itd --gpus all -p 7860:7860 -p YOUR_SSH_PORT:22 \ -v /root/workspace/models:/app/models \ --name qwen35-awq csdn-mirror/qwen35-awq:latest2. 服务配置与启动2.1 supervisor服务管理Qwen3.5采用supervisor管理后台服务主要包含两个服务qwen35awq-backend模型推理服务qwen35awq-web前端Web界面常用管理命令# 查看服务状态 supervisorctl status qwen35awq-backend supervisorctl status qwen35awq-web # 启动/停止服务 supervisorctl start qwen35awq-backend supervisorctl stop qwen35awq-web # 重启服务修改配置后使用 supervisorctl restart qwen35awq-backend2.2 服务配置文件supervisor配置文件位于/etc/supervisor/conf.d/qwen35.conf关键参数说明[program:qwen35awq-backend] commandpython3 /app/backend/main.py --tensor-parallel-size 2 --max-model-len 4096 autostarttrue autorestarttrue stderr_logfile/root/workspace/qwen35awq-backend.log stdout_logfile/root/workspace/qwen35awq-backend.log3. 日志排查与问题解决3.1 日志文件位置后端服务日志/root/workspace/qwen35awq-backend.log前端服务日志/root/workspace/qwen35awq-web.logsupervisor日志/var/log/supervisor/supervisord.log3.2 常见错误排查问题1服务启动失败检查步骤# 查看详细错误信息 tail -100 /root/workspace/qwen35awq-backend.log # 检查GPU驱动 nvidia-smi # 检查端口占用 ss -ltnp | grep -E 7860|8000问题2显存不足解决方案确认使用双卡模式检查tensor-parallel-size参数是否为2降低max-model-len值默认4096问题3响应速度慢优化建议# 检查GPU利用率 nvidia-smi -l 1 # 预热模型首次请求会较慢 curl -X POST http://localhost:8000/v1/completions -d {prompt:test}4. 使用教程与最佳实践4.1 图文对话基础操作通过SSH隧道访问Web界面ssh -L 7860:127.0.0.1:7860 -p YOUR_SSH_PORT rootyour_server_ip浏览器访问http://127.0.0.1:7860使用流程上传图片建议小于5MB输入问题如描述图片内容点击发送获取回答4.2 高级使用技巧多轮对话针对同一张图片可以连续提问模型会保持上下文特定任务提示物体识别列出图片中的所有物体场景理解这张照片是在什么场合拍摄的文字识别提取图片中的文字内容批量处理可以通过API实现图片批量分析API调用示例import requests url http://localhost:8000/v1/vision/completion headers {Content-Type: application/json} data { image: base64编码的图片数据, question: 描述图片中的主要人物 } response requests.post(url, jsondata, headersheaders) print(response.json())5. 性能优化与监控5.1 资源监控方案建议部署以下监控工具GPU监控watch -n 1 nvidia-smi服务健康检查# 简易健康检查脚本 while true; do curl -s http://localhost:8000/health || echo $(date) - Service Down sleep 60 done5.2 参数调优建议参数说明推荐值调整影响tensor-parallel-size张量并行数2值越大推理越快但需要更多显存max-model-len最大上下文长度4096值越大支持更长对话但消耗更多资源enforce-eager禁用CUDA图true提高稳定性可能略微降低性能6. 总结与后续建议通过本教程您已经完成了Qwen3.5-35B-A3B-AWQ-4bit模型的完整部署和服务管理配置。关键要点回顾部署验证确保双卡GPU环境检查supervisor服务状态日常维护定期检查日志文件监控GPU资源使用性能优化根据实际负载调整并行参数和上下文长度问题排查掌握日志分析技巧快速定位常见问题建议下一步尝试集成到您的业务系统中探索更多多模态应用场景关注模型更新及时升级版本获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Kandinsky-5.0-I2V-Lite-5s Web服务运维：supervisor日志分析+错误码定位+热修复流程

Kandinsky-5.0-I2V-Lite-5s Web服务运维：supervisor日志分析错误码定位热修复流程 1. 服务概述与核心价值 Kandinsky-5.0-I2V-Lite-5s是一款轻量级图生视频模型，用户只需上传首帧图片并补充运动描述，即可生成5秒24fps的短视频。本次部署方案…...

2026/5/21 21:10:21 阅读更多 →

PyTorch 2.8镜像作品分享：基于LVM（Large Vision Model）的视频理解Demo

PyTorch 2.8镜像作品分享：基于LVM（Large Vision Model）的视频理解Demo 1. 镜像概述与硬件配置 PyTorch 2.8深度学习镜像是一个专为现代AI工作负载设计的强大工具包。这个经过深度优化的环境让研究人员和开发者能够立即投入工作，…...

2026/5/21 21:10:21 阅读更多 →

别再只懂AES了！手把手带你搞懂GCM模式，让加密和验签一次搞定

别再只懂AES了！手把手带你搞懂GCM模式，让加密和验签一次搞定作为后端工程师，你是否曾在微服务接口开发中遇到过这样的困扰：既要对传输数据进行加密，又要确保数据完整性，不得不先调用AES加密再单独计算HMAC…...

2026/5/21 21:10:22 阅读更多 →

PDF拆分压完图糊了？2026国内免费实测，档案员都在用的组合方案

说实话，提到PDF拆分再压缩，我真是被折腾得够呛。上个月公司年度合同归档，一份300多页的PDF总合同，需要按年份拆分成三个独立文件，再分别压缩到10MB以内方便邮件发送各部门确认。我心想这还不简单？先找个海…...

2026/8/1 0:11:43 阅读更多 →

verilog HDLBits刷题[Finite State Machines]“Fsm1”---Simple FSM1(asynchronous reset)

1、题目 This is a Moore state machine with two states, one input, and one output. Implement this state machine. Notice that the reset state is B. This exercise is the same as fsm1s, but using asynchronous reset. 2、分析 Moore 有限状态机：输出只…...

2026/7/31 13:04:00 阅读更多 →