Qwen3.5-35B-A3B-AWQ-4bit部署教程:supervisor服务管理+日志排查全流程
Qwen3.5-35B-A3B-AWQ-4bit部署教程supervisor服务管理日志排查全流程1. 环境准备与快速部署在开始部署Qwen3.5-35B-A3B-AWQ-4bit模型前我们需要确保满足以下硬件要求GPU配置至少2张24GB显存的NVIDIA显卡如RTX 3090或A10G系统要求Ubuntu 20.04/22.04 LTS存储空间至少50GB可用空间网络环境稳定的互联网连接部署步骤如下下载预构建的Docker镜像docker pull csdn-mirror/qwen35-awq:latest创建模型目录并设置权限mkdir -p /root/workspace/models chmod -R 777 /root/workspace启动容器注意替换YOUR_SSH_PORTdocker run -itd --gpus all -p 7860:7860 -p YOUR_SSH_PORT:22 \ -v /root/workspace/models:/app/models \ --name qwen35-awq csdn-mirror/qwen35-awq:latest2. 服务配置与启动2.1 supervisor服务管理Qwen3.5采用supervisor管理后台服务主要包含两个服务qwen35awq-backend模型推理服务qwen35awq-web前端Web界面常用管理命令# 查看服务状态 supervisorctl status qwen35awq-backend supervisorctl status qwen35awq-web # 启动/停止服务 supervisorctl start qwen35awq-backend supervisorctl stop qwen35awq-web # 重启服务修改配置后使用 supervisorctl restart qwen35awq-backend2.2 服务配置文件supervisor配置文件位于/etc/supervisor/conf.d/qwen35.conf关键参数说明[program:qwen35awq-backend] commandpython3 /app/backend/main.py --tensor-parallel-size 2 --max-model-len 4096 autostarttrue autorestarttrue stderr_logfile/root/workspace/qwen35awq-backend.log stdout_logfile/root/workspace/qwen35awq-backend.log3. 日志排查与问题解决3.1 日志文件位置后端服务日志/root/workspace/qwen35awq-backend.log前端服务日志/root/workspace/qwen35awq-web.logsupervisor日志/var/log/supervisor/supervisord.log3.2 常见错误排查问题1服务启动失败检查步骤# 查看详细错误信息 tail -100 /root/workspace/qwen35awq-backend.log # 检查GPU驱动 nvidia-smi # 检查端口占用 ss -ltnp | grep -E 7860|8000问题2显存不足解决方案确认使用双卡模式检查tensor-parallel-size参数是否为2降低max-model-len值默认4096问题3响应速度慢优化建议# 检查GPU利用率 nvidia-smi -l 1 # 预热模型首次请求会较慢 curl -X POST http://localhost:8000/v1/completions -d {prompt:test}4. 使用教程与最佳实践4.1 图文对话基础操作通过SSH隧道访问Web界面ssh -L 7860:127.0.0.1:7860 -p YOUR_SSH_PORT rootyour_server_ip浏览器访问http://127.0.0.1:7860使用流程上传图片建议小于5MB输入问题如描述图片内容点击发送获取回答4.2 高级使用技巧多轮对话针对同一张图片可以连续提问模型会保持上下文特定任务提示物体识别列出图片中的所有物体场景理解这张照片是在什么场合拍摄的文字识别提取图片中的文字内容批量处理可以通过API实现图片批量分析API调用示例import requests url http://localhost:8000/v1/vision/completion headers {Content-Type: application/json} data { image: base64编码的图片数据, question: 描述图片中的主要人物 } response requests.post(url, jsondata, headersheaders) print(response.json())5. 性能优化与监控5.1 资源监控方案建议部署以下监控工具GPU监控watch -n 1 nvidia-smi服务健康检查# 简易健康检查脚本 while true; do curl -s http://localhost:8000/health || echo $(date) - Service Down sleep 60 done5.2 参数调优建议参数说明推荐值调整影响tensor-parallel-size张量并行数2值越大推理越快但需要更多显存max-model-len最大上下文长度4096值越大支持更长对话但消耗更多资源enforce-eager禁用CUDA图true提高稳定性可能略微降低性能6. 总结与后续建议通过本教程您已经完成了Qwen3.5-35B-A3B-AWQ-4bit模型的完整部署和服务管理配置。关键要点回顾部署验证确保双卡GPU环境检查supervisor服务状态日常维护定期检查日志文件监控GPU资源使用性能优化根据实际负载调整并行参数和上下文长度问题排查掌握日志分析技巧快速定位常见问题建议下一步尝试集成到您的业务系统中探索更多多模态应用场景关注模型更新及时升级版本获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。