Qwen3-32B-Chat实战教程：基于FastAPI封装Qwen3 API并添加请求审计日志

张

张建站

2026/6/24 15:16:13

10分钟阅读

Qwen3-32B-Chat实战教程基于FastAPI封装Qwen3 API并添加请求审计日志1. 教程概述本教程将指导您如何基于FastAPI框架封装Qwen3-32B-Chat模型的API服务并添加请求审计日志功能。通过本教程您将学会如何快速部署Qwen3-32B-Chat私有镜像使用FastAPI构建RESTful API服务实现API请求的审计日志记录优化大模型API服务的性能与稳定性本教程特别针对RTX 4090D 24GB显存环境优化采用CUDA 12.4和驱动550.90.07确保最佳推理性能。2. 环境准备与快速部署2.1 硬件与镜像要求确保您的环境满足以下要求GPURTX 4090D 24GB显存必须内存≥120GBCPU10核心以上系统盘50GB数据盘40GB2.2 一键启动API服务使用预置镜像中的启动脚本快速部署# 进入工作目录 cd /workspace # 启动API服务 bash start_api.sh服务启动后您可以通过以下地址访问API文档http://localhost:8001/docs默认端口80013. FastAPI基础封装3.1 创建FastAPI应用首先创建一个基础的FastAPI应用来封装Qwen3模型from fastapi import FastAPI from pydantic import BaseModel from transformers import AutoModelForCausalLM, AutoTokenizer app FastAPI() # 加载模型 model_path /workspace/models/Qwen3-32B tokenizer AutoTokenizer.from_pretrained(model_path) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypeauto, device_mapauto, trust_remote_codeTrue ) class ChatRequest(BaseModel): prompt: str max_length: int 512 temperature: float 0.7 app.post(/chat) async def chat_completion(request: ChatRequest): inputs tokenizer(request.prompt, return_tensorspt).to(cuda) outputs model.generate( **inputs, max_lengthrequest.max_length, temperaturerequest.temperature ) response tokenizer.decode(outputs[0], skip_special_tokensTrue) return {response: response}3.2 测试API接口启动服务后您可以使用curl测试APIcurl -X POST http://localhost:8001/chat \ -H Content-Type: application/json \ -d {prompt:你好介绍一下你自己,max_length:200}4. 添加审计日志功能4.1 实现日志中间件为API添加请求审计日志功能import time from fastapi import Request import logging # 配置日志 logging.basicConfig( filenameapi_audit.log, levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s ) app.middleware(http) async def audit_log(request: Request, call_next): start_time time.time() # 记录请求信息 client_ip request.client.host method request.method path request.url.path response await call_next(request) # 计算处理时间 process_time time.time() - start_time # 记录审计日志 log_data { client_ip: client_ip, method: method, path: path, status_code: response.status_code, process_time: f{process_time:.3f}s } logging.info(fAPI请求审计 - {log_data}) return response4.2 增强的日志记录在聊天接口中添加详细的请求/响应日志app.post(/chat) async def chat_completion(request: ChatRequest): # 记录请求 logging.info(f请求内容: {request.prompt[:100]}... (长度:{len(request.prompt)})) inputs tokenizer(request.prompt, return_tensorspt).to(cuda) outputs model.generate( **inputs, max_lengthrequest.max_length, temperaturerequest.temperature ) response tokenizer.decode(outputs[0], skip_special_tokensTrue) # 记录响应 logging.info(f响应内容: {response[:100]}... (长度:{len(response)})) return {response: response}5. 性能优化与生产部署5.1 启用批处理支持修改API以支持批处理请求from typing import List class BatchChatRequest(BaseModel): prompts: List[str] max_length: int 512 temperature: float 0.7 app.post(/batch_chat) async def batch_chat_completion(request: BatchChatRequest): inputs tokenizer(request.prompts, return_tensorspt, paddingTrue).to(cuda) outputs model.generate( **inputs, max_lengthrequest.max_length, temperaturerequest.temperature ) responses [tokenizer.decode(output, skip_special_tokensTrue) for output in outputs] return {responses: responses}5.2 添加速率限制使用FastAPI的中间件添加API速率限制from fastapi.middleware import Middleware from fastapi.middleware.httpsredirect import HTTPSRedirectMiddleware from slowapi import Limiter from slowapi.util import get_remote_address limiter Limiter(key_funcget_remote_address) app.state.limiter limiter app.post(/chat) limiter.limit(10/minute) async def chat_completion(request: ChatRequest): # 原有实现...5.3 生产环境部署建议对于生产环境建议使用NGINX作为反向代理配置SSL/TLS加密启用Gunicorn或多进程部署监控GPU显存使用情况定期轮转审计日志示例Gunicorn启动命令gunicorn -w 4 -k uvicorn.workers.UvicornWorker -b 0.0.0.0:8001 main:app6. 总结与进阶建议通过本教程您已经学会了如何快速部署Qwen3-32B-Chat私有镜像使用FastAPI构建RESTful API服务实现API请求的审计日志功能进行性能优化和生产部署准备进阶建议考虑添加用户认证和授权实现API密钥管理添加更详细的性能监控考虑模型量化以降低显存占用定期更新模型和依赖库获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

CHORD-X视觉战术指挥系统网络协议深度解析：从HTTP到gRPC的接口优化

CHORD-X视觉战术指挥系统网络协议深度解析：从HTTP到gRPC的接口优化在构建像CHORD-X这样的视觉战术指挥系统时，后台服务之间的通信效率直接决定了整个系统的响应速度和实时性。想象一下，前线传回的高清视频流需要被瞬间分析，识别…...

2026/6/24 7:55:26 阅读更多 →

UE 【材质扩展】从蓝图到C++：打造专属材质函数节点

1. 为什么需要自定义材质函数节点在Unreal Engine的材质编辑器中工作过一段时间的朋友应该都有这样的体验：某些特定的材质效果需要反复搭建相同的节点组合。比如做一个简单的颜色混合效果，每次都要拖拽三四个节点连来连去，不仅效率低下&…...

2026/6/24 13:39:50 阅读更多 →

ESRGAN实战：如何用Python快速提升模糊图片分辨率（附完整代码）

ESRGAN实战：用Python将模糊照片秒变高清的完整指南每次翻看老照片或低分辨率截图时，那种"要是能再清晰一点就好了"的遗憾感，相信很多人都有体会。传统图像放大技术往往让图片变得更模糊或出现锯齿，而基于深度学习的超分…...

2026/5/22 1:17:02 阅读更多 →

手撕CNN：从卷积计算到工程落地的全链路解析

1. 这不是“讲概念”的课，是带你亲手拆开CNN看齿轮怎么咬合你点开这篇，大概率不是为了背定义——可能刚被导师甩来一篇CVPR论文，满页的feature map、stride、padding看得头皮发麻；也可能在调一个图像分类模型，loss曲线…...

2026/6/23 10:08:12 阅读更多 →

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程

PVZ Toolkit完整指南：植物大战僵尸终极修改器使用教程【免费下载链接】pvztoolkit 植物大战僵尸 PC 版综合修改器项目地址: https://gitcode.com/gh_mirrors/pv/pvztoolkit PVZ Toolkit是一款专为经典游戏植物大战僵尸设计的综合修改器，它为玩家…...

2026/6/22 7:39:46 阅读更多 →

嵌入式功能安全实践：NXP IEC60730B安全库核心测试与集成指南

1. 项目概述与功能安全背景在嵌入式系统开发领域，尤其是涉及家电、工业控制、汽车电子等安全关键型应用时，仅仅实现功能正确是远远不够的。系统必须在整个生命周期内，具备检测并响应内部硬件故障的能力，以防止因随机硬件失效导致…...

2026/6/23 1:26:41 阅读更多 →

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命

XXMI启动器：6款热门二次元游戏模组管理的技术实现与效率革命【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher XXMI启动器是一款专为二次元游戏模组管理设计的开源平台…...

2026/6/23 16:02:29 阅读更多 →