通义千问1.5-1.8B-Chat本地部署实测：小白也能快速搭建AI对话机器人

张

张建站

2026/5/21 7:46:44

10分钟阅读

通义千问1.5-1.8B-Chat本地部署实测小白也能快速搭建AI对话机器人想不想在本地电脑上拥有一个专属的、能随时聊天的AI助手不用联网不用担心隐私想聊多久聊多久。今天我就带你亲手搭建一个。我们用的主角是通义千问1.5-1.8B-Chat-GPTQ-Int4一个经过“瘦身”处理的小巧模型。别看它只有18亿参数但对话能力相当不错最关键的是它对电脑配置要求非常友好普通笔记本电脑就能流畅运行。整个搭建过程我会用最直白的话讲清楚你只需要跟着步骤一步步来半小时内就能看到你的AI机器人开口说话。我们开始吧。1. 准备工作理解我们要做什么在动手之前我们先花两分钟搞清楚这个“机器人”是怎么工作的这样后面操作起来心里更有底。你可以把它想象成一个“大脑”和一个“聊天窗口”。大脑就是通义千问模型本身。它被封装在一个叫“镜像”的软件包里里面包含了运行所需的一切环境。我们通过一个叫vllm的工具来启动它这个工具能让模型跑得又快又省资源。聊天窗口我们用一个叫chainlit的轻量级工具来制作。它就像一个网页版聊天界面你在这个窗口里打字提问“大脑”思考后会把答案传回这个窗口显示给你。我们的任务很简单先把“大脑”启动起来然后再打开“聊天窗口”去连接它。整个过程都在你的电脑上完成数据不出本地安全又方便。2. 环境搭建与模型部署好了理论部分结束我们开始动手。第一步是让“大脑”运转起来。2.1 获取与启动模型镜像这里我们选择了一种对小白最友好的方式使用预置的Docker镜像。Docker可以理解为一个“软件集装箱”我们把模型和它需要的所有环境都打包在里面了你不需要自己折腾复杂的Python环境或依赖库。假设你已经安装好了Docker那么只需要一行命令就能把我们的“大脑”下载并运行起来docker run -d --name qwen-chat \ -p 8000:8000 \ -v /your/local/path:/app/data \ registry.cn-hangzhou.aliyuncs.com/your_mirror/qwen1.5-1.8b-chat-gptq-int4:latest我来解释一下这行命令在做什么docker run -d告诉Docker在后台运行一个容器。--name qwen-chat给这个容器起个名字方便管理。-p 8000:8000把容器内部的8000端口映射到你电脑的8000端口。这样你就能通过访问localhost:8000来和模型交互了。-v /your/local/path:/app/data把你电脑上的一个文件夹挂载到容器里。这样模型生成的一些临时文件或你想让它读取的文档都可以放在这个文件夹里。记得把/your/local/path换成你电脑上真实的路径比如D:\ai_project\data。最后一段是镜像的地址它指向存放我们“大脑集装箱”的仓库。执行完这条命令后Docker就会自动去拉取镜像并运行。第一次运行需要下载镜像会花一些时间请耐心等待。2.2 验证模型服务是否成功启动模型启动需要一点时间加载权重文件。我们怎么知道它准备好了呢一个简单的方法是查看日志。执行下面的命令进入正在运行的容器内部查看日志docker logs -f qwen-chat你会看到屏幕上开始滚动很多信息。当看到类似下面的关键信息时就说明模型“大脑”已经成功唤醒在8000端口上等待连接了INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit) INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete.看到Application startup complete就大功告成了。你可以按CtrlC退出日志查看模型服务会在后台继续运行。3. 启动聊天界面并开始对话“大脑”准备好了现在我们来打开那个漂亮的“聊天窗口”。3.1 安装并启动ChainlitChainlit是我们的聊天界面工具它是一个Python库安装非常简单。请确保你的电脑上已经安装了Python3.8以上版本。打开一个终端或命令行窗口输入pip install chainlit安装完成后我们需要创建一个简单的Python脚本来告诉Chainlit去哪里找我们的模型“大脑”。新建一个文件命名为app.py用任何文本编辑器打开它输入以下内容import chainlit as cl from openai import OpenAI # 配置客户端连接到我们本地启动的模型服务 client OpenAI( base_urlhttp://localhost:8000/v1, # 模型服务的地址 api_keyno-key-required # 本地部署不需要密钥 ) cl.on_message async def main(message: cl.Message): 这是主要的消息处理函数。每当用户在界面发送消息这个函数就会被调用。 # 创建一个消息对象告诉用户我们正在思考 msg cl.Message(content) await msg.send() # 调用本地模型获取回答 response client.chat.completions.create( modelQwen1.5-1.8B-Chat, # 模型名称 messages[ {role: system, content: 你是一个乐于助人的AI助手。}, {role: user, content: message.content} ], streamTrue, # 启用流式输出让回答一个字一个字显示出来 max_tokens1024 ) # 流式接收模型的回答并实时显示到界面上 for chunk in response: if chunk.choices[0].delta.content is not None: await msg.stream_token(chunk.choices[0].delta.content) # 流式输出完成更新最终消息 await msg.update()保存这个文件。然后在终端里进入到存放app.py文件的目录运行chainlit run app.py稍等片刻你的默认浏览器会自动打开一个新页面地址是http://localhost:8000如果没自动打开你可以手动输入这个地址。一个简洁、现代的聊天界面就出现在你眼前了3.2 开始你的第一次AI对话现在激动人心的时刻到了。在聊天界面底部的输入框里尝试问它一些问题吧比如“你好请介绍一下你自己。”“用Python写一个快速排序的代码。”“帮我写一封感谢信的模板。”“夏天的夜晚有什么特点”你会发现回答是一个字一个字“流式”出现的就像真人在打字一样体验非常好。你可以问任何你想问的它都会尽力回答。因为模型在本地响应速度非常快几乎感觉不到延迟。4. 进阶使用与实用技巧成功对话之后你可能想让它变得更强大、更好用。这里有几个小技巧。4.1 调整模型参数以获得更好效果在app.py的client.chat.completions.create函数里有几个参数可以调整就像给机器人调校性格max_tokens控制回答的最大长度。如果你发现回答总是被截断可以把这个数字调大比如2048。temperature可以添加这个参数默认可能没有它控制回答的随机性。范围在0到2之间。值越低如0.1回答越确定、保守值越高如0.9回答越有创意、越多样。你可以根据需求试试。stream我们已经设为True了这能获得最好的交互体验。4.2 尝试不同的系统指令System Prompt在代码的messages列表里有一个role为system的消息。这条消息是给模型的“背景设定”或“角色指令”它会在背后悄悄影响模型的回答风格。你可以修改content里的文字来让你的AI助手扮演不同角色默认助手“你是一个乐于助人、尊重他人且无害的AI助手。”专业程序员“你是一个经验丰富的全栈开发工程师擅长Python和JavaScript回答要专业且给出可执行的代码。”简洁的总结者“请用最简洁的语言直接回答核心问题不要展开说明。”修改后保存app.py然后在终端里按CtrlC停止Chainlit再重新运行chainlit run app.py刷新浏览器页面你会发现助手的说话风格变了。4.3 管理你的本地服务停止服务当你不想用的时候在运行docker logs或chainlit run的终端里按CtrlC即可停止。再次启动模型容器qwen-chat一旦创建停止后再次启动非常快。使用docker start qwen-chat启动容器然后再运行chainlit run app.py即可。查看资源占用可以打开系统任务管理器或使用docker stats命令看看你的“AI大脑”占用了多少CPU和内存。对于这个1.8B的量化版本在普通电脑上占用通常很低。5. 常见问题与排错指南第一次搭建难免会遇到一些小问题。这里列出几个常见的帮你快速解决。问题运行docker run命令时提示“端口被占用”。解决这说明你电脑的8000端口已经被别的程序比如另一个测试服务用了。有两个办法1在命令里把-p 8000:8000改成-p 8080:8000这样你就可以通过localhost:8080访问了同时记得把app.py里的base_url也改成http://localhost:8080/v1。2找到并关闭占用8000端口的程序。问题Chainlit界面打开了但发送消息后一直显示“思考中”不回答。解决这通常是Chainlit没连上模型服务。请按顺序检查确保模型容器正在运行docker ps看看有没有qwen-chat这个容器。确保模型服务已完全启动用docker logs qwen-chat查看日志确认有Application startup complete。检查app.py里的base_url地址和端口号是否和模型服务的一致。问题模型回答速度很慢或者内容很奇怪。解决首先确认电脑资源是否充足可以关闭一些其他大型软件。其次检查是否为第一次提问模型首次加载需要时间后续问题会快很多。如果内容奇怪可以尝试在系统指令里加强约束比如明确要求“用中文回答”。问题我想彻底删除这个模型容器重新开始。解决执行以下命令注意这会删除所有相关数据docker stop qwen-chat # 停止容器 docker rm qwen-chat # 删除容器 # 如果你想连镜像也删除下次运行需重新下载 docker rmi registry.cn-hangzhou.aliyuncs.com/your_mirror/qwen1.5-1.8b-chat-gptq-int4:latest6. 总结跟着上面的步骤走一遍你现在应该已经拥有了一个运行在本地的、专属的AI对话机器人。我们来回顾一下最关键的三步一键部署模型用一条Docker命令把封装好的模型服务跑起来。快速启动界面写一个简单的Python脚本用Chainlit拉起一个网页聊天窗口。开始智能对话在浏览器里输入问题享受即时、私密的AI交流。整个过程没有复杂的深度学习框架安装没有令人头疼的环境配置真正做到了“开箱即用”。这个1.8B的模型在普通电脑上运行流畅对话能力足以满足日常学习、编程辅助、创意写作和娱乐聊天的需求。它的意义在于你以极低的门槛获得了一个完全受控于本地的AI能力。你可以随意测试、修改、发问不用担心网络不用担心隐私。无论是作为编程学习伙伴还是作为记录灵感的工具它都是一个非常棒的起点。动手试试吧感受一下在本地驾驭AI的乐趣。当你看到自己电脑上跑起来的AI机器人给出第一个回答时那种成就感就是技术带给我们的最直接的快乐。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。