Qwen3本地部署教程:使用VMware虚拟机搭建测试环境
Qwen3本地部署教程使用VMware虚拟机搭建测试环境想试试最新的Qwen3大模型但手头没有高性能的显卡或者只是想先低成本体验一下别担心今天我就带你走一遍用VMware虚拟机搭建Qwen3测试环境的完整流程。这个方法特别适合那些暂时没有物理GPU或者想在投入真金白银升级硬件前先摸摸底、跑跑看的朋友。咱们的目标很明确用你现有的电脑通过虚拟机软件模拟出一个Linux系统然后在这个“虚拟电脑”里把Qwen3跑起来。整个过程我会尽量讲得细一些从虚拟机怎么装系统怎么配到模型怎么下、怎么跑一步步来。即使你对Linux不熟跟着做也能搞定。1. 为什么选择虚拟机方案你可能听过跑大模型最好有张好显卡。这话没错但很多时候我们只是想先测试一下看看模型效果怎么样或者学习一下部署流程。这时候专门去买张显卡或者租用云服务器成本就有点高了。用VMware虚拟机的好处有几个。第一是成本低软件本身有免费版本不需要额外硬件。第二是隔离性好你在虚拟机里随便折腾不会影响到你电脑上正常的工作环境玩崩了删掉重来就行。第三是灵活你可以随时调整虚拟机的配置比如给它分配更多内存或者CPU核心来适应不同的测试需求。当然虚拟机性能肯定比不上物理机直装尤其是没有GPU直通的情况下模型推理会慢不少。但作为功能验证、流程学习和轻量级测试这套方案是完全够用的。咱们先把路跑通后面再考虑优化性能的事。2. 准备工作与环境搭建工欲善其事必先利其器。在开始之前咱们得先把“工具箱”准备好。2.1 所需软件与资源清单你需要准备下面这几样东西VMware Workstation Player这是虚拟机软件。个人非商业用途可以免费使用去VMware官网就能下载到。Linux系统镜像我们选用Ubuntu 22.04 LTS。这是一个非常流行、社区支持完善的Linux发行版对新手也比较友好。同样去Ubuntu官网下载桌面版或服务器版的ISO镜像文件。足够的磁盘空间建议给虚拟机预留至少50GB的硬盘空间。Qwen3的模型文件本身就有十几个GB再加上系统、Python环境和其他依赖空间大点没坏处。一台不算太旧的电脑你的宿主机也就是你正在用的电脑最好有8GB以上的物理内存CPU是近几年的i5或同等性能以上的型号。这样分给虚拟机资源后两边都还能比较流畅地运行。2.2 创建并配置Ubuntu虚拟机打开安装好的VMware Workstation Player点击“创建新虚拟机”。选择安装来源这里我们选“安装程序光盘映像文件(iso)”然后浏览找到你下载好的Ubuntu 22.04的ISO文件。个性化Linux设置一个你喜欢的虚拟机名称比如“Qwen3-Test”。输入用户名和密码这个等下登录系统要用记住它。指定磁盘容量我建议设置成80GB并将虚拟磁盘存储为单个文件这样管理起来简单。不用担心这80GB是“虚拟”的不会立刻从你电脑硬盘里划走80GB而是随着虚拟机里文件增多慢慢占用。自定义硬件关键步骤在最后一步点击“自定义硬件”。这里需要根据你电脑的实际情况来调整内存至少分配给虚拟机4GB (4096 MB)。如果你的宿主机有16GB内存分8GB给虚拟机会更流畅。处理器分配2个核心如果宿主机核心多可以分4个。网络适配器选择“NAT模式”这样虚拟机就能通过宿主机的网络上网了方便我们下载东西。其他显示器、声卡这些保持默认就行。配置完成后点击完成VMware就会开始创建虚拟机并自动启动安装程序。接下来的Ubuntu系统安装过程基本都是图形化界面跟着提示点“下一步”、“继续”就行选择“清除整个磁盘并安装Ubuntu”语言选中文或英文看你自己习惯。安装过程需要一些时间泡杯茶等着就好。3. Ubuntu系统基础配置系统安装好第一次启动进入Ubuntu桌面后有几件基础的事情需要先做一下让系统更顺手也为后续部署铺路。3.1 系统更新与必要工具安装首先打开“终端”可以在程序列表里找或者按CtrlAltT快捷键。在终端里我们通过命令来操作。第一步永远是更新软件包列表并升级已有的软件。复制粘贴下面的命令回车执行过程中可能需要输入你之前设置的密码。sudo apt update sudo apt upgrade -ysudo表示以管理员权限运行apt是Ubuntu的包管理工具update是更新列表upgrade是升级软件-y是自动回答“是”省去确认环节。接下来安装一些我们后续肯定会用到的工具比如用于下载文件的wget、解压工具、编译工具等。sudo apt install -y wget curl git build-essential3.2 安装Python与PipQwen3的运行依赖Python环境。Ubuntu 22.04默认可能已经安装了Python 3但我们最好确认一下并安装Python的包管理工具pip。# 检查Python3版本 python3 --version # 安装pip3 sudo apt install -y python3-pip安装完成后我们可以升级一下pip到最新版并设置一个国内的镜像源这样后续安装Python包速度会快很多。pip3 install --upgrade pip pip3 config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple4. 部署Qwen3模型环境准备好了现在进入正题把Qwen3模型请到我们的虚拟机里来。4.1 获取模型文件Qwen3模型有多种尺寸从0.5B到72B不等。为了在虚拟机资源有限的环境下能跑起来我们选择较小的版本比如Qwen2.5-1.5B-Instruct或Qwen2.5-3B-Instruct。它们在保持不错能力的同时对内存和CPU的要求友好得多。我们需要从模型仓库下载模型文件。这里以Hugging Face为例我们可以使用git命令来克隆如果仓库支持或者用huggingface-cli工具。先安装这个工具pip3 install huggingface-hub然后我们创建一个专门的目录来存放模型并使用huggingface-cli下载。由于模型较大下载需要时间请保持网络连接。# 创建一个工作目录 mkdir ~/qwen3_test cd ~/qwen3_test # 使用huggingface-cli下载模型示例请替换为实际模型ID # 你需要先去 huggingface.co 确认你想下载的模型的具体仓库名 huggingface-cli download Qwen/Qwen2.5-1.5B-Instruct --local-dir ./model --local-dir-use-symlinks False注意上面的Qwen/Qwen2.5-1.5B-Instruct是一个示例路径。请根据你在Hugging Face上查到的确切模型ID进行替换。如果下载速度慢也可以考虑先在国内的镜像站如ModelScope寻找模型使用git clone的方式下载。4.2 安装运行依赖Qwen3通常可以通过transformers库来加载和运行。我们安装必要的Python包。pip3 install transformers torch acceleratetransformers是Hugging Face的核心库torch是PyTorch深度学习框架accelerate可以帮助优化模型在CPU上的推理。如果你的虚拟机配置了GPU直通这需要宿主机有独立显卡且VMware和主机BIOS支持VT-d/AMD-Vi步骤较复杂本篇不展开那么可以安装对应CUDA版本的PyTorch以获得GPU加速。对于纯CPU环境安装上述命令中的torch会自动获取CPU版本。5. 运行与测试你的Qwen3模型和依赖都齐了我们来写一个简单的Python脚本测试一下模型是否能正常对话。在你刚才创建的~/qwen3_test目录下新建一个文件比如叫test_qwen.py。cd ~/qwen3_test nano test_qwen.py然后用文本编辑器这里用了nano按CtrlX然后按Y再回车可以保存退出将以下代码粘贴进去from transformers import AutoModelForCausalLM, AutoTokenizer # 指定模型路径就是你刚才下载的模型目录 model_path ./model print(正在加载模型和分词器首次加载可能需要几分钟...) # 加载分词器和模型 tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( model_path, device_mapauto, # 自动分配设备CPU或GPU trust_remote_codeTrue ) print(模型加载完成) # 准备对话 messages [ {role: user, content: 你好请介绍一下你自己。} ] # 将对话格式化为模型接受的输入 text tokenizer.apply_chat_template( messages, tokenizeFalse, add_generation_promptTrue ) # 对输入进行编码 model_inputs tokenizer([text], return_tensorspt).to(model.device) # 生成回复 generated_ids model.generate( **model_inputs, max_new_tokens512 # 控制生成文本的最大长度 ) generated_ids [ output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids) ] # 解码并打印回复 response tokenizer.batch_decode(generated_ids, skip_special_tokensTrue)[0] print(\n 模型回复 ) print(response)保存文件后在终端里运行它python3 test_qwen.py第一次运行会加载模型这个过程会比较慢需要耐心等待几分钟。加载完成后你应该能看到模型生成的自我介绍。恭喜你你的Qwen3已经在虚拟机里成功跑起来了6. 在资源受限环境下的优化建议虚拟机环境资源有限为了让体验更顺畅这里有几个小建议关闭不必要的图形界面如果你不需要Ubuntu的桌面环境可以在安装时选择安装Ubuntu Server版本或者安装后使用sudo systemctl set-default multi-user.target切换到纯命令行模式可以节省大量内存和CPU资源。调整虚拟机资源如果测试时感觉卡顿可以尝试关闭虚拟机然后在VMware设置里给它分配更多的内存和CPU核心前提是你的宿主机资源充足。使用量化模型如果觉得1.5B或3B的模型还是太大、太慢可以去寻找GGUF格式的量化模型。这类模型通过降低精度如从FP16降到INT4来大幅减小模型体积和提升CPU推理速度可以使用llama.cpp等工具来运行。这是资源受限环境下非常实用的方案。利用交换空间如果物理内存不足可以适当增加Ubuntu虚拟机的交换空间Swap作为内存的补充避免程序因内存不足而崩溃。但注意交换空间使用硬盘速度比内存慢得多。7. 总结与后续走完这一趟你应该已经成功在VMware虚拟机里搭建起了一个可以运行Qwen3的Linux测试环境。整个过程从零开始涵盖了虚拟机的创建、Linux系统的配置、Python环境的搭建、模型的下载以及最终的运行测试。对于测试和学习目的来说这套基于虚拟机的方案已经足够。它最大的优点就是安全、灵活、成本低让你可以毫无压力地尝试各种操作。当然你也感受到了在纯CPU上运行模型响应速度确实没法跟GPU比。如果你测试后觉得满意未来想要更快的速度进行更深入的开发那么可以考虑升级物理硬件添置显卡或者转向云服务器租赁。现在你的虚拟实验室已经建好了。接下来你可以尝试用不同的提示词和模型对话或者探索一下如何将模型集成到一个简单的Web应用里。最重要的是你亲手打通了从零部署的整个流程这份经验比什么都宝贵。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。