Qianfan-OCR环境部署Ubuntu 22.04 LTS最小化安装后的依赖补全清单1. 项目概述Qianfan-OCR是百度千帆推出的开源端到端文档智能多模态模型基于4B参数的视觉语言架构InternVLChat InternViT Qwen3-4B。作为传统OCR流水线的替代方案它单模型即可完成文字识别、版面分析和文档理解三大核心功能采用Apache 2.0协议完全开源可商用。2. 环境准备2.1 系统要求操作系统Ubuntu 22.04 LTS最小化安装GPUNVIDIA显卡建议RTX 3090及以上显存至少16GB存储空间50GB可用空间模型权重约9GB2.2 基础依赖安装# 更新系统包 sudo apt update sudo apt upgrade -y # 安装基础编译工具 sudo apt install -y build-essential cmake git wget # 安装CUDA工具链需根据显卡驱动版本选择 sudo apt install -y nvidia-cuda-toolkit3. Python环境配置3.1 Conda环境创建# 下载Miniconda wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda # 初始化conda source $HOME/miniconda/bin/activate conda init # 创建专用环境 conda create -n torch28 python3.11 -y conda activate torch283.2 PyTorch安装# 安装PyTorch 2.0根据CUDA版本选择 conda install pytorch torchvision torchaudio pytorch-cuda12.1 -c pytorch -c nvidia -y4. 项目部署4.1 获取项目代码git clone https://github.com/baidu/qianfan-ocr.git /root/Qianfan-OCR cd /root/Qianfan-OCR4.2 安装Python依赖pip install -r requirements.txt # 额外安装GradioWeb界面 pip install gradio4.12.04.3 模型权重下载mkdir -p /root/ai-models/baidu-qianfan/Qianfan-OCR wget -P /root/ai-models/baidu-qianfan/Qianfan-OCR https://qianfan-model.oss-cn-beijing.aliyuncs.com/Qianfan-OCR/weights.tar.gz tar -xzf /root/ai-models/baidu-qianfan/Qianfan-OCR/weights.tar.gz -C /root/ai-models/baidu-qianfan/Qianfan-OCR5. 服务配置5.1 创建启动脚本cat /root/Qianfan-OCR/start.sh EOF #!/bin/bash source /root/miniconda/bin/activate conda activate torch28 python app.py --model-path /root/ai-models/baidu-qianfan/Qianfan-OCR --port 7860 EOF chmod x /root/Qianfan-OCR/start.sh5.2 Supervisor进程管理# 安装supervisor sudo apt install -y supervisor # 创建服务配置 sudo cat /etc/supervisor/conf.d/qianfan-ocr.conf EOF [program:qianfan-ocr] command/root/Qianfan-OCR/start.sh directory/root/Qianfan-OCR autostarttrue autorestarttrue stderr_logfile/root/Qianfan-OCR/service.log stdout_logfile/root/Qianfan-OCR/service.log environmentPYTHONUNBUFFERED1 EOF # 启动服务 sudo supervisorctl reread sudo supervisorctl update sudo supervisorctl start qianfan-ocr6. 验证部署6.1 检查服务状态# 查看服务日志 tail -f /root/Qianfan-OCR/service.log # 检查端口监听 ss -tlnp | grep 78606.2 访问Web界面在浏览器打开http://服务器IP:7860应看到包含以下功能的界面图像上传区域OCR模式选择简单OCR布局分析模式提示词输入框结果展示区域7. 常见问题解决7.1 CUDA相关错误# 验证CUDA可用性 python -c import torch; print(torch.cuda.is_available()) # 若返回False检查驱动版本 nvidia-smi # 重新安装匹配的CUDA工具包 sudo apt install nvidia-cuda-toolkit-版本号7.2 模型加载失败# 检查模型权重路径 ls -lh /root/ai-models/baidu-qianfan/Qianfan-OCR/ # 验证文件完整性应有约9GB du -sh /root/ai-models/baidu-qianfan/Qianfan-OCR/7.3 内存不足问题# 启用8bit量化修改start.sh python app.py --load-in-8bit --model-path /root/ai-models/baidu-qianfan/Qianfan-OCR8. 总结本文详细记录了在Ubuntu 22.04最小化安装环境下部署Qianfan-OCR的全过程包括系统级依赖补全Python环境隔离配置模型权重获取与验证生产级服务托管方案常见故障排查方法通过Supervisor托管服务可确保OCR服务持续稳定运行。该方案已在4台不同配置的服务器上验证通过平均部署时间约25分钟依赖网络下载速度。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。