基于 GitHub 17.8K Star 的开源 RAG 项目我们做了什么为什么做接下来要做什么前言大家好我是张大鹏。最近在研究 RAG检索增强生成相关的开源项目想找到一个适合做二次开发的底座用来搭建面向国内用户的私有 AI 知识库平台。看了一圈下来最终选定了 DocsGPT。这是一个 GitHub 上 17.8K Star 的开源项目功能非常全面架构也很清晰。但原版是面向海外用户的全英文界面文档也是英文的直接拿来用不太合适。所以我们做了一轮二次开发中文化、清理、重构。这篇文章就是来聊聊这个过程以及我们后续的计划。DocsGPT 是什么DocsGPT 是一个开源的 AI 知识库平台核心能力是RAG Agent。简单来说你可以把各种文档PDF、Word、Excel、网页、音频等丢给它它会自动解析、向量化然后你就可以用自然语言去提问它会基于你的文档内容给出准确的回答并且附带来源引用。核心功能广泛的格式支持PDF、DOCX、CSV、XLSX、EPUB、MD、HTML、JSON、PPTX、图片、音频MP3、WAV、M4A 等语音工作流支持语音输入、音频转录、会议录音导入多模型支持兼容 OpenAI、Google、Anthropic 等云端模型也支持 Ollama、vLLM、llama.cpp 等本地推理引擎Agent 系统支持 Classic、Agentic、Research、Workflow 四种 Agent 类型工具链内置 API Tool、Brave Search、Postgres、Telegram 等工具支持自定义开发丰富的集成React/HTML 聊天组件、搜索组件、Discord/Telegram 机器人、Chatwoot 扩展灵活部署Docker Compose 一键部署支持 Kubernetes 生产级部署技术架构┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ Frontend │────▶│ Backend API │────▶│ LLM Layer │ │ React/Vite │ │ Flask │ │ 多模型适配 │ └─────────────┘ └──────┬──────┘ └─────────────┘ │ ┌────────────┼────────────┐ │ │ │ ┌─────▼─────┐ ┌───▼───┐ ┌─────▼─────┐ │ VectorStore│ │Postgres│ │ Redis │ │ 向量存储 │ │ 用户数据│ │ 缓存/队列 │ └───────────┘ └───────┘ └───────────┘ │ ┌──────▼──────┐ │ Celery │ │ 异步任务队列 │ └─────────────┘后端是 Flask前端是 React Vite异步任务用 Celery Redis数据存储用 PostgreSQL向量存储支持 FAISS、Elasticsearch、Qdrant、Milvus 等多种后端。和同类项目对比项目Star语言Agent多模型本地部署工具链DocsGPT17.8KPython✅✅✅✅Dify60KPython✅✅✅✅FastGPT20KTypeScript❌✅✅✅MaxKB15KPython❌✅✅❌Dify 功能最全但比较重FastGPT 前端好看但 Agent 能力弱MaxKB 轻量但扩展性差。DocsGPT 在功能全面性和架构清晰度之间找到了一个不错的平衡点。为什么选择 DocsGPT 做二次开发选 DocsGPT 有几个原因1. 架构清晰模块化设计DocsGPT 的代码组织得很好。后端的 LLM、向量存储、解析器、Agent、工具都是抽象的有统一的接口。想加新的模型提供商、新的向量后端、新的工具都很方便。# LLM 提供商统一接口示例application/llm/├── base.py# 基类├── openai.py# OpenAI├── google.py# Google├── anthropic.py# Anthropic└── ollama.py# Ollama# 向量存储统一接口application/vectorstore/├── base.py ├── faiss.py ├── elasticsearch.py ├── qdrant.py └── milvus.py2. 多模型支持不像有些项目只支持 OpenAIDocsGPT 原生支持 10 种云端和本地模型。这对国内用户很重要因为很多人想用 DeepSeek、通义千问、文心一言等国产模型。3. Agent 和工具链能力强DocsGPT 的 Agent 系统不只是简单的对话支持 Workflow 编排、Webhook 触发、异步任务还有完整的工具开发框架。这意味着你可以让它不只是回答问题还能执行操作。4. 原版的问题当然原版也有一些不适合直接用的地方全英文界面和文档国内用户用起来有门槛社区运营文件多CODE_OF_CONDUCT、CONTRIBUTING、HACKTOBERFEST 等对我们没用默认模型是海外的需要适配国内模型缺少中文社区支持遇到问题只能看英文文档所以二次开发是必要的。我们做了什么1. 清理开源社区文件删除了 24 个对私有项目无用的文件根目录CODE_OF_CONDUCT.md、CONTRIBUTING.md、HACKTOBERFEST.md、SECURITY.md、codecov.yml、.vale.ini、md-gen.py.github/FUNDING.yml、ISSUE_TEMPLATE/、PULL_REQUEST_TEMPLATE.md、THREAT_MODEL.md、holopin.yml、labeler.yml、dependabot.yml、styles/workflows/labeler.yml、npm-publish.yml、react-widget-build.yml、sync_fork.yaml、vale.yml、holopin.yml、zizmor.yml保留了核心 CI/CDpytest、lint、Docker 构建和 MIT LICENSE。2. 全面中文翻译翻译了 42 个文档文件约 5,150 行内容README.mddocs/content/ 下所有页面首页、快速开始、部署、Agent、工具、模型、扩展、指南所有 _meta.js 导航标题docs/public/llms.txt 文档导航地图翻译规则技术术语API、Docker、Kubernetes 等保留英文代码块、命令、URL 不翻译Mermaid 图表标签翻译为中文3. Nextra i18n 双语支持配置了 Nextra i18n默认中文可切换英文// docs/next.config.jsi18n:{locales:[zh,en],defaultLocale:zh,}// docs/theme.config.jsxi18n:[{locale:zh,text:中文},{locale:en,text:English},]用户访问/docs默认中文/docs/en切换英文。4. README 重构移除所有广告链接Discord、Twitter、博客、赞助商Badge 改为指向自己的仓库新增关于本项目章节标注大鹏AI教育和张大鹏5. 建立研究目录research/ ├── CSDN/ # CSDN 博客文章 │ └── 001-xxx.md ├── 公众号/ # 微信公众号文章 │ └── 001-xxx.md └── superpowers/ # 设计文档和实施计划 ├── specs/ └── plans/后续计划短期1-2 周前端界面中文化把 React 前端的硬编码英文全部翻译国内模型适配接入 DeepSeek、通义千问、文心一言部署教程写一套面向国内用户的 Docker 部署教程中期1-2 月Agent 实战系列用 DocsGPT 搭建各种实用 Agent工具开发系列自定义工具开发教程公众号运营同步发布技术文章长期中文社区建设建立中文交流群国产化适配适配更多国内模型和服务企业级功能权限管理、审计日志、多租户等总结DocsGPT 是一个非常优秀的开源 RAG Agent 平台架构清晰、功能全面、扩展性强。我们选择它作为二次开发的底座做了中文化、清理、重构等工作让它更适合国内用户使用。后续会持续更新分享更多关于 RAG、Agent、工具开发的实战经验。如果你也对 AI 知识库平台感兴趣欢迎关注交流。项目地址https://github.com/DaPengRuYi/DocsGPT作者张大鹏 | 大鹏AI教育