MacBook上从零搞定LangChain：Python环境、ChromaDB持久化与OpenAI集成保姆级教程

张

张建站

2026/5/30 12:23:55

10分钟阅读

MacBook上从零搞定LangChainPython环境、ChromaDB持久化与OpenAI集成保姆级教程1. 环境准备打造MacOS专属Python开发环境对于刚接触AI开发的Mac用户来说环境配置往往是第一个拦路虎。不同于Windows系统MacOS自带的Python版本通常较旧且系统对Python环境的保护机制更为严格。我们先从最基础的Python环境搭建开始。1.1 使用Homebrew安装Python3Homebrew是MacOS上最受欢迎的包管理器它能帮我们优雅地解决依赖问题。打开终端(Terminal)执行以下命令安装Homebrew/bin/bash -c $(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)安装完成后建议将Homebrew添加到PATH环境变量echo eval $(/opt/homebrew/bin/brew shellenv) ~/.zshrc source ~/.zshrc现在可以安装Python3了brew install python3.10注意如果遇到Updating Homebrew...卡住的情况可以按ControlC跳过更新直接安装。安装完成后验证Python版本python3 --version1.2 配置Python环境变量为了避免与系统Python冲突我们需要明确指定使用Homebrew安装的Python。编辑shell配置文件nano ~/.zshrc添加以下内容路径可能因安装版本不同而有所变化export PATH/opt/homebrew/opt/python3.10/bin:$PATH alias python/opt/homebrew/bin/python3 alias pip/opt/homebrew/bin/pip3保存后执行source ~/.zshrc1.3 解决常见依赖问题在Mac上安装AI相关库时可能会遇到HNSWLIB_NO_NATIVE1错误。这是因为某些库需要编译原生扩展。提前设置这个环境变量可以避免问题echo export HNSWLIB_NO_NATIVE1 ~/.zshrc source ~/.zshrc2. 核心组件安装LangChain与ChromaDB实战2.1 安装LangChain生态现在可以安装LangChain及其相关组件了。建议先升级pippython -m pip install --upgrade pip然后安装核心库pip install langchain chromadb openai tiktoken小技巧如果下载速度慢可以尝试使用清华镜像源pip install -i https://pypi.tuna.tsinghua.edu.cn/simple langchain chromadb2.2 验证安装创建一个简单的Python脚本test_env.pyimport langchain import chromadb print(LangChain版本:, langchain.__version__) print(ChromaDB版本:, chromadb.__version__)运行脚本python test_env.py如果能看到版本号输出说明基础环境已就绪。3. ChromaDB持久化存储实战3.1 基础CRUD操作让我们先了解ChromaDB的基本使用方法import chromadb # 创建内存中的客户端 client chromadb.Client() # 创建集合(类似数据库表) collection client.create_collection(nametest_collection) # 添加文档 collection.add( documents[苹果是一种水果, 香蕉是热带水果, 汽车是交通工具], metadatas[{type: 水果}, {type: 水果}, {type: 交通工具}], ids[id1, id2, id3] ) # 查询 results collection.query( query_texts[水果], n_results2 ) print(results)3.2 实现磁盘持久化实际项目中我们需要将向量数据库持久化到磁盘from chromadb.config import Settings # 持久化目录 persist_dir chroma_storage # 配置持久化设置 client chromadb.Client(Settings( persist_directorypersist_dir, chroma_db_implduckdbparquet, )) # 创建持久化集合 collection client.create_collection(persisted_data) # 添加数据 collection.add( documents[Python是一种编程语言, LangChain是AI框架, ChromaDB是向量数据库], ids[doc1, doc2, doc3] ) # 显式持久化到磁盘 client.persist() # 重新加载验证 new_client chromadb.Client(Settings( persist_directorypersist_dir, chroma_db_implduckdbparquet, )) loaded_collection new_client.get_collection(persisted_data) print(loaded_collection.count()) # 应输出34. OpenAI集成与高级应用4.1 配置OpenAI API首先需要获取OpenAI API密钥然后在代码中配置import os os.environ[OPENAI_API_KEY] 你的API密钥4.2 使用OpenAI EmbeddingsLangChain提供了便捷的OpenAI集成方式from langchain.embeddings.openai import OpenAIEmbeddings embeddings OpenAIEmbeddings() # 生成文本的向量表示 text 这是要向量化的文本 query_result embeddings.embed_query(text) doc_result embeddings.embed_documents([text]) print(f查询向量长度: {len(query_result)}) print(f文档向量长度: {len(doc_result[0])})4.3 完整知识库应用结合LangChain和ChromaDB构建完整应用from langchain.document_loaders import TextLoader from langchain.text_splitter import CharacterTextSplitter from langchain.vectorstores import Chroma # 加载文档 loader TextLoader(knowledge.txt) documents loader.load() # 分割文档 text_splitter CharacterTextSplitter(chunk_size1000, chunk_overlap200) texts text_splitter.split_documents(documents) # 创建向量存储 vectorstore Chroma.from_documents( documentstexts, embeddingOpenAIEmbeddings(), persist_directoryknowledge_db ) # 持久化 vectorstore.persist() # 查询 query LangChain是什么 docs vectorstore.similarity_search(query) print(docs[0].page_content)5. 性能优化与问题排查5.1 提高ChromaDB性能对于大型数据集可以调整这些参数client chromadb.Client(Settings( persist_directoryoptimized_db, chroma_db_implduckdbparquet, anonymized_telemetryFalse, # 禁用遥测提升性能 allow_resetTrue # 允许重置数据库 ))5.2 常见错误解决问题1Illegal instruction: 4解决方案设置环境变量export HNSWLIB_NO_NATIVE1问题2ConnectionErrorwhen calling OpenAI API解决方案检查网络连接或使用代理设置import openai openai.api_key 你的API密钥 openai.proxy http://proxy.example.com:8080问题3ValueError: Expected embedding dimension 1536 but got 768解决方案确保使用的嵌入模型一致OpenAIEmbeddings(modeltext-embedding-ada-002)6. 实际项目结构建议一个规范的LangChain项目可以这样组织my_langchain_project/ ├── config/ │ └── settings.py # 存放API密钥等配置 ├── data/ │ ├── raw/ # 原始文档 │ └── processed/ # 处理后的数据 ├── db/ # 向量数据库存储 ├── src/ │ ├── loaders.py # 文档加载器 │ ├── embeddings.py # 嵌入处理 │ └── query.py # 查询逻辑 └── requirements.txt # 依赖列表在settings.py中管理配置import os class Settings: OPENAI_API_KEY os.getenv(OPENAI_API_KEY, 你的API密钥) PERSIST_DIR os.path.join(os.path.dirname(__file__), ../db) settings Settings()7. 进阶技巧与最佳实践7.1 批量处理大型文档对于大型文档可以使用以下优化策略from langchain.document_loaders import DirectoryLoader # 批量加载目录下的所有txt文件 loader DirectoryLoader(./data/, glob**/*.txt, loader_clsTextLoader) # 使用多线程加载 documents loader.load() # 更智能的文本分割 from langchain.text_splitter import RecursiveCharacterTextSplitter text_splitter RecursiveCharacterTextSplitter( chunk_size1000, chunk_overlap200, length_functionlen, separators[\n\n, \n, 。, , , , ] )7.2 混合检索策略结合多种检索方式提高准确性from langchain.retrievers import BM25Retriever, EnsembleRetriever from langchain.vectorstores import Chroma # 创建向量检索器 vectorstore Chroma(persist_directoryknowledge_db, embedding_functionOpenAIEmbeddings()) vector_retriever vectorstore.as_retriever(search_kwargs{k: 3}) # 创建BM25检索器 from langchain.retrievers import BM25Retriever bm25_retriever BM25Retriever.from_documents(texts) bm25_retriever.k 3 # 组合检索器 ensemble_retriever EnsembleRetriever( retrievers[bm25_retriever, vector_retriever], weights[0.5, 0.5] ) # 执行混合检索 results ensemble_retriever.get_relevant_documents(查询问题)7.3 监控与日志添加日志记录有助于调试import logging logging.basicConfig( levellogging.INFO, format%(asctime)s - %(name)s - %(levelname)s - %(message)s, handlers[ logging.FileHandler(langchain.log), logging.StreamHandler() ] ) logger logging.getLogger(__name__) try: # 你的LangChain代码 logger.info(操作成功完成) except Exception as e: logger.error(f发生错误: {str(e)}, exc_infoTrue)

基于Arduino与MPU-6050的自平衡机器人：从PID控制到传感器融合实践

1. 项目概述：从零搭建一个会“思考”的平衡机器人几年前我第一次看到两轮平衡车时，就被它那种“反重力”般的稳定感深深吸引。它不像四轮车那样依赖宽大的支撑面，而是像人一样，通过不断的微小调整来对抗倾倒的趋势。这种动态平衡背…...

2026/5/30 12:23:54 阅读更多 →

技术揭秘：浏览器脚本如何优雅解决网盘下载限速难题

技术揭秘：浏览器脚本如何优雅解决网盘下载限速难题【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...

2026/5/30 12:23:15 阅读更多 →

3DS游戏格式转换神器：5分钟让.3ds文件变身可安装CIA

3DS游戏格式转换神器：5分钟让.3ds文件变身可安装CIA 【免费下载链接】3dsconv Python script to convert Nintendo 3DS CCI (".cci", ".3ds") files to the CIA format 项目地址: https://gitcode.com/gh_mirrors/3d/3dsconv 还在为3DS游…...

2026/5/30 12:21:58 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/28 16:28:31 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/29 8:30:06 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/30 1:26:17 阅读更多 →