本文深入浅出地解析了大模型的技术链路从Tokenization分词到Embedding语义映射再到Transformer的核心架构与Attention注意力机制一步步揭示了大模型如何理解和生成语言。文章还详细介绍了预训练、指令微调、RLHF等关键训练阶段以及推理阶段如何逐Token生成回答。此外还探讨了RAG和Agent如何将大模型扩展为能查资料、能调用工具的应用系统并分析了大模型幻觉现象的技术成因及解决方案。全文旨在帮助读者清晰认识大模型的底层结构和训练流程理解其从“会续写”到“会协作”的能力演进。从 Token 到 Transformer大模型底层原理技术入门聊大模型时我们经常会听到一堆词Token、Embedding、Transformer、Attention、预训练、微调、RLHF、RAG、Agent。如果你刚开始从技术角度理解大模型很容易有一种感觉每个词都听过但它们之间到底怎么连起来好像还差一张地图。这篇文章就试着补上这张地图。我们不深挖复杂公式也不把文章写成论文而是从技术链路出发看看一句话从输入到输出会经历什么一个大模型从零到可用又大概经过哪些阶段。读完你会对大模型的底层结构和训练流程有一个更清晰的整体认识。大模型处理的不是“字”而是 Token在技术视角里第一件要理解的事是模型不能直接处理自然语言。我们输入的是文字模型真正处理的是数字。这中间的第一步叫Tokenization也就是分词或切词。它会把文本切成模型可以识别的最小片段这些片段就是Token。比如我喜欢人工智能可能会被切成我 / 喜欢 / 人工 / 智能英文单词也可能被拆开unbelievable可能会被切成un / believable为什么不直接按字切因为按字切会让序列变长计算成本更高。为什么不直接按完整词切因为词表会爆炸而且遇到新词、专业词、拼写变化时处理起来很麻烦。所以现代大模型通常使用一种折中方式把文本切成子词级别的 Token。Tokenization 之后每个 Token 会被映射成一个整数 ID。例如我 - 1024 喜欢 - 3812 人工 - 9045 智能 - 7721到这里文本已经变成了一串数字 ID。但问题还没结束。ID 只是编号编号本身没有语义。模型还需要把这些 ID 转成能表达语义关系的向量。Embedding把 Token 放进语义空间Token ID 会进入一个Embedding 层。Embedding 可以理解为一张巨大的查询表每个 Token ID 对应一个向量。这个向量不是普通坐标而是一个高维数字表示。比如一个 Token 可能被表示成[0.12, -0.47, 0.83, ...]这些数字没有单独可解释的含义但整体上能表达语义关系。在训练过程中模型会慢慢调整这些向量让经常在相似语境中出现的 Token在向量空间中更接近。例如“医生”和“医院”会建立某种关联。“函数”和“参数”会在编程语境中靠近。“利率”和“央行”会在金融语境中靠近。这就是 Embedding 的意义它把离散的文字碎片转换成连续的数学空间。不过仅有 Token 的语义还不够。模型还要知道 Token 的顺序。因为我喜欢你和你喜欢我Token 差不多但意思明显不同。所以模型还需要加入位置信息这就是Position Encoding或位置嵌入。它告诉模型每个 Token 在句子中的位置。Transformer大模型的核心骨架现在我们有了 Token 向量也有了位置信息。接下来它们会进入大模型的核心结构Transformer。Transformer 最早在 2017 年的论文《Attention Is All You Need》中提出。今天的大多数大语言模型底层都和 Transformer 架构密切相关。从宏观上看一个 Transformer 模型由很多层堆叠而成。每一层大致包含两类核心模块Self-Attention让 Token 之间互相“看见”。Feed Forward Network对每个位置的表示做进一步变换。你可以把每一层想象成一次“重新理解上下文”的过程。第一层可能学到比较浅的关系比如词性、局部搭配。更深的层可能学到句法结构、指代关系、逻辑关系甚至任务模式。多层堆叠之后每个 Token 的向量就不再只是它自己的含义而是融合了上下文后的表示。Attention让模型知道重点在哪里Transformer 最关键的能力来自Attention也就是注意力机制。它解决的问题是当模型处理某个 Token 时应该关注上下文中的哪些 Token比如小王把钥匙放进抽屉因为它很小。这里的“它”大概率指“钥匙”不是“抽屉”。模型要做的就是在处理“它”时给“钥匙”更高的注意力权重。Attention 的核心思想可以简化成三个向量Query当前 Token 想找什么信息。Key其他 Token 能提供什么信息。Value其他 Token 实际携带的信息。模型会用 Query 和 Key 计算相关性再根据相关性加权汇总 Value。简化来看就是当前词它 更关注钥匙 较少关注小王、放进、抽屉这使得模型能够动态捕捉上下文关系。更进一步大模型会使用Multi-Head Attention也就是多头注意力。多个注意力头可以从不同角度理解句子一个头关注语法结构。一个头关注指代关系。一个头关注时间顺序。一个头关注代码里的变量依赖。这也是 Transformer 强大的根源它不是按固定规则理解文本而是通过训练学会“在不同场景下该关注什么”。预训练大模型能力的来源有了模型结构还需要训练。大语言模型最重要的训练阶段叫预训练。预训练通常使用海量文本数据让模型学习语言规律和世界知识。对于很多生成式大模型来说常见目标是根据前面的 Token预测下一个 Token。比如训练样本是人工智能正在改变模型要预测下一个 Token 可能是世界 行业 教育 医疗训练系统知道真实答案是什么于是可以计算模型预测和真实答案之间的误差。这个误差叫Loss。训练过程大致是输入一段文本。模型预测下一个 Token。计算预测误差。使用反向传播更新参数。重复数万亿次类似过程。这就是大模型能力的来源。表面上看它只是在预测下一个 Token但在海量数据和巨大参数规模下它会学到很多复杂模式语言结构常识知识专业知识代码语法推理步骤对话格式文体风格所谓“涌现能力”很多时候就来自这种规模化训练。当模型、数据和计算量达到一定程度后一些原本不明显的能力会突然变得可用比如多步推理、代码生成、复杂指令跟随。指令微调让模型从“会续写”变成“会听话”预训练后的模型很强但它不一定好用。因为它学到的是“预测文本”不是“按用户要求完成任务”。如果你问它请总结这篇文章。未经指令微调的模型可能只是继续写类似的文本而不一定真的给你总结。所以还需要Instruction Tuning也就是指令微调。这个阶段会使用大量“指令-回答”数据让模型学习人类常见任务格式指令把下面这段话翻译成英文。 回答...指令解释这段代码的作用。 回答...指令请用三点总结这篇文章。 回答...经过指令微调后模型会更像一个助手能够理解“请你做什么”。这一步非常关键。没有它大模型可能更像一个强大的文本补全器有了它才更像我们今天使用的聊天助手。RLHF让模型更符合人类偏好指令微调之后模型能回答问题了但回答质量还不一定符合人类偏好。比如它可能语气生硬。回答太长或太短。遇到危险问题时不拒绝。不知道什么时候该承认不确定。给出看似合理但不负责任的建议。为了解决这些问题很多模型会经历RLHF也就是 Reinforcement Learning from Human Feedback中文常译为“基于人类反馈的强化学习”。它的大致过程是模型针对同一个问题生成多个回答。人类标注员比较哪个回答更好。训练一个奖励模型学习人类偏好。再用强化学习方法优化原模型让它更倾向于生成高评分回答。你可以把 RLHF 理解成一种“品味校准”。预训练让模型有知识。指令微调让模型会做任务。RLHF 让模型更像一个靠谱、礼貌、符合人类预期的助手。当然RLHF 不是完美方案。它也可能带来副作用比如模型过度迎合、回答保守、拒绝过多或者在不确定时仍然表现得很自信。推理阶段模型是怎么生成回答的训练完成后用户真正使用模型时进入的是推理阶段。假设你输入请用一句话解释 Transformer。模型会先把输入切成 Token再转成向量通过 Transformer 层计算最后输出下一个 Token 的概率分布。比如下一个 Token 的候选可能是Transformer: 0.32 它: 0.21 一种: 0.18 简单: 0.05模型会根据采样策略选择一个 Token然后把它接到上下文后面再继续预测下一个 Token。如此循环直到生成完整回答。这里有几个常见参数Temperature控制随机性。越高越发散越低越稳定。Top-k只从概率最高的 k 个候选里选。Top-p只从累计概率达到 p 的候选集合里选。Max tokens限制最大生成长度。所以大模型不是一次性“想好一整段话”再输出而是一个 Token 一个 Token 地生成。这也解释了为什么它有时会前后不一致因为生成过程是连续采样后面的内容依赖前面已经生成的内容。上下文窗口模型的“短期记忆”大模型每次回答时能看到的内容是有限的这个限制叫上下文窗口。上下文窗口越大模型能处理的内容越多比如长文档、多轮对话、大段代码。但上下文窗口不是无限的。超过限制的内容模型就看不到或者需要被压缩、截断、检索后再放入上下文。这也是为什么长对话里模型可能忘记前面说过什么。技术上很多应用会通过以下方式缓解对历史对话做摘要。把文档切块后检索相关片段。使用向量数据库存储知识。只把当前任务相关内容放进上下文。这也引出了一个重要应用架构RAG。RAG让模型接入外部知识RAG全称是 Retrieval-Augmented Generation检索增强生成。它解决的是一个很现实的问题大模型的参数知识不一定新、不一定全也不一定包含企业内部资料。RAG 的思路是把文档切成小块。转成向量并存入向量数据库。用户提问时把问题也转成向量。检索最相关的文档片段。把这些片段连同问题一起交给模型。模型基于检索内容生成回答。这样做的好处是可以接入最新资料。可以使用私有知识库。可以减少幻觉。可以给出引用来源。RAG 并不是让模型“记住”新知识而是在生成前把相关资料放到它眼前。就像开卷考试模型本身会答题RAG 给它提供教材和资料页。Agent从回答问题到执行任务如果说 RAG 让模型能查资料那么Agent让模型能做事情。一个 Agent 通常具备几类能力理解目标拆解步骤调用工具观察结果修正计划持续执行比如你说帮我分析这个项目为什么测试失败并尝试修复。Agent 可能会读取测试日志。定位失败用例。打开相关文件。修改代码。重新运行测试。如果失败再继续调整。最后总结改动。这已经不是单纯的文本生成而是“模型 工具 环境反馈”的系统。现在很多 AI 编码工具、数据分析助手、办公自动化工具本质上都在往 Agent 方向发展。但 Agent 也更需要权限控制。因为一旦模型能调用工具它就可能修改文件、执行命令、访问数据。能力越强边界越要清楚。技术视角下大模型为什么会幻觉从技术角度看幻觉不是偶然的小毛病而是生成式模型天然可能出现的问题。原因主要有几个模型的训练目标是预测下一个 Token不是验证事实。参数知识可能过时或不完整。用户问题可能没有足够上下文。采样过程可能生成看似合理但错误的内容。模型倾向于维持语言连贯性即使它并不知道答案。所以解决幻觉不能只靠一句“模型更聪明”。常见工程手段包括接入 RAG。要求模型引用来源。使用工具查询事实。对关键回答做规则校验。在高风险场景引入人工审核。降低采样随机性。使用测试或代码执行验证结果。大模型的输出不是数据库查询结果。它更像一个强大的生成器需要和检索、验证、权限、审计一起组成可靠系统。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】