大模型面试题：为什么Transformer块使用LayerNorm而不是BatchNorm？

张

张建站

2026/5/27 8:48:58

10分钟阅读

大模型面试题：为什么Transformer块使用LayerNorm而不是BatchNorm？

Transformer架构设计选择LayerNorm而非BatchNorm，并非偶然，而是由NLP数据的特性和Transformer的训练需求共同决定的。下面我将从多个维度详细解释原因。核心区别：归一化维度的不同首先，理解两者最根本的区别：BatchNorm：在Batch维度上进行归一化。对一个Batch中所有样本的同一个特征通道计算均值和方差。公式：BN(x) = γ * (x - μ_Batch) / √(σ²_Batch + ε) + β它要求稳定的、足够大的Batch Size来获得可靠的统计量。LayerNorm：在特征维度上进行归一化。对单个样本的所有特征计算均值和方差。公式：LN(x) = γ * (x - μ_Sample) / √(σ²_Sample + ε) + β其统计量与Batch Size无关，

DrBERT-7GB在真实医疗场景的终极应用指南：病例分析、药物发现与临床决策支持

DrBERT-7GB在真实医疗场景的终极应用指南：病例分析、药物发现与临床决策支持【免费下载链接】DrBERT-7GB 项目地址: https://ai.gitcode.com/hf_mirrors/zhouhui/DrBERT-7GB DrBERT-7GB是专为法语医疗领域设计的预训练语言模型，在病例分析、药物…...

2026/5/27 8:45:44 阅读更多 →

百度网盘终极加速指南：免费破解限速的完整方案

百度网盘终极加速指南：免费破解限速的完整方案【免费下载链接】pan-baidu-download 百度网盘下载脚本项目地址: https://gitcode.com/gh_mirrors/pa/pan-baidu-download 还在为百度网盘非会员的龟速下载而烦恼吗？当你急需下载重要文件却被限速困…...

2026/5/27 8:45:14 阅读更多 →

【AI面试临阵磨枪-78】本地生活 Agent：外卖、到店、打车、酒店、售后全链路设计

一、整体定位（面试开篇必说） 本地生活 AI Agent 是基于位置、订单、商家、用户、运力的全场景智能服务体，覆盖：外卖、到店餐饮、酒店民宿、打车出行、全域售后纠纷五大业务。核心能力：意图理解多场景工具调用实…...

2026/5/27 8:44:47 阅读更多 →

PS5 NOR修改器终极指南：简单三步修复你的游戏主机

PS5 NOR修改器终极指南：简单三步修复你的游戏主机【免费下载链接】PS5NorModifier The PS5 Nor Modifier is an easy to use Windows based application to rewrite your PS5 NOR file. This can be useful if your NOR is corrupt, or if you have a disc edition…...

2026/5/25 2:11:12 阅读更多 →

毕业论文，如何合规使用AI

2022年11月出现了大语言模型ChatGPT，今年是第一批使用大模型大学生毕业的第一年，如何安全、高效地使用AIGC正在成为不少人关心的重要事情。大学生或研究生毕业论文使用AIGC的核心原则是：把它当成你的“科研实习生”，而不是“代笔枪…...

2026/5/26 15:59:40 阅读更多 →

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南

3步彻底解决RDP Wrapper [not supported]问题：实战修复指南【免费下载链接】rdpwrap RDP Wrapper Library 项目地址: https://gitcode.com/gh_mirrors/rd/rdpwrap RDP Wrapper是一款让Windows家庭版支持多用户远程桌面的开源工具，但许多用户在系…...

2026/5/24 0:32:45 阅读更多 →