一、整体架构标准完整 Transformer Encoder Decoder1.Encoder和 BERT 几乎一样双向注意力Bi-directional Attention可以看到全部上下文左边 右边作用理解输入句子语义2.Decoder和 GPT 一样因果掩码Causal Mask只能看到当前词及左边的词看不到右边自回归生成Autoregressive Generation逐个词生成一句话总结BERT 只有 EncoderGPT 只有 DecoderBART 是 EncoderDecoder 全都有。二、核心思想去噪自编码器给原始句子加噪声破坏让模型重建出原始干净句子以重建误差作为损失训练三、BART 五种预训练噪声必考单词掩码Token Masking随机把一些词变成 [MASK]单词删除Token Deletion随机删掉一些词模型要判断位置并补全文本填充Text Infilling用单个掩码[MASK]随机替换某个文本片段要求文本有预测缺失文本长度的能力句子排列变换Sentence Permutation把句子顺序随机打乱让模型恢复原顺序文本旋转变换Document Rotation随机选一个词作为开头把文档循环移位