领域数据优于教师知识面向NLU模型蒸馏的研究在自然语言理解任务上仅使用任务特定数据训练的学生模型优于那些使用混合通用数据训练的学生模型。会议EMNLP 2022相关论文知识蒸馏迁移集及其对下游NLU任务的影响知识蒸馏是一种流行的技术用于将大型机器学习模型压缩到可管理的大小使其适用于低延迟应用如语音助手。在蒸馏过程中轻量级模型称为学生被训练来模仿源模型称为教师在特定数据集迁移集上的行为。迁移集的选择对于产生高质量的学生模型至关重要但如何做出选择远非显而易见。在自然语言理解应用中教师模型通常在通用语料库上预训练这可能与用于微调的任务特定语料库不同。这就提出了一个自然的问题学生应该从通用语料库上蒸馏以学习高质量的教师预测还是在与微调更一致的任务特定语料库上蒸馏在一篇发表于2022年自然语言处理经验方法会议EMNLP的论文中研究者探讨了这个问题并表明仅使用任务特定数据蒸馏的模型在目标任务上表现优于使用任务特定和通用数据混合蒸馏的模型。换句话说在目标领域数据上蒸馏比单纯依赖教师知识提供更好的性能。然而研究也证实了即使是混合数据蒸馏也是有益的学生模型优于从头训练类似规模的模型。研究者还研究了教师模型预训练后但在微调前进行蒸馏的情况仅学生模型被微调。结果发现在蒸馏前让教师适应迁移集的更昂贵策略能产生最好的学生模型。蒸馏的多样性在实验中研究者从一个大型多语言教师模型蒸馏出一组多语言学生使用了三种不同比例的通用数据和任务特定数据混合比例1仅通用数据基线比例2通用数据与任务特定数据比例为7:3模拟低资源场景比例3仅任务特定数据什么是通用数据和任务特定数据通用数据通常是公开可用的、无标注的数据与任何特定任务无关。在无标注数据上的模型训练通常涉及自监督学习在该研究中这意味着遮住文本中的单词并训练模型来补充它们掩码语言建模。任务特定数据是已被标注以指示任务正确执行的数据。在该研究中研究者探索了两个下游任务领域分类DC以及联合意图分类和命名实体识别ICNER任务特定数据也相应进行了标注。研究者在两种类型的测试集test 和 tail_test以及四种目标语言德语、法语、意大利语和西班牙语上评估了模型。test集包含完整的测试拆分而tail_test是test中出现频率为三次或更低的数据点子集。tail_test集允许测量模型对训练期间很少见到的数据的泛化能力。实验设置所有实验模型和基线模型具有相同数量的参数。通用蒸馏基线是通过仅使用通用数据蒸馏学生创建的比例1。直接预训练基线是使用通用数据从头预训练然后在任务特定数据上微调。研究者创建了四个蒸馏学生编码器其中两个直接使用比例2和比例3数据集进行蒸馏。其余两个以相同方式创建但教师在蒸馏前用任务特定数据集各微调了一百万步。这使得能够基准测试教师对目标任务的适应程度。在评估DC和ICNER任务的性能时研究者为每个编码器添加了DC或ICNER解码器。相对于基线的F1分数变化综合考虑假阴性和假阳性率被视为DC任务的改进相对于基线的语义错误率变化被视为ICNER任务的改进。实验结果在DC任务上当迁移集中包含任务特定数据时结果显示全面的改进最大的改进来自仅使用任务特定数据。在ICNER任务上也看到了类似的结果仅使用任务特定数据蒸馏的编码器改进更大。致谢研究者感谢论文合著者Lizhen Tan、Turan Gojayev、Pan Wei和Gokmen Oz对这项工作的贡献。研究领域对话式AI、机器学习标签知识蒸馏、自然语言理解、EMNLPFINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享