1、量化(Quantization)技术中,将 FP16 转为 INT8 主要压缩了:{ { select(1) }}注意力机制的头数模型的层数权重的存储位宽Token 词表的长度2、对于输入为224×224×3的图像,使用一个卷积层,包含 96 个11×11的卷积核,步长为 4,无填充(padding = 0),那么输出特征图的大小和深度分别是?{ { select(2) }}55×55×9657×57×9656×56×9654×54×963、在原始 Transformer 的多头注意力机制中,多个头间的输出是如何结合的?{ { select(3) }}取最大值拼接后经过线性变换逐元素相加取平均4、关于 Transformer 中的多头注意力(Multi-Head Attention)的表述,哪一项是正确的?{ { select(4) }}多个头共享相同的查询、键、值权重矩阵每个头独立学习不同的线性投影,最后将注意力输出拼接头数越多,模型推理