DenseLightningIndexerSoftmaxLse【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer产品支持情况产品是否支持Ascend 950PR/Ascend 950DT×Atlas A3 训练系列产品√Atlas A2 训练系列产品√Atlas 200I/500 A2 推理产品×Atlas 推理系列产品×Atlas 训练系列产品×功能说明算子功能DenseLightningIndexerSoftmaxLse算子是DenseLightningIndexerGradKlLoss算子计算Softmax输入的一个分支算子。计算公式$$ \text{res}\text{AttentionMask}\left(\text{ReduceSum}\left(W\odot\text{ReLU}\left(Q_{index}K_{index}^T\right)\right)\right) $$$$ \text{maxIndex}\text{max}\left(res\right) $$$$ \text{sumIndex}\text{ReduceSum}\left(\text{exp}\left(res-maxIndex\right)\right) $$maxIndexsumIndex作为输出传递给算子DenseLightningIndexerGradKlLoss作为输入计算Softmax使用。参数说明参数名输入/输出/属性描述数据类型数据格式queryIndex输入lightningIndexer结构的输入queryIndex。FLOAT16、BFLOAT16NDkeyIndex输入lightningIndexer结构的输入keyIndex。FLOAT16、BFLOAT16NDweights输入权重。FLOAT16、BFLOAT16、FLOAT32NDactualSeqLengthsQuery输入每个Batch中Query的有效token数。INT64NDactualSeqLengthsKey输入每个Batch中Key的有效token数。INT64NDlayout输入layout格式。--sparseMode输入sparse的模式。INT64-preTokens输入用于稀疏计算表示Attention需要和前几个token计算关联。INT64-nextTokens输入用于稀疏计算表示Attention需要和后几个token计算关联。INT64-softmaxMaxOut输出softmax计算使用的max值。FLOAT32NDsoftmaxSumOut输出softmax计算使用的sum值。FLOAT32ND约束说明无调用说明调用方式调用样例说明aclnn调用test_aclnn_dense_lightning_indexer_softmax_lse通过aclnnDenseLightningIndexerSoftmaxLse接口方式调用dense_lightning_indexer_softmax_lse算子。【免费下载链接】ops-transformer本项目是CANN提供的transformer类大模型算子库实现网络在NPU上加速计算。项目地址: https://gitcode.com/cann/ops-transformer创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考