dcmha
-
ICML2024高分!魔改注意力,让小模型能打两倍大的模型
改进transformer核心机制注意力,让小模型能打两倍大的模型!
ICML+2024高分论文,彩云科技团队构建DCFormer框架,替代Transformer核心组件注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。
DC
改进transformer核心机制注意力,让小模型能打两倍大的模型!
ICML+2024高分论文,彩云科技团队构建DCFormer框架,替代Transformer核心组件注意力模块(MHA),提出可动态组合的多头注意力(DCMHA)。
DC