dcmha

科技

ICML2024高分！魔改注意力，让小模型能打两倍大的模型

改进transformer核心机制注意力，让小模型能打两倍大的模型！
ICML+2024高分论文，彩云科技团队构建DCFormer框架，替代Transformer核心组件注意力模块（MHA），提出可动态组合的多头注意力（DCMHA）。
DC

weapp
2024-06-04
54000

联系我们

在线咨询： QQ交谈

邮件：442814395@qq.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信公众号