gqa
-
大模型中常用的注意力机制GQA详解以及Pytorch代码实现
组查询注意力(grouped query attention)是大型语言模型中的一种多查询注意力力方法,它的目标是在保持 mqa 速度的同时实现 mha 的质量。grouped query attention 将查询分组,每个组内的查询共享
组查询注意力(grouped query attention)是大型语言模型中的一种多查询注意力力方法,它的目标是在保持 mqa 速度的同时实现 mha 的质量。grouped query attention 将查询分组,每个组内的查询共享