多头混合专家

科技

微软让MoE长出多个头，大幅提升专家激活率

mh-moe 能优化几乎所有专家，实现起来非常简单。
混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。
“稀疏混合专家（SMoE）可在不显著增加训练

老板不要肥肉
2024-05-14
60000

联系我们

在线咨询： QQ交谈

邮件：442814395@qq.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信公众号