AI21 Lab 推出了一种新的 LLM 架构 Mamba

AI21 Lab 推出了一种新的 LLM 架构 Mamba
ai21 lab 推出了一种新的 llm 架构 mamba,同时发布的还有基于这个架构的模型 jamba。模型将会开源。
Mamba是一款创新的结构化状态空间(SSM)模型,其设计

AI21 Lab 推出了一种新的 LLM 架构 Mamba

ai21 lab 推出了一种新的 llm 架构 mamba,同时发布的还有基于这个架构的模型 jamba。模型将会开源。

Mamba是一款创新的结构化状态空间(SSM)模型,其设计目的是为了克服传统Transformer架构的限制,但它本身也存在一些不足。而Jamba则结合了这两种技术的优点。

Mamba模型采用了一种新颖的结构化状态空间方法,它通过引入额外的结构信息和语义关系,使得模型可以更好地理解文本的上下文。这种方法对于处理自然语言处理任务,如机器翻译和文本生成,具有明显的优势。Mamba模型通过自动学习和组织

Jamba模型的特点:

  • 首个基于创新SSM-Transformer混合架构的生产级Mamba模型
  • 与Mixtral 8x7B相比,在长文本上的吞吐量提高了3倍
  • 模型支持高达256K的大规模上下文窗口,使更多用户能够访问和使用
  • 是其大小类别中唯一一个能在单个GPU上适应高达140K上下文的模型
  • 以开放权重在Apache 2.0下发布
  • 可在Hugging Face上获取,并即将登陆NVIDIA API目录

AI21 Lab 推出了一种新的 LLM 架构 Mamba

以上就是AI21 Lab 推出了一种新的 LLM 架构 Mamba的详细内容,更多请关注叮当号网其它相关文章!

文章来自互联网,只做分享使用。发布者:周斌,转转请注明出处:https://www.dingdanghao.com/article/469440.html

(0)
上一篇 2024-05-11 08:55
下一篇 2024-05-11 09:00

相关推荐

联系我们

在线咨询: QQ交谈

邮件:442814395@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信公众号