全球最强开源 MoE 模型来了，中文能力比肩 GPT

momo • 2024-05-07 16:45 • 科技 • 阅读 87

想象一下，一个人工智能模型，不仅拥有超越传统计算的能力，还能以更低的成本实现更高效的性能。这不是科幻，deepseek-v2^[1]，全球最强开源 moe 模型来了。

DeepSeek-V2 是一个强大的专家混合（MoE）语言模型，具有训练经济、推理高效的特点。它由 236B 个参数组成，其中 21B 个参数用于激活每个标记。与 DeepSeek 67B 相比，DeepSeek-V2 性能更强，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，最大生成吞吐量提高到 5.76 倍。

DeepSeek 是一家探索通用人工智能（AGI）本质的公司，并致力于将研究、工程和商业三者融为一体。

Table of Contents

DeepSeek-V2 的综合能力

在目前大模型主流榜单中，DeepSeek-V2 均表现出色：

中文综合能力（AlignBench）开源模型中最强：与 GPT-4-Turbo，文心 4.0 等闭源模型在评测中处于同一梯队
英文综合能力（MT-Bench）处于第一梯队：英文综合能力（MT-Bench）与最强的开源模型 LLaMA3-70B 处于同一梯队，超过最强 MoE 开源模型 Mixtral 8x22B
知识、数学、推理、编程等榜单结果位居前列
支持 128K 上下文窗口

全新的模型结构

当 AI 的潜力被不断挖掘，我们不禁要问：什么是推动智能进步的关键？DeepSeek-V2 给出了答案 —— 创新架构与成本效益的完美结合。

“DeepSeek-V2是一种改进版本，以236B的总参数和21B的激活，最终达到了70B~110B Dense模型的能力，同时显存消耗仅为同级别模型的1/5~1/100。在8卡H800机器上，每秒可处理超过10万tokens的输入，输出超过每秒5万tokens。这不仅是技术上的飞跃，更是成本控制的革命。”

在AI技术飞速发展的今天，DeepSeek-V2的出现，不仅代表了技术的突破，更预示着智能应用的普及化。它将AI的门槛降低，让更多企业和个人能够享受到高效智能服务的益处。同时，它也更预示着智能应用的普及化。它将AI的门槛降低，让更多企业和个人能够享受到高效智能服务的益处。

中文能力 VS 价格

在中文能力方面，DeepSeek-V2 在 AlignBench 排名中全球领先，同时提供极具竞争力的 API 价格。

模型和论文双开源

DeepSeek-V2，不只是一款模型，它是通往更智能世界的钥匙。它以更低的成本，更高的性能，开启了 AI 应用的新篇章。DeepSeek-V2 的开源，是对这一信念的最好证明，它将激发更多人的创新精神，共同推动人类智能的未来。

模型权重：https://huggingface.co/deepseek-ai
开源地址：https://github.com/deepseek-ai/DeepSeek-V2

在 AI 不断进化的今天，你认为 DeepSeek-V2 将如何改变我们的世界？让我们拭目以待，感兴趣的话，可以访问 chat.deepseek.com 亲自体验 DeepSeek-V2 带来的技术变革。

参考资料

[1]

DeepSeek-V2: https://www.php.cn/link/b2651c9921723afdfd04ed61ec302a6b

以上就是全球最强开源 MoE 模型来了，中文能力比肩 GPT-4，价格仅为 GPT-4-Turbo 的近百分之一的详细内容，更多请关注叮当号网其它相关文章！

文章来自互联网，只做分享使用。发布者：momo，转转请注明出处：https://www.dingdanghao.com/article/445921.html

全球最强开源 MoE 模型来了，中文能力比肩 GPT

DeepSeek-V2 的综合能力

全新的模型结构

中文能力 VS 价格

模型和论文双开源

关于作者

momo

联系我们

全球最强开源 MoE 模型来了，中文能力比肩 GPT

DeepSeek-V2 的综合能力

全新的模型结构

中文能力 VS 价格

模型和论文双开源

关于作者

momo

相关推荐

联系我们