大型语言模型

  • 微调真的能让LLM学到新东西吗:引入新知识可能让模型产生更多的幻觉

    大型语言模型(llm)是在巨大的文本数据库上训练的,在那里它们获得了大量的实际知识。这些知识嵌入到它们的参数中,然后可以在需要时使用。这些模型的知识在训练结束时被“具体化”。在预训练结束时,模型实际上停止学习。对模型进行对齐或进行指令调优,

    2024-05-30
    6300
  • 从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

    刚刚,Anthropic 宣布在理解人工智能模型内部运作机制方面取得重大进展。Anthropic已经确认了如何在Claude Sonnet中表示征函数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能

    2024-05-23
    4400
  • 知识图与大型语言模型的协同作用

    从非结构化文本中提取有价值的信息是金融行业的关键应用。然而,这项任务往往超出了简单的数据提取,需要高级推理能力。一个典型的例子是确保信贷协议中的到期日,这通常涉及及时遵守和破译一个复杂的指令,如“到期日应在生效日期三周年之前的最后一个工作日

    2024-05-16
    7100
  • LLM 评估新纪元:Arthur Bench 全方位解读

    一、传统文本评估面临的挑战
    近年来,随着大型语言模型(LLM)的快速发展和改进,传统的文本评估方法在某些方面可能已经不再适用。在文本评估领域,我们可能已经听说过一些方法,例如基于“单词出现”的评估方法,例如BLEU,以及基于“预训练的自然语

    2024-05-10
    8700
  • Claude是什么

    Claude是Anthropic人工智能公司发布的大型语言模型,拥有高级推理、视觉分析、代码生成、多语言处理、多模态等能力,对标ChatGPT、Gemini等产品。 Claude 是由 Anthropic 开发的一系列大型语言模型。首个模型于 2023 年 3 月发布。2024 年 3 月发布的 Claude 3 还具备图像分析能力。 Claude 模型是生…

    2024-05-01
    5800
  • 揭开大型语言模型(LLM)的力量:初创企业如何通过精简集成彻底改变运营方式

    大型语言模型 (LLM) 已成为各种规模企业的游戏规则改变者,但它们对初创企业的影响尤为显著。为了理解其中的原因,让我们来看看初创企业相对于老牌企业有哪些优势,以及为什么AI是它们的重要推动力。首先,与传统企业相比,初创企业有更大的灵活性。

    2024-04-22
    5600
  • 采用OpenAI还是DIY?揭开自托管大型语言模型的真实成本

    你的服务标准已被定位为“ai驱动”,通过整合大型语言模型。你的网站首页自豪地展示了你的ai驱动服务带来的革命性影响,通过互动演示和案例研究。这也是你公司在全球genai领域留下的第一个印记。
    你的小而忠实的用户基础正在享受提升后的客户体验

    2024-04-22
    5100
  • LLM如何增强决策过程

    由于技术能力变得越来越重要,数字时代正在改变决策过程。大型语言模型(llm)是一项值得注意的技术,因其能够在各个领域实现更好的决策而受到赞誉。但llm能在多大程度上增强决策过程?如果可以,又是如何增强的呢?了解LLM
    最近的自然语言处理系统

    2024-04-17
    8400
  • ReFT(表征微调):比PeFT效果更好的新的大语言模型微调技术

    reft(representation finetuning)是一种突破性的方法,有望重新定义我们对大型语言模型进行微调的方式。
    斯坦福大学的研究人员最近(4月)在arxiv上发布的论文,ReFT与传统的基于权重的微调方法大有不同,它提供了

    2024-04-15
    8600
  • 为什么大型语言模型都在使用 SwiGLU 作为激活函数?

    如果你一直在关注大型语言模型的架构,你可能会在最新的模型和研究论文中看到“SwiGLU”这个词。SwiGLU可以说是在大语言模型中最常用到的激活函数,我们本篇文章就来对它进行详细的介绍。SwiGLU其实是2020年谷歌提出的激活函数,它结合

    2024-04-08
    10600

联系我们

在线咨询: QQ交谈

邮件:442814395@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信公众号