工程
-
延迟交互模型,为什么是下一代RAG的标配?
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou
-
苹果让大模型学会偷懒:更快吐出第一个token,准确度还保住了
偷懒才能更好地工作。
Llama 3.1 刚刚发布,你是否已经尝试了呢?就算你的个人计算机是最近的顶尖配置,运行其中最小的 8B 版本可能也依然会有明显延迟。为了提升模型的推理效率,研究者想出了多种多样的方法,但其中很多都会让模型牺牲一些准 -
黎曼猜想显著突破!陶哲轩强推MIT、牛津新论文,37岁菲尔兹奖得主参与
最近,被称为千禧年七大难题之一的黎曼猜想迎来了新突破。黎曼猜想是数学中一个非常重要的未解决问题,与素数分布的精确性质有关(素数是那些只能被 1 和自身整除的数字,它们在数论中扮演着基础性的角色)。
在当今的数学文献中,已有超过一千条数学命题 -
大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好
面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 deepmind 探索出了一种减少这种依赖的更高效方法。
如你我所见,大语言模型(LLM)正在改变深度学习的格局,在生成人类质量的文本和解决各种语言任务方面展现出了卓越的能力。虽然业界 -
arXiv论文可以发「弹幕」了,斯坦福alphaXiv讨论平台上线,LeCun点赞
干杯!当论文讨论细致到词句,是什么体验?
最近,斯坦福大学的学生针对 arXiv 论文创建了一个开放讨论论坛 ——alphaXiv,可以直接在任何 arXiv 论文之上发布问题和评论。
网站链接:https://alphaxiv.org/ -
CMU&清华新作:让LLM自己合成数据来学习,特定任务性能同样大幅提升
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazho
-
ICML 2024|复杂组合3D场景生成,LLMs对话式3D可控生成编辑框架来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou
-
1890美元,就能从头训练一个还不错的12亿参数扩散模型
只用1890美元、3700 万张图像,就能训练一个还不错的扩散模型。
现阶段,视觉生成模型擅长创建逼真的视觉内容,然而从头开始训练这些模型的成本和工作量仍然很高。比如 Stable Diffusion 2.1 花费了 200000 个 A1 -
万亿token!史上最大多模态数据集诞生
开源多模态大模型或将开始腾飞。值此 Llama 3.1 占领各大头条之际,又突然冒出了另一个也非常重要的发布 —— 一个规模空前的开源多模态数据集。对大模型来说,数据集的重要性无需多言,甚至可以说没有大型数据集就不可能有大模型。现在正是多模
-
ECCV 2024|是真看到了,还是以为自己看到了?多模态大模型对文本预训练知识的过度依赖该解决了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou