工程相关文章列表 - 叮当号

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

老板不要肥肉

2024-05-28

61000

科技

内置10000+Github 热门代码库，百度正式发布Comate代码知识增强2.0

2019年5月18日，itechclub华北区第七届互联网技术精英高峰论坛举行，百度工程效能部总监带来了“迈向人机协同的ai原生研发新范式”主题演讲。他重磅发布了百度智能代码助手comate最新成果——comate代码知识增强2.0，这是国

momo

2024-05-23

61000

科技

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

周斌

2024-05-16

69000

科技

西浦、利物浦大学提出：点云数据增强首个全面综述

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

走不完的路

2024-05-14

75000

科技

微软让MoE长出多个头，大幅提升专家激活率

mh-moe 能优化几乎所有专家，实现起来非常简单。
混合专家（MoE）是个好方法，支持着现在一些非常优秀的大模型，比如谷歌家的 Gemini 1.5 以及备受关注的 Mixtral 8x7B。
“稀疏混合专家（SMoE）可在不显著增加训练

老板不要肥肉

2024-05-14

60000

科技

字节开源大模型量化新思路，2

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

周斌

2024-05-13

77000

科技

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

叮当号

2024-05-13

78000

科技

ICLR 2024 Oral｜用巧妙的「传送」技巧，让神经网络的训练更加高效

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou

张大嘴

2024-05-10

57000

科技

CVPR 2024 | 借助神经结构光，浙大实现动态三维现象的实时采集重建

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazho

叮当

2024-05-06

58000

科技

小模型性能饱和、表现不佳，根源是因为Softmax?

小语言模型的出现是为弥补大语言模型的训练、推理等成本昂贵的缺点，但其自身也存在训练到某个阶段后性能下降的事实 (饱和现象)，那么这个现象的原因是什么？是否可以克服并利用它去提升小语言模型的性能？
语言建模领域的最新进展在于在极大规模的网络文

叮当

2024-05-04

78000

工程

联系我们