AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在大型语言模型的训练过程中,数据的处理方式至关重要。
传统的方法通常通过将大量文档拼接并切分成等同于模型的上下文长度的训练序列。这虽然提高了训练效率,但也常导致文档的不必要截断,损害数据完整性,导致关键的上下文信息丢失,进而影响模型学习到的内容的逻辑连贯性和事实一致性,并使模型更容易产生幻觉。
AWS AI Labs 的研究人员针对这一常见的拼接-分块文本处理方式进行了深入研究, 发现其严重影响了模型理解上下文连贯性和事实一致性的能力。这不仅影响了模型在下游任务的表现,还增加了产生幻觉的风险。
针对这一问题,他们提出了一种创新的文档处理策略——最佳适配打包 (Best-fit Packing),通过优化文档组合来消除不必要的文本截断,并显著地提升了模型的性能且减少模型幻觉。这一研究已被ICML 2024接收。
文章标题:Fewer Truncations Improve Language Modeling
论文链接:https://arxiv.org/pdf/2404.10830
在传统的大型语言模型训练方法中,为了提高效率,研究人员通常会将多个输入文档拼接在一起,然后将这些拼接的文档分割成固定长度的序列。
这种方法虽然简单高效,但它会造成一个重大问题——文档截断(document truncation),损害了数据完整性(data integrity)。文档截断会导致文档包含的信息丢失 (loss of information)。
此外,文档截断减少了每个序列中的上下文量,可能导致下一个词的预测与上文不相关,从而使模型更容易产生幻觉 (hallucination)。
-
图2(a):在Python编程中,原始代码虽然正确,但将变量定义与使用分割到不同的训练序列中会引入语法错误,导致某些变量在后续训练序列中未定义,从而使得模型学习到错误的模式,并可能在下游任务中产生幻觉。例如,在程序合成任务中,模型可能会在没有定义的情况下直接使用变量。
-
图2(b):截断同样损害了信息的完整性。例如,摘要中的“Monday morning”无法与训练序列中的任何上下文匹配,导致内容失实。这种信息不完整性会显著降低模型对上下文信息的敏感度,导致生成的内容与实际情况不符,即所谓的不忠实生成 (unfaithful generation)。
-
图2(c):截断还会阻碍训练期间的知识获取,因为知识在文本中的表现形式通常依赖完整的句子或段落。例如,模型无法学习到ICML会议的地点,因为会议名称和地点分布在不同的训练序列中。
图2. 文档截断导致幻觉或知识丧失的例子。
(a) 变量定义(蓝色部分)被截断,随后的使用调用导致未定义名称(红色部分)。
(b) 关键上下文信息被截断(蓝色部分),使得摘要不准确于原文(红色部分)。
(c) 由于截断,模型不知道ICML 2024的举办地点。
针对这一问题,研究者提出了最佳适配打包 (Best-fit Packing)。
该方法使用长度感知的组合优化技术,有效地将文档打包到训练序列中,从而完全消除不必要的截断。这不仅保持了传统方法的训练效率,而且通过减少数据的片段化,实质性地提高了模型训练的质量。
作者首先先将每个文本分割成一或多个至多长为模型上下文长度L的序列。这一步限制来自于模型,所以是必须进行的。
现在,基于大量的至多长为L的文件块,研究者希望将它们合理地组合,并获得尽量少的训练序列。这个问题可以被看作一个集装优化(Bin Packing)问题。集装优化问题是NP-hard的。如下图算法所示,这里他们采用了最佳适配递减算法(Best-Fit-Decreasing, BFD) 的启发式策略。
接下来从时间复杂度 (Time Complexity) 和紧凑性 (Compactness) 的角度来讨论BFD的可行性。
BFD的排序和打包的时间复杂度均为O(N log N),其中N是文档块的数量。在预训练数据处理中,由于文档块的长度是整数并且是有限的 ([1, L]),可以使用计数排序 (count sort) 来实现将排序的时间复杂度降低到O(N)。
以上就是ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:周斌,转转请注明出处:https://www.dingdanghao.com/article/495461.html