面对当前微调大模型主要依赖人类生成数据的普遍做法,谷歌 deepmind 探索出了一种减少这种依赖的更高效方法。
-
生成(E-step):语言模型为每个输入上下文生成多个输出样本,然后使用二元奖励过滤这些样本以收集训练数据集。 -
改进(M-step):原始语言模型在来自前一个 E-step 的训练数据集上进行监督微调,然后在下一个 E-step 中使用。
-
与人类生成的数据进行微调相比,ReST^??的效果如何? -
需要多少次迭代才能获得最佳性能?ReST^??多长时间会导致训练集过度拟合? -
ReST^??如何影响 pass@k 和多数投票表现? -
如果用户在特定任务上使用模型生成的数据进行微调,是否会迁移到其他任务上?在广泛的任务中评估本文的微调模型时,与基本模型相比,性能是否会下降? -
大约需要多少输入数据才能从 ReST^?? 获得大部分性能提升?ReST^??的一次迭代是否足够?
以上就是大模型微调非得依赖人类数据吗?DeepMind:用带反馈的自训练更好的详细内容,更多请关注叮当号网其它相关文章!
文章来自互联网,只做分享使用。发布者:momo,转转请注明出处:https://www.dingdanghao.com/article/684241.html