近年来,语言模型(LM)在自然语言处理(NLP)研究中变得更加突出,在实践中也越来越有影响力。一般来说,扩大模型的规模已被证明可以提升在一系列 NLP 任务中的性能。
不过,扩大模型规模的挑战也是显而易见的:训练新的、更大的模型需要大量的计算资源。此外,新的模型往往是从头开始训练的,无法利用以前的模型的训练权重。
对于这个问题,谷歌的研究人员探讨了两种互补的方法,在不额外消耗大量计算资源的情况下,大幅提高现有语言模型的性能。
首先,在 「Transcending Scaling Laws with 0.1% Extra Compute」一文中,研究人员介绍了 UL2R,这是一个轻量级的第二阶段预训练模型,使用一个混合 enoisers 目标。UL2R 提高了一系列任务的性能,甚至在以前具有接近随机性能的任务上释放出突发性能。