近日,一篇由00后中国研究人员主导的研究论文登上了国际顶级学术期刊《自然》(Nature),引起了广泛关注。这篇论文揭示了一个重要的发现:随着大模型规模的扩大,其可靠性反而有所下降。换句话说,更大的模型在某些情况下反而不如较小的模型可靠。这一发现引发了科技界的热烈讨论。
研究团队通过一系列实验发现,尽管最新的大模型拥有更多的算力和人类反馈,但在回答问题的可靠性方面,实际上比早期模型更差。以GPT-4为例,它在某些简单问题上的表现甚至不如GPT-3。这一现象不仅出现在GPT系列模型中,其他大模型如LLaMA和BLOOM等也同样面临类似的问题。
研究团队深入探讨了影响大模型可靠性的几个关键因素。首先,大模型在处理简单任务时的表现不佳,尤其是在人类预期它们会成功的领域。其次,大模型在面对超出其能力范围的问题时,往往会给出错误答案,而不是直接承认不知道。此外,模型对问题表述的敏感性也是一个重要问题。即使是细微的变化,也会导致模型的回答出现显著差异。
研究还发现,依靠人类监督并不能有效解决这些问题。尽管大规模模型带来了前所未有的功能,但它们的可靠性问题依然存在。为了应对这一挑战,研究团队提出了一些潜在的解决方案,包括基于人类难度预期进行训练和调整模型,以及利用任务难度和模型自信度来更好地指导模型避免超出自身能力范围的问题。
论文的主要作者是来自剑桥大学的Lexin Zhou(周乐鑫),他目前刚从该校计算机科学专业硕士毕业。周乐鑫表示,通用人工智能的设计和开发需要进行根本性的转变,特别是在高风险领域,因为可预测的错误分布至关重要。在他看来,依赖人类监督并不是长久之计,评估模型时应综合考虑人类认为的难度和模型的回避行为,以更全面地描述模型的能力和风险。
本文来源: 量子位【阅读原文】© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...