Transformer模型揭秘:6700万参数挑战GPT-4的因果推理奥秘,微软MIT与Judea Pearl的公理框架合作破译

因果推理,一个在GenAI领域中相对小众但备受重视的概念,得到了Yann LeCun这样的业界大佬的支持。他公开批评Sora等生成模型,推崇因果推理,认为引入因果关系能提升深度学习模型的泛化能力和数据效率。最近,微软、MIT等机构的研究者提出了一种创新的训练模型方法——公理框架,通过简单的因果链训练6700万参数的模型,其在推断复杂因果关系时的表现甚至超越了大模型,如GPT-4

这篇论文受到图灵奖得主Judea Pearl的启发,利用他的因果无关性公理,直接教授Transformer模型学习因果知识,无需干预实验。通过公理化训练,模型能够从被动数据中学习并推断因果关系,从而在相关性中识别因果。研究者展示了如何用有限的公理表达复杂的因果模型,并证明了模型在处理多公理组合和复杂系统时的能力。

实验结果显示,经过公理训练的模型在泛化到更长、更复杂的因果链和未见过的变量名称时,表现优于预训练的大模型,如GPT-4。此外,模型还能成功地处理反转和分支等结构变化,展现出强大的结构泛化能力。这些发现表明,公理训练有望成为提升模型因果推理能力的有效途径。

本文来源: 新智元公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...