从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

Anthropic公司宣布了一项重大突破,成功揭示了人工智能模型内部的工作机制,特别是在大型语言模型Claude Sonnet中理解数百万个概念的方式。这一成就标志着对现代生产级AI模型的可解释性有了首次深入洞察,有助于提升模型的安全性。研究团队使用了“字典学习”方法,将神经元激活模式转化为可解释的特征,使得模型的内部状态变得更加清晰。

以往,AI模型被视为黑匣子,其决策过程难以理解,这引发了对其安全性、可靠性的质疑。 Anthropic通过分析发现,模型能够理解和运用多种概念,但单个神经元并不单独代表特定概念,而是多个神经元共同表达一个概念。通过字典学习,研究人员能够将复杂的神经元激活模式分解为可理解的特征,这些特征可以是抽象的,且在不同语言和上下文中都有所体现。

在2023年的初步尝试中,Anthropic在小型玩具模型上应用了这种方法,发现了一些与特定概念相关联的特征。如今,他们成功地在Claude3.0Sonnet这样的大型模型中提取了大量特征,涵盖了从具体实体(如城市、人物)到抽象概念(如编程语法、科学主题)的广泛范围。这些特征不仅影响模型的输出,而且与模型的安全性和可靠性有关,例如涉及代码漏洞、欺骗和偏见的特征。

研究人员还发现,这些特征是可以操纵的,通过人为增强或抑制特征,可以改变模型的行为。例如,增强与“Golden Gate Bridge”相关的特征,会让模型产生异常的关联,甚至在无关情境下提及金门大桥。此外,他们还展示了如何通过操纵特征使模型生成诈骗邮件,尽管这种情况在实际使用中是不可能发生的。

这项研究进一步确认了这些特征不仅与输入文本中的概念相关,还直接影响模型的行为,表明它们可能是模型内部世界表征的一部分。Anthropic致力于确保模型的安全性,包括防止滥用、减轻偏见,并在灾难性风险场景中提供保护。他们的研究还揭示了与潜在滥用、偏见和不良行为相关的特征。

本文来源: ​机器之心公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...