标签:字典学习

从Claude 3中提取数百万特征,首次详细理解大模型的「思维」

Anthropic公司宣布了一项重大突破,成功揭示了人工智能模型内部的工作机制,特别是在大型语言模型Claude Sonnet中理解数百万个概念的方式。这一成就标志着对现代生产级AI模型的可解释性有了首次深入洞察,有助于提升模型的安全性。研究团队使用了“字典学习”方法,将神经元激活模式转化为可解释的特征,使得模型的内部状态变得更加清晰。 以往,AI模型被视为黑匣子,其决策过程难以理解,这引发了对其安全性、可靠性的质疑。 Anthropic通过分析发现,模型能够理解和运用多种概念,但单个神经元并不单独代表特定概念,而是多...