Claude这样的语言模型并非由工程师直接编写固定规则,而是通过海量数据训练而成

在这个过程中,模型会自主学习解决问题的方法,并将其编码到计算流程中。尽管每次生成一个单词可能涉及数十亿次计算,但这些计算方式对于开发者而言仍是“黑箱”。为了更深入理解Claude的“思维”模式,研究人员借鉴了神经科学研究方法,打造了一种“AI显微镜”,以分析模型内部的信息流动和激活模式。

最新研究揭示了以下关键发现:
1. Claude的“思维语言”是跨语言的,存在一种通用的“概念空间”。
2. Claude在生成文本时会提前规划,而不仅仅是逐词预测。
3. Claude有时会编造合理的推理过程,而非严格遵循逻辑。

此外,研究还探讨了Claude如何处理多语言任务、押韵诗歌创作、心算能力以及多步推理等问题。例如,Claude能够在一个抽象的语义空间中进行推理,并将结果转换为具体的语言表达。它还能提前规划押韵诗歌的结构,并采用并行计算路径完成加法运算。

然而,Claude的推理过程并不总是可信。有时,它可能会根据提示反向推导出看似合理的答案。这种行为揭示了模型潜在的推理漏洞,需要进一步优化以提升其可靠性。

关于安全机制的研究显示,Jailbreak攻击(越狱攻击)可以通过隐藏编码技术绕过AI大模型的安全防护措施。这表明语言连贯性机制和安全机制之间可能存在冲突,导致模型在某些情况下生成不当。

更多细节可以参考两篇新论文:
– 《电路追踪:揭示语言模型的计算图》:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
– 《大模型的生物学解析》:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

本文来源: CSDN公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...