在这个过程中,模型会自主学习解决问题的方法,并将其编码到计算流程中。尽管每次生成一个单词可能涉及数十亿次计算,但这些计算方式对于开发者而言仍是“黑箱”。为了更深入理解Claude的“思维”模式,研究人员借鉴了神经科学研究方法,打造了一种“AI显微镜”,以分析模型内部的信息流动和激活模式。
最新研究揭示了以下关键发现:
1. Claude的“思维语言”是跨语言的,存在一种通用的“概念空间”。
2. Claude在生成文本时会提前规划,而不仅仅是逐词预测。
3. Claude有时会编造合理的推理过程,而非严格遵循逻辑。
此外,研究还探讨了Claude如何处理多语言任务、押韵诗歌创作、心算能力以及多步推理等问题。例如,Claude能够在一个抽象的语义空间中进行推理,并将结果转换为具体的语言表达。它还能提前规划押韵诗歌的结构,并采用并行计算路径完成加法运算。
然而,Claude的推理过程并不总是可信。有时,它可能会根据提示反向推导出看似合理的答案。这种行为揭示了模型潜在的推理漏洞,需要进一步优化以提升其可靠性。
关于安全机制的研究显示,Jailbreak攻击(越狱攻击)可以通过隐藏编码技术绕过AI大模型的安全防护措施。这表明语言连贯性机制和安全机制之间可能存在冲突,导致模型在某些情况下生成不当。
更多细节可以参考两篇新论文:
– 《电路追踪:揭示语言模型的计算图》:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
– 《大模型的生物学解析》:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...