标签:Transformer调试器
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
OpenAI的超级对齐团队宣布开源Transformer调试器(Transformer Debugger,简称TDB),这是一个无需编程即可探索大型语言模型(LLM)内部结构的工具。该工具结合了稀疏自动编码器和自动可解释性技术,使研究者能深入理解模型行为,特别是对于AGI(人工智能)的解析。TDB能回答关于模型决策过程的问题,如为何选择特定输出。虽然仍处于早期阶段,OpenAI希望通过开源促进更多研究和改进。该工具基于之前使用GPT-4解释GPT-2的研究,旨在用大模型解释小模型的行为。通过TDB,研究人员可以逐步查看模型输出,跟踪重要激活并分析,...