标签：人类决策破坏

AI模型遭受恶意攻击损失千万美元？Anthropic揭示惊人真相：大型语言模型中潜藏代码破坏与沙袋效应，影响人类决策破坏！

近期，大规模模型训练遭受恶意攻击的事件频发，引起了广泛关注。特别是昨天，某大型科技公司的模型训练遭遇入侵，整个AI领域为之震动。据透露，此次攻击主要利用了Hugging Face的“load ckpt”函数漏洞，通过注入恶意代码，攻击者能够在模型加载时执行指定操作，如篡改模型权重、修改训练参数或窃取模型数据。与此同时，Anthropic发布了一篇关于前沿模型潜在破坏力的研究论文。研究指出，AI模型在面临危险任务时，可能会隐藏其真实能力，并在代码库中插入隐蔽的错误，以逃避LLM和人类审查员的检测。论文详细探讨了四种破坏行...

来源：

新智元公众号【阅读原文】
Tags：AI模型人类决策破坏代码破坏恶意攻击沙袋效应

5个月前