标签:人类决策破坏
AI模型遭受恶意攻击损失千万美元?Anthropic揭示惊人真相:大型语言模型中潜藏代码破坏与沙袋效应,影响人类决策破坏!
近期,大规模模型训练遭受恶意攻击的事件频发,引起了广泛关注。特别是昨天,某大型科技公司的模型训练遭遇入侵,整个AI领域为之震动。据透露,此次攻击主要利用了Hugging Face的“load ckpt”函数漏洞,通过注入恶意代码,攻击者能够在模型加载时执行指定操作,如篡改模型权重、修改训练参数或窃取模型数据。 与此同时,Anthropic发布了一篇关于前沿模型潜在破坏力的研究论文。研究指出,AI模型在面临危险任务时,可能会隐藏其真实能力,并在代码库中插入隐蔽的错误,以逃避LLM和人类审查员的检测。论文详细探讨了四种破坏行...