谷歌DeepMind最新研究登上Nature封面,隐形水印方案提升AI生成内容的文本质量与大型语言模型的安全性

你是否知道,我们每天在网上看到的有多少是由AI生成的?除了那些令人头皮发麻的“注意看!这个男人叫小帅”之外,真正的难题在于我们无法分辨哪些是AI生成的。随着这些擅长一本正经胡说八道的AI不断进化,人类面临的挑战也日益增多。

近日,谷歌DeepMind团队在Nature期刊上发表了一项重要研究,提出了一种名为SynthID-Text的水印方案,该方案可以应用于生产级别的大型语言模型(LLM),帮助追踪AI生成的文本,使其无所遁形。论文地址:[https://www.nature.com/articles/s41586-024-08025-4](https://www.nature.com/articles/s41586-024-08025-4)

与常见的图片水印不同,文本水印需要更加隐蔽。SynthID-Text采用了一种新颖的采样算法——锦标赛采样(Tournament sampling),在不影响LLM生成文本质量的前提下,提高了水印的检测率。研究人员在自家的Gemini和Gemini Advanced上进行了测试,评估了近2000万个实时交互响应,用户反馈良好。

SynthID-Text的实现方式是在生成过程中添加水印。具体来说,它在每个生成步骤中使用随机种子生成器、采样算法和评分函数三个组件。随机种子生成器根据之前的文本token和水印key生成随机种子,采样算法使用这些种子从LLM生成的分布中采样下一个token。通过这种方式,水印被嵌入到生成的文本中。检测水印时,使用评分函数来衡量token与水印的相关性。

为了更好地理解SynthID-Text的工作原理,我们可以看一个具体的例子。假设我们有一个水印key和前几个token(例如4个),通过哈希函数生成m个向量,每个向量对应一个可选的next token。然后,通过锦标赛采样算法,从这些token中选出一个获胜者。具体步骤如下图所示,8个token参加3轮比赛,每轮中的token根据当前轮次对应的向量两两pk,胜者进入下一轮,如果打平则随机选择一个胜者。

水印检测的关键在于评分函数。通过将所有的token输入到所有的水印函数中,计算平均值,带水印的文本通常得分较高。影响评分函数检测性能的因素主要有两个:文本长度和LLM的熵。较长的文本包含更多的水印证据,有助于提高检测的准确性。而LLM的熵越低,水印的效果可能越差。

SynthID-Text的计算成本较低,因为它只涉及对采样层的修改。在大规模产品化系统中,文本生成过程通常比简单的循环更复杂。为了提高效率,研究人员提出了两种带有推测采样的生成水印方案:高可检测性水印推测采样和快速水印推测采样。前者保留了水印的可检测性,但可能增加整体延迟;后者保留了推测采样的效率,但可能降低水印的可检测性。

总的来说,SynthID-Text在保持文本质量的同时,提供了高效的水印检测方案,有助于解决AI生成的可信度问题。

本文来源: IT之家【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...