谷歌DeepMind最新研究登上Nature封面，隐形水印方案提升AI生成内容的文本质量与大型语言模型的安全性

每日AI快讯1年前 (2024)发布 AI部落小助手

你是否知道，我们每天在网上看到的有多少是由AI生成的？除了那些令人头皮发麻的“注意看！这个男人叫小帅”之外，真正的难题在于我们无法分辨哪些是AI生成的。随着这些擅长一本正经胡说八道的AI不断进化，人类面临的挑战也日益增多。

近日，谷歌DeepMind团队在Nature期刊上发表了一项重要研究，提出了一种名为SynthID-Text的水印方案，该方案可以应用于生产级别的大型语言模型（LLM），帮助追踪AI生成的文本，使其无所遁形。论文地址：[https：//www.nature.com/articles/s41586-024-08025-4](https：//www.nature.com/articles/s41586-024-08025-4)

与常见的图片水印不同，文本水印需要更加隐蔽。SynthID-Text采用了一种新颖的采样算法——锦标赛采样（Tournament sampling），在不影响LLM生成文本质量的前提下，提高了水印的检测率。研究人员在自家的Gemini和Gemini Advanced上进行了测试，评估了近2000万个实时交互响应，用户反馈良好。

SynthID-Text的实现方式是在生成过程中添加水印。具体来说，它在每个生成步骤中使用随机种子生成器、采样算法和评分函数三个组件。随机种子生成器根据之前的文本token和水印key生成随机种子，采样算法使用这些种子从LLM生成的分布中采样下一个token。通过这种方式，水印被嵌入到生成的文本中。检测水印时，使用评分函数来衡量token与水印的相关性。

为了更好地理解SynthID-Text的工作原理，我们可以看一个具体的例子。假设我们有一个水印key和前几个token（例如4个），通过哈希函数生成m个向量，每个向量对应一个可选的next token。然后，通过锦标赛采样算法，从这些token中选出一个获胜者。具体步骤如下图所示，8个token参加3轮比赛，每轮中的token根据当前轮次对应的向量两两pk，胜者进入下一轮，如果打平则随机选择一个胜者。

水印检测的关键在于评分函数。通过将所有的token输入到所有的水印函数中，计算平均值，带水印的文本通常得分较高。影响评分函数检测性能的因素主要有两个：文本长度和LLM的熵。较长的文本包含更多的水印证据，有助于提高检测的准确性。而LLM的熵越低，水印的效果可能越差。

SynthID-Text的计算成本较低，因为它只涉及对采样层的修改。在大规模产品化系统中，文本生成过程通常比简单的循环更复杂。为了提高效率，研究人员提出了两种带有推测采样的生成水印方案：高可检测性水印推测采样和快速水印推测采样。前者保留了水印的可检测性，但可能增加整体延迟；后者保留了推测采样的效率，但可能降低水印的可检测性。

总的来说，SynthID-Text在保持文本质量的同时，提供了高效的水印检测方案，有助于解决AI生成的可信度问题。

本文来源：