如何通过手搓Token炸弹巧妙运用Unicode和变体选择符隐藏信息,有效防AI洗稿并保护原创内容

今天给大家分享一个新奇的方法,聊聊我是如何防止AI洗稿的。对于像我这样的创作者来说,最头疼的就是那些通过AI抄袭拼凑的文章。全篇复制还好说,容易举报;但很多人会复制我文章中的某一段话,用AI重写后贴到他们的文章里,这种做法很难被发现和处理。

直到我偶然看到了OpenAI创始成员Karpathy之前发的一条推文,他提到可以在emoji中藏入大量不可见的信息,这些信息不会影响显示,却会让系统读取时遇到麻烦。比如,他在一条推文中藏了大量信息,让DeepSeek R1的解析器足足懵圈了10分钟。

这让我想到,是否可以用类似的方法来防止AI洗稿呢?于是我在一篇文章中尝试了这个方法,在公众号后台看到原本2000字的文章变成了将近3万字。而多出来的1万多字,其实是隐藏在文字中的Token炸弹,虽然肉眼看不见,但在系统统计上却增加了字数。

具体操作是利用Unicode字符集中的变体选择符(Variation Selector, VS)。每个字符后面可以添加多个VS符号,使其看起来不变,但实际包含了很多隐藏信息。例如,字母“n”可以变成“n󠄱”,表面上还是“n”,但实际上多了很多隐藏字符。

你可以通过以下网站测试token数量:[OpenAI Tokenizer](https://platform.openai.com/tokenizer)

解码方法也很简单,使用这个工具:[Emoji Encoder](https://emoji-encoder.vercel.app/?mode=decode) 将含有隐藏信息的文字粘贴进去,点击“Decode”按钮即可解码。

编码方法同样简单,切换到“Encode”模式,输入你想隐藏的信息,然后选择一个表情或字母作为载体,最后复制生成的结果。

这种方法不仅能防止大多数AI产品进行改写,还能在某些情况下用来传输隐秘信息,甚至可以当作数字水印追踪文档泄露源。当然,它对更高级的推理模型可能无效,但对于普通的自动化洗稿手段,已经足够有效。

我主要用它来防洗稿,虽然有些粗暴,但也比什么措施都不采取要好得多。毕竟,创作者最痛心的是自己辛辛苦苦打磨的作品,被一些人用技术手段轻易变成别人的成果,连投诉都找不到门路。如果这个小技巧能帮到你,那对我来说就非常值得了。

本文来源: 数字生命卡兹克公众号【阅读原文】
© 版权声明

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...