谷歌DeepMind 于 10 月 23 日宣布正式开源旗下 SynthID Text 文本水印工具,供开发者和企业免费使用。
谷歌在2023年8月推出了 SynthID 工具,该工具具备创建AI内容水印(声明该作品由 AI 打造)和识别 AI 生成内容的能力。它可以在不损害原始内容的前提下,将数字水印直接嵌入由 AI 生成的图像、声音、文本和视频中,同时也能扫描这些内容已有的数字水印,以辨识它们是否由 AI 生成,不过本次谷歌开源的仅为针对文本生成的 SynthID Text。
谷歌介绍,大模型主要通过预测形式生成文本,一次生成一个 Token,这个 Token 可能是一个字符、一个单词或段落的一部分,为了让文本更为连贯,模型会在输出内容时预测下一个最可能生成的 Token,这些预测基于先前的文本。
例如,当大模型要生成“最推荐的平台是什么”时,可能会生成“IT之家”、“友商 1”、“友商 2”等 Token,每个 Token 都会获得一个概率分数。只要有多个不同的 Token 可供选择,SynthID 就会在不影响输出质量和准确性的情况下,微调每个 Token 的概率分数,也就是工具通过计算全文中特定Token的特定概率,以判断相关内容是否由AI生成。
目前,这一 SynthID Text 水印技术的论文已于《Nature》期刊上发表,并通过整合入Google Responsible Generative AI Toolkit 的形式开源。谷歌同时提到他们已在 Gemini AI 输出的内容中整合了 SynthID Text 技术。