事件背景
昨晚,许多网友向我转发了一张图片,称警方发布了最新通报,询问我对“三只羊”公司董事长卢文庆录音是否为AI合成的看法。此外,有人告诉我,一位自称是国内AI领域的顶尖专家曾断言,这段录音绝不可能是AI生成的。这一消息让我感到有些困惑。我首先想到的是,难道有院士参与了这种讨论?经过一番调查后发现……算了,不提了。
AI技术解析
有必要澄清一下,AI能否达到三只羊卢文庆录音的水平。我可以明确回答:可以。
事件概述
最近,“三只羊”与另一网红辛巴之间的纠纷闹得沸沸扬扬。在争执最激烈的时候,一段卢文庆的录音在网络上广泛传播。该录音涉及权力斗争、私人生活等问题,引发了广泛关注。三只羊方面随后举报称这段录音是AI合成的,导致网络上对此争论不断。
技术细节
警方已发布通报确认这段录音确系AI合成。那么,AI能否达到如此高水平的录音制作?
首先,需要了解AI技术的分类。AI不仅限于语言大模型(如GPT、Claude等),还包括AI绘图、AI音频、AI视频及AI3D等多个领域。其中,AI音频又细分为AI生成音乐、AI生成音效及声音克隆等方向。
声音克隆技术
声音克隆技术主要分为两类:TTS(文本转语音)和SVC(AI换声)。TTS技术仅需几秒钟的语音样本即可生成特定人的语音,但其在情感表达和自然度方面的表现有限。相比之下,SVC技术则更为复杂,需要较长的音频数据集进行训练,并通过换声技术实现高质量的声音克隆。
TTS与SVC对比
TTS技术的优点在于所需数据较少,生成速度较快,但其在情感表达和自然度方面存在明显不足。因此,若仅依靠TTS技术,很难达到卢文庆录音的水平。然而,SVC技术则不同,它能够保留说话者的情绪、停顿、语气等细节,从而实现高度逼真的声音克隆。
结论
综上所述,AI技术完全可以达到卢文庆录音的水平。警方的通报已经明确指出这段录音是AI合成的。尽管TTS技术可能难以实现,但SVC技术完全可以胜任这一任务。因此,对于那些质疑AI能否生成如此高水平录音的人来说,答案是肯定的。
本文来源: 数字生命卡兹克公众号【阅读原文】