Pex 推出 AI 音乐检测方案

随着生成式人工智能的快速发展，声音克隆已经非常流行，这对音乐人和版权方来说成为了一个现实的问题。许多使用人工智能生成模仿著名歌手歌声的音乐很可能是通过未经许可而使用受版权保护的内容训练的人工智能模型所创作。这意味着原创音乐人不会因其作品或声音被使用而获得署名和报酬，而Pex旨在改变这种现况。通过将最新的语音ID技术与已有的内容识别技术相结合，Pex可以继续帮助版权所有者保护他们的知识产权，包括他们的嗓音。

Pex是一家成立于2014年并专注于音视频数据识别的公司，现已扫描了互联网上超过200亿条数据并从中识别出未经授权的的音乐和视频内容，覆盖包括YouTube、TikTok等主流平台。其最近一次融资发生在2021年，共筹得5700万美元。投资方包括腾讯(Tecent)、腾讯音娱(TME)、Susa Ventures、Illuminate Ventures、CueBall Group、NexGen Ventures Partners, Amaranthine等。而早在2017年，Pex就获得了包括环球音乐集团(UMG)和华纳音乐集团(WMG)等共计700万美元的种子轮投资。

水印检测和伪影(Artifact)检测

各种不同的人工智能技术方案和新的模型将持续高速发展，这使得很难确切地区分人工智能生成的内容。当前人工智能发展的速度也使得识别技术难以跟上生成技术进步的步伐。目前，人工智能生成内容的检测通常包括水印检测和伪影检测这两种不同的方法。然而，这两种方法都不是完全可靠的。

水印检测

这种方法依赖于对所添加的水印进行检测。在人工智能内容生成过程中，人工智能模型或生成平台会将不可察觉的水印嵌入到生成的内容本身中。当水印特征已知时，则有技术手段可以检测到它们，从而将内容识别为人工智能生成的。水印检测的主要缺陷是，目前还没有水印技术能够确保成功对抗删除和修改攻击。由于水印本身旨在被检测算法发现，因此此类检测算法也可被改动后用于删除或篡改嵌入音频当中的水印而使其不可发现。因此，水印检测不能被视为一种识别人工智能生成内容的可靠方法，尤其是当此类内容的发布者出于一些目的制造恶意或误导性信息时。

伪影检测

第二种方法依赖于检测生成内容中人工智能特有的伪影。例如在早期的图像生成模型中，人的手经常是畸形的，又或者耳环会出现不匹配的情况。这类伪影很容易被发现，但后来随着人工智能的进步，这些问题已经被新的模型基本解决了。由于查找人工智能生成内容的特定伪影特征检测工具也是基于深度神经网络的模型，所以必须对大量真实示例和生成的示例进行模型训练。通过这种方法来阻止人工智能生成内容的广泛传播通常已是为时已晚，因为检测工具本身必须依赖它应该检测的内容来作为训练数据。因此，伪影检测将始终落后于人工智能生成模型的发展，并非合适的识别解决方案。

Pex Voice ID和自动内容识别 (ACR) 技术如何识别人工智能生成内容

水印和伪影检测的缺陷使得识别人工智能生成的音乐成为一项特别困难的任务。Pex认为自动内容识别技术是应对人工智能更准确、且具有扩展性和防御性的解决方案。自动内容识别的工作原理是将一段内容与另一段内容进行比较，并确定是否匹配。它不会寻找伪影或水印，而是检查整个文件以查找互相重叠的内容。通过结合Pex已有的音频、旋律、元辅音和当前的语音匹配技术，Pex可以对人工智能生成的翻唱歌曲、发行歌曲的歌声替换以及使用人工智能歌声的新歌曲进行识别。

Pex的语音识别技术可以通过匹配歌手声音的生物特征来识别歌手，包括歌唱、说唱和讲话。该项语音识别技术旨在将人类和人工智能生成的声音相互匹配，并确定音频中声音的原本真实身份。

歌手匹配可以判定多个音频中是否有相同的歌手，无论各自的音乐风格和使用的语言。即使声音匹配的时长只有10秒，该项技术也可以确定多首歌曲中的哪些片段包含相同的歌手。匹配过程无需事先知道歌手的身份，也无需使用任何语音样本训练模型即可进行识别。

图1：通过提取语音生物特征实现歌手识别

我们可以将原始歌声与人工智能生成的歌手进行比较并确定它们是否相同。一个很好的例子就是在去年病毒式传播的人工智能歌曲《Heart on my Sleeve》。这首歌曲使用人工智能生成的歌声模仿Drake和The Weeknd。Pex Voice ID将Drake在《Hotline Bling》中的声音与其进行匹配，并将The Weeknd《Save Your Tears》中的声音进行同样的匹配识别。

图2：《Hotline Bling》与《Heart on my Sleeve》在时间线上的匹配示意

图3：《Save Your Tears》与《Heart on my Sleeve》在时间线上的匹配示意

歌手身份识别可确定音频文件中歌手的真实身份。要识别特定歌手，他们的声音和身份必须录入参考数据库。使用语音识别技术以数字指纹的形式提取歌手的语音生物特征后不会保留任何原始音频材料。歌手识别技术提取的声音指纹只能用于识别歌手，而不能重新生成他们的声音。借助语音指纹数据库，该项技术可以在任何音频中识别出知名歌手，包括使用人工智能生成的歌声。如果我们对合唱歌曲《The Boy is Mine》进行识别，系统就能清晰地反映出哪些片段分别包含歌手Brandy和Monica各自的歌声。同样的，在《Heart on my Sleeve》中我们也可以将其与Drake的声音生物识别指纹进行比较，并确定《Heart on my Sleeve》中使用的是Drake的声音。

图4：《The Boy is Mine》的识别结果

Pex Voice ID + 自动内容识别（ACR）

单靠Voice ID无法区分真实声音和人工智能生成的声音，但我们可以使用自动内容识别技术结合Voice ID来查找人工智能生成的音乐。Pex的语音识别技术和音频匹配技术协作便能够在被人工智能改动的《Careless Whisper》中识别出篡改的迈克尔·杰克逊的声音。通过识别出该音频的原始版本并单独识别出迈克尔·杰克逊的声音，我们可以确定这首歌曲使用的是人工智能歌声替换。

视频1：乔治·迈克尔的原唱
https://youtu.be/izGwDsrQ1eQ

视频2：迈克尔·杰克逊的歌声被替换到这首歌中
https://youtu.be/d-UOKiVxRfw

创作者不仅仅是在原创歌曲中更换人声，他们还利用人工智能创作全新的歌曲，并以知名歌声的风格生成演唱部分。我们在一首人工智能歌曲中识别到了Drake、Travis Scott 和 21 Savage的人声。其中每位歌手在曲目的不同部分都运用其独特的人声风格，而Pex的技术能够识别每个声音以及他们在歌曲中唱歌和说唱的特定位置。

视频3：掺杂了知名歌手的歌声替换的歌曲
https://youtu.be/mavRq0UZz58

图5：系统判断出各个歌手演唱的部分

我们还可以结合语音识别技术和自动内容识别来辨认出这首由人工智能改动并使用了约翰尼·卡什 (Johnny Cash)嗓音演唱的《Barbie Girl》。两个版本的这首歌的唱腔和流派截然不同，但通过底层旋律和歌词，我们仍然能够找到这首翻唱歌曲。当我们将声音识别为Johnny Cash就能进一步确定这首歌是人工智能所为。

视频4：AI Johnny Cash的翻唱
https://youtu.be/MAFdzBTe2lg

视频5：Aqua的原唱
https://youtu.be/ZyhrYis509A