ChatGPT新功能仅15秒录音就能合成逼真人声　OpenAI：暂不公开

撰文：欧敬洛

出版：2024-04-01 06:39更新：2024-04-01 09:40

OpenAI决定推迟公开它们正在研发的新软件Voice Engine，这软件可通过短短15秒的录音，就能复制并合成逼真人声语音。OpenAI表示现时发布这工具的风险太大。

Voice Engine在2022年开发，最初的版本用于ChatGPT的文本转语音功能。然而，OpenAI希望将其拓展成为模拟语音的工具，复制真人的声音。

OpenAI在博客文章中表示：“我们希望就合成声音的负责任应用，以及社会如何应对这些新能力展开对话。”“基于小规模测试的结果，我们将更明智地决定是否以及如何大规模部署这项技术。”

图为2023年7月6日，于中国上海举行的人工智能大会上，巨型的AI标志。（Reuters）

在文章中，OpenAI分享了合作伙伴试用这项技术的实际应用例子。如教育科技公司Age of Learning使用它来生成剧本配音，而AI语音公司HeyGen则利用用户录音直接进行翻译，如使用法语用户的音频样本，模拟用户读出英语。

要作出逼真的模拟并不需要太多样本，其中一个示范仅使用了15秒的录音，就能成功复制。

OpenAI表示，现时不会公开发布这技术，是因为目前风险太大。公司呼吁社会就 “保护个人声音在人工智能中使用的政策”展开讨论，以及“教育公众了解人工智能技术的能力和限制，包括存在欺诈内容的可能性”。