ChatGPT新功能仅15秒录音就能合成逼真人声 OpenAI:暂不公开

撰文: 欧敬洛
出版:更新:

OpenAI决定推迟公开它们正在研发的新软件Voice Engine,这软件可通过短短15秒的录音,就能复制并合成逼真人声语音。OpenAI表示现时发布这工具的风险太大。

Voice Engine在2022年开发,最初的版本用于ChatGPT的文本转语音功能。然而,OpenAI希望将其拓展成为模拟语音的工具,复制真人的声音。

OpenAI在博客文章中表示:“我们希望就合成声音的负责任应用,以及社会如何应对这些新能力展开对话。”“基于小规模测试的结果,我们将更明智地决定是否以及如何大规模部署这项技术。”

图为2023年7月6日,于中国上海举行的人工智能大会上,巨型的AI标志。(Reuters)

在文章中,OpenAI分享了合作伙伴试用这项技术的实际应用例子。如教育科技公司Age of Learning使用它来生成剧本配音,而AI语音公司HeyGen则利用用户录音直接进行翻译,如使用法语用户的音频样本,模拟用户读出英语。

要作出逼真的模拟并不需要太多样本,其中一个示范仅使用了15秒的录音,就能成功复制。

OpenAI表示,现时不会公开发布这技术,是因为目前风险太大。公司呼吁社会就 “保护个人声音在人工智能中使用的政策”展开讨论,以及“教育公众了解人工智能技术的能力和限制,包括存在欺诈内容的可能性”。