版权归原作者所有,如有侵权,请联系我们

只需15秒音频,AI即可帮助失语者“重获声音”?

学术头条
一起见证人类探索征途上的每一个重大突破。
收藏

OpenAI 在官网分享了他们在 AI 语音合成方面的一些进展——公布了一个名为“语音引擎”(Voice Engine)的模型的小规模预览的初步见解和结果。

据介绍,该模型使用文本输入和单个 15 秒音频样本来生成与原始说话者非常相似的自然语音。值得注意的是,一个只有 15 秒样本的小型模型就能生成富有感情和逼真的声音。

早在 2022 年底,OpenAI 便开发了 Voice Engine 并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 语音和朗读。

今天,通过一些实际案例,OpenAI 分享了一些 Voice Engine 的早期应用

例如,使用 Voice Engine 帮助恢复一名因血管性脑肿瘤而失去流利语言能力的年轻患者的声音。

此外,Voice Engine 还可以被用来提供阅读帮助、翻译内容、为不会说话的人群提供支持等。

图库版权图片,转载使用可能引发版权纠纷

1)通过声音自然、富有感情的声音为非阅读者和儿童提供阅读帮助

这些声音代表了更广泛的说话者,而不是预设的声音。Age of Learning 是一家教育技术公司,该公司一直在使用 Voice Engine 生成预设的画外音(voice-over)内容。他们还利用 Voice Engine 和 GPT-4 创建实时、个性化的回应,与学生互动。

2)翻译视频和播客等内容

Voice Engine 可以让创作者和企业可以用自己的声音流利地向世界各地更多的人传播。据 OpenAI 介绍,HeyGen 是这方面的早期应用者之一。HeyGen 是一个人工智能视觉故事平台,通过使用 Voice Engine 进行视频翻译,将演讲者的声音翻译成多种语言,并覆盖全球受众。用于翻译时,Voice Engine 会保留原说话者的母语口音:例如,用法语说话者的音频样本生成英语,就会产生带有法语口音的语音。

3)为不会说话的人群提供支持

Voice Engine 可以为患有影响语言的疾病的人群提供治疗应用,为有学习需求的人群提供教育增强功能等。Livox 是一款人工智能替代性交流应用程序,为辅助性和替代性交流(AAC)设备提供支持,使残疾患者能够进行交流。Voice Engine 能够为不会说话的人群提供多种语言的独特非机器人语音。用户可以选择最能代表自己的语音,对于多语种用户,每种口语都能保持一致的语音。此外,Voice Engine 还通过改善偏远地区的基本服务提供深入全球社区。例如,Dimagi 正在为社区卫生工作者开发工具,从而提供各种基本服务,如“为母乳喂养的母亲提供咨询”。为了帮助这些工作人员提高技能,Dimagi 使用 Voice Engine 和 GPT-4 以每位工作人员的主要语言(包括斯瓦希里语或更加非正式的语言)提供互动反馈。

OpenAI 表示,由于合成语音有可能被滥用,他们对更广泛的发布采取了谨慎和知情的态度,选择在此时预览但不广泛发布这项技术。

他们在与这些合作伙伴签订的条款中,要求获得原发言人的明确和知情同意,且不允许开发人员为个人用户创建自己的声音。这些合作伙伴还必须向受众明确披露,其听到的声音是人工智能生成的。

此外,OpenAI 还实施了一系列安全措施,包括水印以追踪 Voice Engine 生成的任何音频的来源,以及主动监控其使用情况。

OpenAI 表示,他们鼓励在未来加快开发和采用追踪视听内容来源的技术,让人们始终清楚自己是在与真人互动还是在与人工智能互动,并帮助公众了解人工智能技术的能力和局限性,包括人工智能欺骗性内容的可能性等。

参考资料:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

评论
科普科普知识的摇篮!
太傅级
随着科学技术的发展,在 AI 语音合成方面公布了一个名为“语音引擎”的模型的小规模预览的初步见解和结果。通过声音自然、富有感情的声音为非阅读者和儿童提供阅读帮助!!!
2024-03-31
科普中国●yling
贡士级
语音引擎是我们致力于深入探索技术前沿,并公开分享人工智能潜在能力的又一重要里程碑。我们希望此次语音引擎的预览能够充分展示其巨大的潜力,同时帮助社会各界提升适应能力,以应对日益逼真的生成式模型所带来的新挑战。我们期待继续与政策制定者、研究人员、开发者和创意人员就合成声音技术所带来的挑战与机遇展开深入的对话。
2024-03-31
科普中国●yling
贡士级
OpenAI 的 Voice Engine人工智能拟人的无限可能,让我们得以用新的方式“听见”世界。但是,这项技术也带来了不小的挑战和道德考验。随着这样的技术越来越成熟,我们必须更加认真地考虑如何平衡创新和安全。我们该如何确保技术的发展能够促进人类福祉,而不是成为操控和欺诈的工具。
2024-03-31