OpenAI 谨慎亮相多语言生成式人工智能语音引擎

2024 年 3 月 29 日，OpenAI 首次发布了用于语音合成的人工智能生成模型–语音引擎。

根据 OpenAI 的一篇博文，语音引擎自 2022 年末开始开发，该产品背后的技术已经在现有产品中得到应用，如 OpenAI 的文本到语音 API 和 ChatGPT 语音和朗读。

但是，OpenAI 正试图谨慎处理这些应用之外的问题，理由是存在 “潜在合成语音滥用 “的风险。

为此，OpenAI 尚未向公众提供语音引擎，该公司目前正在与一小群 “值得信赖的合作伙伴 “测试这一模式。(除了 OpenAI 等个别公司的责任外，美国联邦通信委员会还规定，人工智能生成的语音在 2024 年 2 月的抢答电话中是非法的）。

其中包括一些从事翻译工作的用户。语音引擎只需使用 15 秒钟的音频片段，就能生成另一种语言的合成语音。

Slator Pro 指南：人工智能翻译

Dimagi 公司为不同国家服务不足社区的一线医护人员开发工具，该公司使用语音引擎以医护人员的母语提供互动反馈。

“OpenAI 在博文中解释说：”当用于翻译时，语音引擎会保留原说话者的母语口音：例如，用法语说话者的音频样本生成英语，就会产生带有法语口音的语音。

这就是一个很好的例子：英语源音频片段或参考音频片段配有西班牙语、普通话、德语、法语和日语版本的生成片段（每个版本都带有明显的美国口音）。

脱颖而出

所谓的 “语音克隆 “技术是 ElevenLabs、Papercup、Deepdub 和 Respeecher 等多家初创公司的基石，也是亚马逊、微软和谷歌等科技巨头的主要兴趣所在。

对于 OpenAI 来说，语音引擎的训练数据来源是一个敏感话题，它曾被《纽约时报》起诉侵犯其文本生成工具的版权。

OpenAI 产品团队成员杰夫-哈里斯（Jeff Harris）告诉 TechCrunch，语音引擎模型是 “在授权数据和公开数据的混合基础上 “训练出来的，他还补充说，”使用的音频（即来自用户的 15 秒片段）在请求完成后就被丢弃了”。

TechCrunch 还报道了每小时约 1 美元的价格估算–低于某些竞争对手，如 ElevenLabs，其每月收费为 11 美元/100,000 个字符。“OpenAI在2022年就开发出了语音引擎……你还认为AGI（人工通用智能）还没有在内部实现吗？”语音合成技术的普及已经在娱乐界引起了争议。特别是，由于担心演员可能会失去配音工作，部分原因导致了 2023 年长达数月的演员罢工。好莱坞以外地区对它的印象则褒贬不一。

尽管《纽约时报》一直在反对 OpenAI，但该报在报道 Voice Engine 时还是带着一种令人窒息的惊叹，写道 OpenAI “已经推出了可以再现某人声音的技术”。

“OpenAI在2022年就开发出了语音引擎…… “一位印象深刻的评论员指出，并反问道：”……你还认为内部还没有实现AGI（人工通用智能）吗？

X 的另一位观察员的看法显然没有那么积极：”现在，只需 15 秒钟的音频，OpenAI 就能完全模仿你的声音，就像来自地狱的机器人鹦鹉”。

原文链接

Slator Pro 指南：人工智能翻译

脱颖而出

发表评论 取消回复

发表评论取消回复