您所在的位置：首页 - 手表 - 正文手表

高级语音模式终于上线：中文一开口，就暴露了「歪果仁」身份

admin 07-31 【手表】 1129人已围观

摘要机器之心报道编辑：蛋酱、小舟OpenAI的「Her」终于向部分人群开放了。今年5月，OpenAI在「春季新品发布会」上搬出了新一代旗舰生成模型GPT-4o、桌面App，并展示了一系列新能力。现在，OpenAI宣布向一小部分ChatGPTPlus用户开放ChatGPT的高级语音模式，让用户首次获得GPT-4o的超现实音频响应。这部分用户将在ChatGPT应用程序中收到提醒，并收到一封电子邮件，其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来，我们一直致力于加强语音对话的安

机器之心报道

编辑：蛋酱、小舟

OpenAI的「Her」终于向部分人群开放了。

今年5月，OpenAI在「春季新品发布会」上搬出了新一代旗舰生成模型GPT-4o、桌面App，并展示了一系列新能力。

现在，OpenAI宣布向一小部分ChatGPTPlus用户开放ChatGPT的高级语音模式，让用户首次获得GPT-4o的超现实音频响应。这部分用户将在ChatGPT应用程序中收到提醒，并收到一封电子邮件，其中包含有关如何使用该应用程序的说明。

「自从我们首次演示先进的语音模式以来，我们一直致力于加强语音对话的安全性和质量，准备将这项前沿技术带给数百万人。」OpenAI表示，该功能将在2024年秋季逐步向所有Plus用户推出。

一些用户已经晒出了高级语音模式的使用效果：

来源：https://x.com/tsarnick/status/1818402307115241608

当你和ChatGPT讲段子时，高级语音模式终于上线：中文一开口，就暴露了「歪果仁」身份Ta可以提供一些笑声陪伴：

来源：https://x.com/yoimnotkesku/status/1818406786077970663

使用ChatGPT的高级语音模式，「Her」可以在讲故事的同时创建背景音乐，并且适用于多种语言。

来源：https://x.com/yoimnotkesku/status/1818415019349901354

法语、西班牙语和乌尔都语也都可以：

来源：https://x.com/yoimnotkesku/status/1818424494106853438

但中文表达不太地道，仿佛一个正在学习中文的「歪果仁」：

来源：https://x.com/yoimnotkesku/status/1818446895083139170

听完的人都懵了：

而口音问题不只出现在中文，据说德语也一样：

来源：https://x.com/yoimnotkesku/status/1818445235606671670

最后，讲段绕口令吧：

来源：https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI表示高级语音模式与ChatGPT目前提供的语音模式有所不同。

ChatGPT的旧语音模式解决方案使用了三种独立的模型：一个模型将语音转换为文本，GPT-4负责处理提示（prompt），第三个模型则负责将ChatGPT的文本转换为语音。而GPT-4o是多模态的，能够在没有辅助模型的帮助下处理这些任务，从而显著降低对话延迟。OpenAI还表示GPT-4o可以感知用户声音中的情绪语调，包括悲伤、兴奋等等。

今年5月，OpenAI首次展示了GPT-4o的语音功能，「她」的反应速度、与真人声音的惊人相似度震惊了观众——问题就出在这儿。

这个名叫「Sky」的声音酷似电影《Her》中人工助手的扮演者斯嘉丽・约翰逊（ScarlettJohansson）。

在OpenAI演示之后不久，约翰逊说她曾拒绝OpenAICEO山姆・奥特曼关于使用她的声音的多次请求，在看到GPT-4o的演示之后，她聘请了法律顾问为自己的声音辩护。OpenAI否认使用了斯嘉丽・约翰逊的声音，但也删除了演示中的声音。

6月，OpenAI表示将推迟发布高级语音模式，以改进其安全措施。

漫长的等待后，「Her」总算与大家见面了。OpenAI表示，此次推出的高级语音模式将仅限于ChatGPT与付费配音演员合作，制作了四种预设语音：Juniper、Breeze、Cove和Ember。

值得注意的是，输出的声音有且只有这四种——OpenAI5月份的演示中展示的Sky语音已不再适用于ChatGPT。OpenAI发言人LindsayMcCallum表示：「ChatGPT不能冒用他人的声音，包括个人和公众人物的声音，并且会阻止与这些预设声音之一不同的输出。」

这种设置的初衷是避免Deepfake争议。今年1月，人工智能初创公司ElevenLabs的语音克隆技术被用来冒充美国总统拜登，欺骗了新罕布什尔州的初选选民，引发了不小的争议。

OpenAI还表示，已经引入了新的过滤器来阻止某些生成音乐或其他受版权保护音频的请求。

去年，很多图像生成、音乐生成的AI公司因侵犯版权而陷入了法律纠纷，尤其是喜欢打官司的唱片公司，已经起诉过人工智能音频生成器Suno和Udio。而GPT-4o这样的音频模型则让可以提出投诉的公司增加了一个全新的类别。

据说，OpenAI与45种语言的100多名外部「红队」成员一起测试了GPT-4o的语音功能。而这些关键信息，将在8月份一份关于GPT-4o的功能、局限性和安全评估报告中有更详细的公布。

参考链接：

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

Tags：高级语音模式终于上线中文一开口就暴露了「歪果仁」身份

上一篇：韦东奕现身山东大学，一位数学天才的校园风采

下一篇：雷军称如果没造车，如今多半在干，年前修了一堆课程，小米未来年将投入亿加码赋能附人工智能行业投资分析

您所在的位置：首页 - 手表 - 正文手表

高级语音模式终于上线：中文一开口，就暴露了「歪果仁」身份

目录[+]