OpenAI 近日宣布对 ChatGPT 语音模式进行重大更新,将其与主聊天窗口深度整合,取代了此前独立的“语音模式”入口。此次更新旨在提供更流畅、零打断的用户体验,允许用户在语音交流的同时实时查看视觉输出和对话转录。
更新后,用户只需按住麦克风图标即可开始语音提问,ChatGPT 界面将同步显示相关的视觉结果,如路线地图、数据图表或商品图片,对话文字转录也会实时生成并自动滚动。这意味着用户无需再跳转页面,实现多模态信息的同屏显示。
此次交互优化实现了“零打断”体验,用户可以连续追问,模型在语音回复的同时能即时更新画面,平均延迟低于 300 毫秒,显著提升了对话的自然度和效率。
为满足不同用户的偏好,OpenAI 还提供了“后悔药开关”。用户可以通过“设置 → 语音 → 沉浸式音频模式”的路径,选择切换回旧版独立语音界面,以适应纯音频的使用习惯。
在技术底层方面,此次新语音功能由 GPT-5.1-large 模型和多模态视觉编码器共同驱动,支持 100k tokens 的上下文窗口。语音处理结合了端侧语音活动检测(VAD)与云端自动语音识别(ASR),转录准确率高达 96%,并支持 12 种语言。
此次更新的发布与覆盖范围广泛。ChatGPT Plus、Pro 和 Team 用户已即刻在全平台体验到这些新功能,免费版用户也将随后分批开放。 在硬件适配方面,OpenAI 针对 iPhone 15 系列和 Pixel 9 进行了优化,确保在低功耗模式下对设备续航的影响低于 4%。
面向开发者,OpenAI 计划于 2026 年第一季度开放 RealtimeMultimodal 接口,支持第三方应用程序调用相同的实时语音与视觉能力。OpenAI 表示,此次合并是“ChatGPT 6.0 体验”的第一步,未来将持续拓展多模态边界,计划加入购物比价、群聊语音等更多应用场景。