OpenAI 宣布 ChatGPT 语音模式深度整合主界面，实现实时多模态交互

OpenAI 近日宣布对 ChatGPT 语音模式进行重大更新，将其与主聊天窗口深度整合，取代了此前独立的“语音模式”入口。此次更新旨在提供更流畅、零打断的用户体验，允许用户在语音交流的同时实时查看视觉输出和对话转录。

更新后，用户只需按住麦克风图标即可开始语音提问，ChatGPT 界面将同步显示相关的视觉结果，如路线地图、数据图表或商品图片，对话文字转录也会实时生成并自动滚动。这意味着用户无需再跳转页面，实现多模态信息的同屏显示。

此次交互优化实现了“零打断”体验，用户可以连续追问，模型在语音回复的同时能即时更新画面，平均延迟低于 300 毫秒，显著提升了对话的自然度和效率。

为满足不同用户的偏好，OpenAI 还提供了“后悔药开关”。用户可以通过“设置 → 语音 → 沉浸式音频模式”的路径，选择切换回旧版独立语音界面，以适应纯音频的使用习惯。

在技术底层方面，此次新语音功能由 GPT-5.1-large 模型和多模态视觉编码器共同驱动，支持 100k tokens 的上下文窗口。语音处理结合了端侧语音活动检测（VAD）与云端自动语音识别（ASR），转录准确率高达 96%，并支持 12 种语言。

此次更新的发布与覆盖范围广泛。ChatGPT Plus、Pro 和 Team 用户已即刻在全平台体验到这些新功能，免费版用户也将随后分批开放。在硬件适配方面，OpenAI 针对 iPhone 15 系列和 Pixel 9 进行了优化，确保在低功耗模式下对设备续航的影响低于 4%。

面向开发者，OpenAI 计划于 2026 年第一季度开放 RealtimeMultimodal 接口，支持第三方应用程序调用相同的实时语音与视觉能力。OpenAI 表示，此次合并是“ChatGPT 6.0 体验”的第一步，未来将持续拓展多模态边界，计划加入购物比价、群聊语音等更多应用场景。