
1月5日盛金缘证券,据外媒The Information报道,OpenAI计划于2026年第一季度推出全新的语音AI模型,并预计在一年后发布首款完全通过语音指令操控的个人设备。这款设备可能是OpenAI CEO萨姆·阿尔特曼在2025年11月21日访谈中提到的AI硬件产品矩阵的一部分。除了单一产品外,OpenAI还在规划一整套设备矩阵,可能包括智能眼镜和无屏幕智能音箱等。

多位ChatGPT员工透露,目前OpenAI的语音AI模型在回复准确性和响应速度上明显落后于文本模型。为此,OpenAI在过去两个月内整合了多个工程、产品和研究团队,对语音AI进行了一次全面重构。新模型将在音质、延迟和交互方式上进一步逼近真实对话体验,甚至能够在用户说话的同时进行语音播报,呈现更接近“对话伙伴”的状态。
盛金缘证券
回顾OpenAI在语音方向上的技术演进,2022年其推出的Whisper是一套以高准确率著称的自动语音识别系统,主要解决“听懂人说话”的问题;2025年,OpenAI发布了GPT-realtime语音转语音模型,开始探索低延迟、连续对话式的语音交互。这一系列尝试为全新一代语音AI模型的架构重塑奠定了基础。新一代模型在架构层面进行了调整,能够生成听感更自然、情绪更丰富的语音回复,同时在回答深度和准确性上也有明显提升。与现有模型相比,新的语音AI模型可以实现与用户“同步说话”,并在对话中更好地应对打断和插话。这种实时、连续的语音交互能力是当前语音AI模型尚未具备的。
驱动语音AI模型的底层大型语言模型与当前驱动ChatGPT文本回复的模型并不完全相同。语音AI项目的关键负责人之一是昆丹·库马尔,他是一名语音AI研究员,今年夏天从美国AI聊天机器人独角兽公司Character.AI加入OpenAI,负责主导相关工作。项目核心成员还包括产品研究主管本·纽豪斯和多模态ChatGPT的产品经理杰基·香农。
OpenAI的研究人员正在同步推进一款语音驱动的个人设备,其核心理念是让用户通过语音而非屏幕与AI交互。今年夏天,参与该设备研发的研究人员曾向内部员工展示相关构想:这款AI语音设备将更像是一个与用户并肩工作的伙伴,能够主动提供建议,帮助用户完成目标,而不仅仅是应用程序或软件的语音入口。在获得用户授权的前提下,该设备可通过语音和视频感知周围环境及用户自身状态,从而提供更具情境感知能力的服务。
目前,已有多名OpenAI员工参与到与该设备相关的不同环节中,包括供应链管理、工业设计以及模型研究等。在硬件设计层面,OpenAI于2025年5月21日以近65亿美元的价格收购了io公司,io团队的大部分成员(约55人)加入OpenAI。io公司由前苹果首席设计官乔纳森·艾维联合创立,负责为OpenAI设计这款全新的AI硬件产品。知情人士还透露,OpenAI并不打算只推出单一设备,而是计划分阶段发布一系列产品,内部讨论过的形态包括智能眼镜以及完全无显示屏的智能音箱。
The Information的报道中提到,OpenAI的研究人员认为语音是人类最自然的交流方式,人机交互也应回归这一形态。不过,一位前OpenAI员工提到,目前的现实挑战在于大量ChatGPT用户并不习惯使用语音功能。这意味着,在推出语音优先的硬件产品之前,OpenAI需要先培养用户的使用习惯。
在OpenAI的设备设想中盛金缘证券,“无屏幕”被视为一项重要设计方向。部分业内人士认为,这种形态有助于降低用户对设备的成瘾程度。乔纳森·艾维目前正深度参与OpenAI的硬件研发,他认为未来的新型设备或许是修复过去消费电子产品所带来问题的一种方式。与谷歌、亚马逊、Meta、苹果等科技巨头类似,OpenAI也在积极布局新一代个人AI设备,包括可穿戴产品。这些公司认为,当前最主流的设备形态并未真正为未来的AI能力而设计,而这正是下一轮硬件创新的突破口所在。
同创优配提示:文章来自网络,不代表本站观点。