马斯克预估Grok 5有10%概率实现通用人工智能,实时视频理解为关键

在近日举行的巴伦投资大会(Barron’s Investment Conference)上,埃隆·马斯克首次公开量化了他对旗下人工智能公司xAI即将推出的Grok 5模型实现通用人工智能(AGI)的预测,称其有“约10%的机会”达到这一里程碑。他强调,实时视频理解能力将是Grok 5触及AGI的核心要素。

据马斯克透露,Grok 5预计将于明年第一季度发布。 该模型将采用6万亿参数的MoE(混合专家)结构,稀疏度达70%,显存占用约为GPT-4o的1.8倍。 Grok 5被设计为一款多模态模型,能够统一编码文本、图像、音频和实时视频流,实现低于120毫秒的帧级延迟。

马斯克指出,xAI的核心竞争优势在于其可获取X平台(原Twitter)的实时数据。根据服务条款,X平台每日5亿条公开帖文和2亿小时视频流可实时回灌用于Grok 5的训练。 训练集群方面,Grok 5将使用孟菲斯(Memphis)超算的10万张H100 GPU,峰值性能达到750 PFLOPs,预计预训练将于2026年2月完成。

马斯克将“实时视频理解”定义为“AGI的入场券”,认为模型必须能够边观察边推理,完成人类所能执行的视觉任务,例如实时修理汽车或解读街景。 内部测试显示,Grok 5在300项视觉推理任务中的通过率为68%,已接近人类75%的基线水平。 在现场演示中,Grok 5成功实时分析了一段30秒的无人机航拍视频,识别出47个物体类别、推测交通流量、给出最短驾车路线并提醒前方施工危险,全程无需额外微调。

在提及AGI的风险与监管时,马斯克重申了2030年AGI实现的时间表,并表示“解除全人类武装”式的和平路径需要在全球可验证的框架内进行;xAI已预留10%的算力用于对齐与安全研究。

此外,xAI还宣布Grok 5计划于2026年公开挑战《英雄联盟》顶级职业战队,旨在测试其在复杂策略环境中的实时决策和适应能力。

上一篇:

下一篇:

发表回复

登录后才能评论