可灵AI发布O1视频大模型，整合多模态能力简化视频创作流程

可灵AI公司日前宣布，其自主研发的O1视频大模型已于12月1日正式面向公众全面开放。该模型被官方称为“全球首个统一多模态视频大模型”，旨在通过创新的架构显著提升AI视频制作的效率与质量。

O1模型采纳了MVL（多模态视觉语言）统一交互架构，打破了传统视频生成工具功能割裂的局面。用户现在可以在单一输入界面内，同时运用文字、图像和视频指令进行创作。此外，该模型首次融入了Chain-of-Thought推理链路，以增强其对用户意图的理解和事件的逻辑推演能力。

与以往需要分步骤执行文生视频、图生视频、局部编辑及镜头延展等任务的模式不同，O1模型能够一次性完成上述所有操作，无需用户在不同功能间频繁切换。可灵AI产品负责人指出，O1模型借助多视角主体构建技术，有效解决了在镜头切换时常见的人物或物体“特征漂移”问题，确保了多主体场景下画面的连贯性和一致性。

目前，O1模型已同步在可灵App及其官方网站上线，用户可体验生成3至10秒时长的视频。此项服务主要面向短视频创作者、广告制作团队以及广大个人用户。公司透露，未来计划开放API接口，以便第三方平台能够集成此项技术。

业界分析师普遍认为，可灵O1大模型的推出有望进一步降低AI视频内容的制作门槛。然而，该模型能否在生成视频的质量与运营成本效率之间找到最佳平衡点，仍有待市场的进一步检验。