可灵AI发布O1视频大模型,整合多模态能力简化视频创作流程

可灵AI公司日前宣布,其自主研发的O1视频大模型已于12月1日正式面向公众全面开放。该模型被官方称为“全球首个统一多模态视频大模型”,旨在通过创新的架构显著提升AI视频制作的效率与质量。

O1模型采纳了MVL(多模态视觉语言)统一交互架构,打破了传统视频生成工具功能割裂的局面。用户现在可以在单一输入界面内,同时运用文字、图像和视频指令进行创作。 此外,该模型首次融入了Chain-of-Thought推理链路,以增强其对用户意图的理解和事件的逻辑推演能力。

与以往需要分步骤执行文生视频、图生视频、局部编辑及镜头延展等任务的模式不同,O1模型能够一次性完成上述所有操作,无需用户在不同功能间频繁切换。 可灵AI产品负责人指出,O1模型借助多视角主体构建技术,有效解决了在镜头切换时常见的人物或物体“特征漂移”问题,确保了多主体场景下画面的连贯性和一致性。

目前,O1模型已同步在可灵App及其官方网站上线,用户可体验生成3至10秒时长的视频。此项服务主要面向短视频创作者、广告制作团队以及广大个人用户。 公司透露,未来计划开放API接口,以便第三方平台能够集成此项技术。

业界分析师普遍认为,可灵O1大模型的推出有望进一步降低AI视频内容的制作门槛。然而,该模型能否在生成视频的质量与运营成本效率之间找到最佳平衡点,仍有待市场的进一步检验。

上一篇:

下一篇:

发表回复

登录后才能评论