近日,生成式人工智能初创公司Runway正式推出了其先进的视频生成模型Gen-4.5,旨在通过文本指令生成高清晰度视频,并在多个方面展现出显著的技术提升。该模型在独立AI视频基准测试中表现出色,超越了来自科技巨头谷歌和OpenAI的同类产品。
Runway的Gen-4.5模型被内部称为“大卫”,在Artificial Analysis Video Arena排行榜上已位居榜首。该榜单依据用户对盲测视频的偏好投票进行排名。Gen-4.5以1247的Elo评分领先,略高于谷歌的Veo 3(1226分)和OpenAI的Sora 2 Pro(1206分)。Runway首席执行官克里斯托瓦尔·瓦伦苏埃拉(Cristóbal Valenzuela)将这一成就比作一场“大卫与歌利亚之战”的胜利,强调一个拥有约100名员工的团队能够与市值万亿美元的公司竞争,这证明了专注和勤奋的重要性。
技术细节方面,Gen-4.5模型能够在视频生成中更准确地模拟真实世界物理现象,包括人物动作、镜头运动和因果关系,显著提升了视频的逼真度。模型在预训练、后期训练和推理阶段均采用英伟达(NVIDIA)的GPU(包括Hopper和Blackwell硬件)进行优化,从而实现了更高精度和更强的风格控制。Gen-4.5还提高了对文本提示的依从性和可控性,以及时间上的一致性,增强了物体和角色在视频中的连贯性。
尽管取得了显著进步,Gen-4.5仍存在一些局限性。Runway承认该模型在因果推理方面尚不完善,有时会出现效果先于原因或物体在时间上不连贯等问题。此外,模型还表现出一种“成功偏见”,即行动成功的几率高于现实情况。
在应用场景方面,Runway的Gen-4.5在动画、科幻和风格化电影短片方面表现突出,尤其适用于需要高度“可导演性”视觉效果的创意工作。而谷歌的Veo则在制作超清晰、逼真的产品或人物长篇叙事视频方面更具优势。
随着生成模型逼真度的不断提高,区分人工智能生成内容与真实内容的难度日益增加,引发了业界关于AI内容披露的广泛讨论。部分行业专家和政策制定者呼吁强制性披露AI生成内容,以确保透明度。然而,也有研究指出,简单地贴上“AI生成”标签可能会降低受众对内容的信任,甚至可能对创作者产生负面影响。例如,一些游戏公司对是否应强制标注AI生成内容持不同看法。业内正在探讨如何通过更精细化的方式,如在内容元数据中嵌入信息或针对不同类型内容采用差异化披露标准,来平衡透明度需求与潜在的负面效应。