你看这个画面:
一个女人走在东京街上。地面是湿的,反射着五颜六色的霓虹灯。她穿着黑皮夹克、红裙子、黑靴子。整个感觉很酷,像电影镜头。
这不是人拍的。是OpenAI的Sora,靠吃上面那段文字描述,自己生成的视频。
一句话,就能变出一个世界。Sora这东西厉害就厉害在这。那句关键的话,就是提示词(Prompt)。写好这个,就像给AI下对了命令。这玩意不是瞎写几个词就行,里面有门道。

想让Sora听懂话,得先明白它是个啥。它不是简单地把文字和图片对上号,它在试着理解这个世界是怎么运转的。
它懂一点物理。比如光照在水面上会有倒影,风吹过草地草会动。所以它做的视频看着不假。
它还能记住一个东西长啥样。在一个短片里,主角的脸和衣服不会变来变去。你甚至可以让它切换好几个镜头,故事都能连得上。
而且它还是个风格大师。你想让画面是老电影胶片的感觉,或者是那种像素游戏风,它都能给你做出来。
明白了这些,写提示词就有方向了。这活儿很像导演在给整个剧组开会,你得把所有事都交代清楚。一个好用的提示词,基本都包括这五样东西:
- 画面风格
- 主角和动作
- 场景环境
- 镜头怎么拍
- 画质要求
我们一个个说。
第一,画面风格。
就是先定个调子,视频看起来是啥感觉。你可以说cinematic,这就是电影感。或者dramatic lighting,让光线对比强烈点。甚至可以指定in the style of Wes Anderson(韦斯·安德森风格),Sora就会去模仿他的对称构图和配色。
第二,主角和动作。
画面里有谁?在干嘛?这里一定要说得细。别只写“一个男人在走路”。要写“一个满脸褶子的老头,在石板路上瘸着走”。Sora吃的就是这种细节。主角的表情、穿的衣服、动作的幅度,说得越清楚,出来的效果越准。
第三,场景环境。
这事在哪发生的?白天还是晚上?天气好不好?用golden hour,画面就是傍晚那种暖黄色。用a bustling Tokyo street at night,就是夜晚喧嚣的东京街头。
第四,镜头怎么拍。
这个最关键,能让视频看着专业。close-up shot就是大特写,拍脸的。wide-angle drone view就是无人机从天上往下拍,场面显得很大。还有摇镜头panning shot,手持拍摄handheld camera,从下往上拍low angle shot。这些词一用,视频立马不一样。
第五,画质要求。
最后提一下画面质感。你可以要求4K画质,或者hyperrealistic(超写实)。想复古一点,就加上shot on 35mm film(用35毫米胶片拍的),它还会给你模拟出胶片的颗粒感film grain。
来看两个Sora官方发的例子,看看人家的提示词是怎么写的。
第一个是“雪地里的长毛象”。
画面里,好几头巨大的长毛象在雪地里走,毛被风吹动。场面很壮观。
它的提示词很长,里面有几个词特别关键。它不光说了有长毛象在雪地走,还写了their long wooly fur lightly blows in the wind,意思是“它们长长的毛皮在风里轻轻吹动”。这个动态感一下就出来了。
而且它还指定了low camera view,就是从低角度往上拍。这样一来,你就感觉那几头象格外高大,压迫感十足。
第二个例子是“30岁的太空人”。
这是一个电影预告片的感觉,一个男人戴着个怪头盔站在沙漠里。
这个提示词好玩在哪呢?它描述主角戴着a red wool knitted motorcycle helmet,一个红色的羊毛针织摩托车头盔。羊毛织的,还是个摩托车头盔,这俩东西放一块就很怪。但这个奇怪的细节,一下就把这个角色弄得很有意思,让人记得住。
这玩意出来,对做视频的人影响很大。
以前电影开拍前,要做很贵的故事板和动态预览,现在可能几句话就能生成一段视频看看效果。做广告、做短视频的,出片速度能快上好几倍。以后可能真有种工作叫“AI导演”,专门研究怎么跟AI打交道,写出好提示词。
当然,这东西也有麻烦的地方。视频是真是假不好分,用它做了坏事怎么办?生成的视频,版权算谁的?这些都是后面要解决的问题。
现在,你也知道写提示词的基本方法了。
别光看着了。自己动手试试,用上面说的法子,拼一段话出来,看看Sora(或者其他类似工具)能给你变出个什么东西。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aikonw/632.html