你可能在网上刷到过一些视频,画面怪好看的,感觉是花大钱拍的。比如一个姑娘在下着雨的东京街头散步,那光影,那气氛,跟电影似的。结果有人告诉你,这些是AI做的,不是真人拍的,是不是有点懵?
觉得这玩意儿离自己很远?其实根本不是。

现在做AI视频,已经不用懂什么代码,也不用买多好的电脑。很多工具点点鼠标就行,跟你用剪映差不多。
这篇东西,就是把AI视频制作这事儿给你说明白。分三块:它是啥,怎么做,以及怎么做得比别人好。没有废话,直接开整。
第一部分 搞懂基本盘:AI视频到底有几种玩法
动手前,先分清手上有什么牌。现在的AI视频主要就这四种。
No.1 文生视频
这个最火,意思就是“打字出视频”。
你给AI一段话,比如“一只金毛在草地上追蝴蝶”,它就能给你生成一段视频。现在最牛的是OpenAI的Sora和快手的Kling,虽然大部分人还用不上,但它们生成的视频已经能看出,以后直接拿AI拍电影不是没可能。我们普通人用Pika或者Runway也能做,效果也很惊艳。
No.2 图生视频
就是让静态图片“活过来”。
你用Midjourney画了张特帅的图,或者自己拍了张照片,把它丢给AI,AI就能给它加上动态。比如让画里的人物眨眨眼,或者让照片里的云飘起来。这功能Runway和Pika都有,做个动态海报或者让头像动起来,很方便。
No.3 视频生视频
这个好理解,就是给一段视频“换层皮”。
你拍了段自己在街上跳舞的视频,把它喂给AI,再给一张梵高《星空》的画。AI就能把你的舞蹈动作,套上《星空》的风格,生成一个新视频。动作还是你的动作,但画面完全变了。Runway的Gen-1干这个很在行。
No.4 数字人视频
这个你肯定见过,就是假人播新闻、做介绍。
给AI一张你的照片,再给一段稿子,它就能生成一个你在那儿一板一眼念稿子的视频。嘴型都能对上,很神奇。HeyGen和D-ID是专门干这个的。很多做课程、做广告的都在用,省了真人出镜的麻烦。
它怎么知道“狗戴着墨镜冲浪”是啥样?
简单说,AI干了两件事。
一件事是“看图说话”的反向操作。它先把成千上万个好视频打上马赛克,打到完全没法看,然后反复练习怎么从马赛克再恢复成清晰的视频。练得多了,它就掌握规律了。你给它文字,它就能从一堆随机的噪点里,按照你的意思,“还原”出一段全新的视频。这叫“扩散模型”。
另一件事是“阅读理解”。它要能看懂你输入的“狗”“墨镜”“冲浪”这几个词的关系。这得靠一个叫Transformer的架构,跟ChatGPT用的是同一种技术。它负责把你的话翻译成AI能听懂的指令。
现在的AI视频有时候还不太完美,比如人的手会多根手指,或者物理效果有点怪。就是因为它在“还原”的时候,有些细节还没“想”明白。不过这也正好,给我们留下了发挥创意的空间。
第二部分 上手实操:四步做出你的第一个AI视频
理论讲完,开干。跟着这个流程走,保证不迷路。
① 创意和脚本:让AI帮你开脑洞
好的开始是成功的一半。脑子里没想法?找AI聊聊。
打开Kimi或者ChatGPT,直接跟它说:
“帮我想5个适合做成AI科幻短片的故事点子。”
它会给你几个想法。你挑一个中意的,继续追问:
“把第一个点子,扩展成一个简单的故事,有开头、有发展、有结尾。”
故事有了,再让它变成能拍的脚本:
“把这个故事写成5个镜头的脚本。每个镜头要说明白场景、人物、动作、镜头怎么拍、什么风格。”
最后一步,让AI把每个镜头的描述,变成AI视频工具能直接用的“咒语”,也就是提示词(Prompt)。
写提示词有个套路,照着填空就行
AI不是人,你得跟它说“普通话”。一个能出好效果的提示词,结构一般是这样的:
风格 + 主体 + 动作 + 场景 + 镜头 + 画质
举个例子。
- 普通说法: 一个女孩在雨里走
- AI更懂的说法: 电影感镜头,一个打红伞的年轻女人,在夜晚霓虹闪烁的东京街头慢慢走,表情在想事,湿滑的路面反射着城市灯光,浅景深效果,8K画质,超多细节
- 对应的英文Prompt: cinematic shot, a young woman with a red umbrella, walking slowly and thoughtfully through a neon-lit tokyo street at night, rain-slicked pavement reflecting the vibrant city lights, shallow depth of field, 8k, ultra detailed.
差别在哪?后者把画面掰碎了,告诉AI所有细节。你描述得越细,它“画”出来的东西就越接近你想要的。把这当成给AI下达的生产指令,指令越明确,次品率越低。
② 生成画面:挑个顺手的工具
拿着写好的提示词,我们来挑个工具把它变成视频。
- Pika:适合新手,玩创意
- 优点: 免费,用起来简单。特别适合把一张图变好玩。
- 怎么用: 登录它的网站,对话框里输入提示词就行。或者,直接上传一张图,再输入提示词告诉它怎么动。比如传一张你家猫的照片,写“猫的眼睛在发光,背景变成宇宙星空”。
- 用在哪: 做个搞笑的动图表情包,或者朋友圈里秀一下你的AI画作,用Pika几分钟搞定。
- Runway:功能更全,专业点
- 优点: 像是AI视频界的“瑞士军刀”,啥都能干点,而且控制项多。
- 怎么用: 它也能文生视频和图生视频。但它有几个厉害的功能:
- 运动笔刷 (Motion Brush): 上传一张图,你想让哪里动,就用笔刷在哪儿涂一下。比如涂一下树叶,树叶就会摇摆;涂一下裙摆,裙摆就会飘动。还能控制动的方向,很精细。
- 镜头控制 (Camera Control): 你可以手动设置镜头是往左移、往右移,还是往前推、往后拉。想拍出电影运镜的感觉,就得靠这个。
- 用在哪: 做正经点的短片、广告、MV,需要对镜头有点想法的,用Runway更合适。
③ 配音配乐:动静结合才好看
视频没声音,总觉得缺点啥。这事AI也能包办。
- 搞定旁白和配音
- 工具: ElevenLabs,或者剪映里的“文本朗读”。
- 怎么用:
- 把你的文案稿子粘进去。
- 选一个你喜欢的音色。
- 生成音频,下载就行。
- ElevenLabs还能克隆声音。上传几分钟你自己的录音,它就能学会你的音色。以后打字就能用你自己的声音说话,很酷。
- 搞定背景音乐
- 工具: Suno, Udio。
- 怎么用: 这俩工具也是打字出音乐。你想 BGM 是什么风格,就直接写出来。比如“适合放在咖啡馆的,轻松的爵士钢琴曲”,或者“打仗用的,节奏快、紧张的交响乐”。它能生成好几段让你挑。以后再也不用为找配乐发愁了,也省了版权的麻烦。
④ 剪辑合成:把零件拼成车
AI生成的都是几秒钟的短片段,还有单独的音频。最后一步,要把这些素材拼起来。
这就要用回我们熟悉的剪辑软件了。
- 工具: 剪映专业版,或者Adobe Premiere, Final Cut Pro。
- 怎么干:
(A) 把所有AI生成的视频片段、旁白、配乐,都拖到剪辑软件里。
(B) 按照脚本的顺序,把视频片段拼起来,加上转场。
(C) 把声音和画面对上。
(D) 用剪映的“智能字幕”功能,一键生成字幕。省下大量听写的时间。
现在的剪辑软件里,也塞了很多AI功能,比如一键抠图、画质修复,都能帮你把后期流程弄得更快。AI不是要替代剪辑,而是帮你把剪辑里的体力活给干了。
第三部分 从入门到高手:三个很少人说的秘诀
走通了上面的流程,你就能做出像样的AI视频了。但想让作品跟别人拉开差距,得知道下面这几个窍门。
秘诀A 怎么让一个角色在不同镜头里长得一样
这是现在AI视频最大的难题,AI记性不好,上个镜头里的人,下个镜头可能就换脸了。
但有办法解决。
- 在Midjourney里“锁脸”:
- Midjourney有个 –cref 参数。用法是:你先生成一张主角的正面标准照,拿到这张图的链接。之后,再生成包含这个主角的其他画面时,就在提示词最后面加上 –cref [图片链接]。这样AI就会尽量参照这张脸去画,保证长相八九不离十。
- 先搞定“演员”再“开拍”:
- 别指望Pika或Runway一次性生成一个长故事。更靠谱的流程是:
- 在Midjourney里,用上面的方法,先把你故事需要的所有关键画面,一张张生成静态图,确保主角长相统一。
- 再把这些图,一张张地丢进Runway或Pika,用“图生视频”功能,分别让它们动起来。
- 最后,在剪映里把这些动起来的片段拼成一个完整的故事。
- 虽然麻烦,但效果好。这是现在做AI叙事短片的主流方法。
- 别指望Pika或Runway一次性生成一个长故事。更靠谱的流程是:
秘诀B 控制镜头,让视频有电影感
画面会不会动,和画面动得好不好,是两码事。镜头的运动能直接影响观众的感觉。
- 玩转Runway的参数:
- 在Runway里,有个“Camera Control”选项,里面有Pan(左右摇)、Tilt(上下摇)、Zoom(推拉)这些设置。别让它自动,手动设置一下数值。比如你设置Pan的值是+5,就能得到一个缓慢向右的平摇镜头,感觉立刻就稳了。
- 还有一个“Motion Strength”(运动强度)。数值越高,画面动得越疯;数值越低,动得越 subtle。比如拍一个安静的湖面,就把值调低;拍爆炸场面,就调高。
秘诀C 建立你自己的“生产线”
高手做事,都有一套自己的固定流程,也就是工作流(Workflow)。
工具一大堆,别东一榔头西一棒子。根据你要做的东西,把它们串起来用。
- 模拟一个广告片的生产线:
(1) 脚本:用Kimi,喂给它产品资料,让它出广告创意和脚本。
(2) 美术:用Midjourney,生成广告里需要的所有角色、场景的高清图。
(3) 动画:把Midjourney出的图导入Runway,一张张地让它们动起来,并加上镜头运动。
(4) 配音:用ElevenLabs,生成旁白。
(5) 配乐:用Suno,根据广告情绪生成专属BGM。
(6) 合成:全部丢进剪映,剪辑、加字幕、加特效,出片。
把一个大任务拆成一堆小任务,每个小任务都交给最擅长它的AI工具去办。这就是高效出片的秘密。
最后说几句
看到这,AI视频怎么做,你心里应该有谱了。
它没那么玄乎,就是一套新工具。工具本身没啥了不起的,了不起的是用工具的人。
AI能帮你实现画面,但它实现不了你脑子里的想法和你想讲的故事。技术只是笔,你才是那个画画的人。
别光看,现在就去找个工具,随便写句提示词,生成你的第一个AI视频。从一个5秒的片段开始,你会发现一个新世界。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aiyy/ai-video/1234.html