AI视频怎么制作出来的？看完你也成高手

你可能在网上刷到过一些视频，画面怪好看的，感觉是花大钱拍的。比如一个姑娘在下着雨的东京街头散步，那光影，那气氛，跟电影似的。结果有人告诉你，这些是AI做的，不是真人拍的，是不是有点懵？

觉得这玩意儿离自己很远？其实根本不是。

现在做AI视频，已经不用懂什么代码，也不用买多好的电脑。很多工具点点鼠标就行，跟你用剪映差不多。

这篇东西，就是把AI视频制作这事儿给你说明白。分三块：它是啥，怎么做，以及怎么做得比别人好。没有废话，直接开整。

第一部分搞懂基本盘：AI视频到底有几种玩法

动手前，先分清手上有什么牌。现在的AI视频主要就这四种。

No.1 文生视频
这个最火，意思就是“打字出视频”。
你给AI一段话，比如“一只金毛在草地上追蝴蝶”，它就能给你生成一段视频。现在最牛的是OpenAI的Sora和快手的Kling，虽然大部分人还用不上，但它们生成的视频已经能看出，以后直接拿AI拍电影不是没可能。我们普通人用Pika或者Runway也能做，效果也很惊艳。

No.2 图生视频
就是让静态图片“活过来”。
你用Midjourney画了张特帅的图，或者自己拍了张照片，把它丢给AI，AI就能给它加上动态。比如让画里的人物眨眨眼，或者让照片里的云飘起来。这功能Runway和Pika都有，做个动态海报或者让头像动起来，很方便。

No.3 视频生视频
这个好理解，就是给一段视频“换层皮”。
你拍了段自己在街上跳舞的视频，把它喂给AI，再给一张梵高《星空》的画。AI就能把你的舞蹈动作，套上《星空》的风格，生成一个新视频。动作还是你的动作，但画面完全变了。Runway的Gen-1干这个很在行。

No.4 数字人视频
这个你肯定见过，就是假人播新闻、做介绍。
给AI一张你的照片，再给一段稿子，它就能生成一个你在那儿一板一眼念稿子的视频。嘴型都能对上，很神奇。HeyGen和D-ID是专门干这个的。很多做课程、做广告的都在用，省了真人出镜的麻烦。

它怎么知道“狗戴着墨镜冲浪”是啥样？
简单说，AI干了两件事。
一件事是“看图说话”的反向操作。它先把成千上万个好视频打上马赛克，打到完全没法看，然后反复练习怎么从马赛克再恢复成清晰的视频。练得多了，它就掌握规律了。你给它文字，它就能从一堆随机的噪点里，按照你的意思，“还原”出一段全新的视频。这叫“扩散模型”。
另一件事是“阅读理解”。它要能看懂你输入的“狗”“墨镜”“冲浪”这几个词的关系。这得靠一个叫Transformer的架构，跟ChatGPT用的是同一种技术。它负责把你的话翻译成AI能听懂的指令。
现在的AI视频有时候还不太完美，比如人的手会多根手指，或者物理效果有点怪。就是因为它在“还原”的时候，有些细节还没“想”明白。不过这也正好，给我们留下了发挥创意的空间。

第二部分上手实操：四步做出你的第一个AI视频

理论讲完，开干。跟着这个流程走，保证不迷路。

① 创意和脚本：让AI帮你开脑洞

好的开始是成功的一半。脑子里没想法？找AI聊聊。
打开Kimi或者ChatGPT，直接跟它说：
“帮我想5个适合做成AI科幻短片的故事点子。”
它会给你几个想法。你挑一个中意的，继续追问：
“把第一个点子，扩展成一个简单的故事，有开头、有发展、有结尾。”
故事有了，再让它变成能拍的脚本：
“把这个故事写成5个镜头的脚本。每个镜头要说明白场景、人物、动作、镜头怎么拍、什么风格。”
最后一步，让AI把每个镜头的描述，变成AI视频工具能直接用的“咒语”，也就是提示词（Prompt）。

写提示词有个套路，照着填空就行
AI不是人，你得跟它说“普通话”。一个能出好效果的提示词，结构一般是这样的：
风格 + 主体 + 动作 + 场景 + 镜头 + 画质

举个例子。

普通说法： 一个女孩在雨里走
AI更懂的说法： 电影感镜头，一个打红伞的年轻女人，在夜晚霓虹闪烁的东京街头慢慢走，表情在想事，湿滑的路面反射着城市灯光，浅景深效果，8K画质，超多细节
对应的英文Prompt: cinematic shot, a young woman with a red umbrella, walking slowly and thoughtfully through a neon-lit tokyo street at night, rain-slicked pavement reflecting the vibrant city lights, shallow depth of field, 8k, ultra detailed.

差别在哪？后者把画面掰碎了，告诉AI所有细节。你描述得越细，它“画”出来的东西就越接近你想要的。把这当成给AI下达的生产指令，指令越明确，次品率越低。

② 生成画面：挑个顺手的工具

拿着写好的提示词，我们来挑个工具把它变成视频。

Pika：适合新手，玩创意
- 优点： 免费，用起来简单。特别适合把一张图变好玩。
- 怎么用： 登录它的网站，对话框里输入提示词就行。或者，直接上传一张图，再输入提示词告诉它怎么动。比如传一张你家猫的照片，写“猫的眼睛在发光，背景变成宇宙星空”。
- 用在哪： 做个搞笑的动图表情包，或者朋友圈里秀一下你的AI画作，用Pika几分钟搞定。
Runway：功能更全，专业点
- 优点： 像是AI视频界的“瑞士军刀”，啥都能干点，而且控制项多。
- 怎么用： 它也能文生视频和图生视频。但它有几个厉害的功能：
  - 运动笔刷 (Motion Brush)： 上传一张图，你想让哪里动，就用笔刷在哪儿涂一下。比如涂一下树叶，树叶就会摇摆；涂一下裙摆，裙摆就会飘动。还能控制动的方向，很精细。
  - 镜头控制 (Camera Control)： 你可以手动设置镜头是往左移、往右移，还是往前推、往后拉。想拍出电影运镜的感觉，就得靠这个。
- 用在哪： 做正经点的短片、广告、MV，需要对镜头有点想法的，用Runway更合适。

③ 配音配乐：动静结合才好看

视频没声音，总觉得缺点啥。这事AI也能包办。

搞定旁白和配音
- 工具： ElevenLabs，或者剪映里的“文本朗读”。
- 怎么用：
  1. 把你的文案稿子粘进去。
  2. 选一个你喜欢的音色。
  3. 生成音频，下载就行。
- ElevenLabs还能克隆声音。上传几分钟你自己的录音，它就能学会你的音色。以后打字就能用你自己的声音说话，很酷。
搞定背景音乐
- 工具： Suno, Udio。
- 怎么用： 这俩工具也是打字出音乐。你想 BGM 是什么风格，就直接写出来。比如“适合放在咖啡馆的，轻松的爵士钢琴曲”，或者“打仗用的，节奏快、紧张的交响乐”。它能生成好几段让你挑。以后再也不用为找配乐发愁了，也省了版权的麻烦。

④ 剪辑合成：把零件拼成车

AI生成的都是几秒钟的短片段，还有单独的音频。最后一步，要把这些素材拼起来。
这就要用回我们熟悉的剪辑软件了。

工具： 剪映专业版，或者Adobe Premiere, Final Cut Pro。
怎么干：
(A) 把所有AI生成的视频片段、旁白、配乐，都拖到剪辑软件里。
(B) 按照脚本的顺序，把视频片段拼起来，加上转场。
(C) 把声音和画面对上。
(D) 用剪映的“智能字幕”功能，一键生成字幕。省下大量听写的时间。

现在的剪辑软件里，也塞了很多AI功能，比如一键抠图、画质修复，都能帮你把后期流程弄得更快。AI不是要替代剪辑，而是帮你把剪辑里的体力活给干了。

第三部分从入门到高手：三个很少人说的秘诀

走通了上面的流程，你就能做出像样的AI视频了。但想让作品跟别人拉开差距，得知道下面这几个窍门。

秘诀A 怎么让一个角色在不同镜头里长得一样

这是现在AI视频最大的难题，AI记性不好，上个镜头里的人，下个镜头可能就换脸了。
但有办法解决。

在Midjourney里“锁脸”：
- Midjourney有个 –cref 参数。用法是：你先生成一张主角的正面标准照，拿到这张图的链接。之后，再生成包含这个主角的其他画面时，就在提示词最后面加上 –cref [图片链接]。这样AI就会尽量参照这张脸去画，保证长相八九不离十。
先搞定“演员”再“开拍”：
- 别指望Pika或Runway一次性生成一个长故事。更靠谱的流程是：
  1. 在Midjourney里，用上面的方法，先把你故事需要的所有关键画面，一张张生成静态图，确保主角长相统一。
  2. 再把这些图，一张张地丢进Runway或Pika，用“图生视频”功能，分别让它们动起来。
  3. 最后，在剪映里把这些动起来的片段拼成一个完整的故事。
- 虽然麻烦，但效果好。这是现在做AI叙事短片的主流方法。

秘诀B 控制镜头，让视频有电影感

画面会不会动，和画面动得好不好，是两码事。镜头的运动能直接影响观众的感觉。

玩转Runway的参数：
- 在Runway里，有个“Camera Control”选项，里面有Pan（左右摇）、Tilt（上下摇）、Zoom（推拉）这些设置。别让它自动，手动设置一下数值。比如你设置Pan的值是+5，就能得到一个缓慢向右的平摇镜头，感觉立刻就稳了。
- 还有一个“Motion Strength”（运动强度）。数值越高，画面动得越疯；数值越低，动得越 subtle。比如拍一个安静的湖面，就把值调低；拍爆炸场面，就调高。

秘诀C 建立你自己的“生产线”

高手做事，都有一套自己的固定流程，也就是工作流（Workflow）。
工具一大堆，别东一榔头西一棒子。根据你要做的东西，把它们串起来用。

模拟一个广告片的生产线：
(1) 脚本：用Kimi，喂给它产品资料，让它出广告创意和脚本。
(2) 美术：用Midjourney，生成广告里需要的所有角色、场景的高清图。
(3) 动画：把Midjourney出的图导入Runway，一张张地让它们动起来，并加上镜头运动。
(4) 配音：用ElevenLabs，生成旁白。
(5) 配乐：用Suno，根据广告情绪生成专属BGM。
(6) 合成：全部丢进剪映，剪辑、加字幕、加特效，出片。

把一个大任务拆成一堆小任务，每个小任务都交给最擅长它的AI工具去办。这就是高效出片的秘密。

最后说几句

看到这，AI视频怎么做，你心里应该有谱了。
它没那么玄乎，就是一套新工具。工具本身没啥了不起的，了不起的是用工具的人。
AI能帮你实现画面，但它实现不了你脑子里的想法和你想讲的故事。技术只是笔，你才是那个画画的人。
别光看，现在就去找个工具，随便写句提示词，生成你的第一个AI视频。从一个5秒的片段开始，你会发现一个新世界。

原创文章，作者：七点互动，如若转载，请注明出处：https://www.qidianhudong.com/aiyy/ai-video/1234.html