揭秘！爆火的AI视频原来是这么做的，3分钟带你从入门到精通

最近刷短视频，是不是总能看到一些特别火的AI视频？有些是照片里的人突然开口说话，有些是几句文字就变成一个科幻大片。很多人觉得这东西太复杂，肯定得学很久。其实，搞懂核心方法，上手非常快。今天我就把制作AI视频的整个流程拆开，一步一步讲清楚。

第一步：想明白你要做什么样的视频

动不动就去研究工具，很容易把自己搞晕。你应该先确定视频的类型。现在AI视频主要分这么几种：

文生视频（Text-to-Video）：这是最火的一种。你只需要输入一段描述性的文字，AI就能自动生成一段视频。比如你输入“一个宇航员骑着马在火星上奔跑，电影感镜头”，AI就会给你生成对应的画面。Sora、Pika、Runway这些工具都是干这个的。这种方式适合做一些脑洞大开的、现实中不存在的场景，或者快速把一个故事想法视觉化。
图生视频（Image-to-Video）：就是让一张静态图片动起来。最常见的就是前段时间很火的让老照片里的人唱歌、说话。MyHeritage这个网站就有这个功能，很多人用它来“复活”老照片。另外，像Runway和Pika也支持上传一张图片，然后通过文字指令让图片里的元素动起来，比如让画里的云飘起来，水流起来。这种方式很适合给静态内容增加一点动态效果，让它更有趣。
视频生视频（Video-to-Video）：简单说，就是给一段已经存在的视频换个风格。你可以把一段普通的街景视频，变成动漫风格、赛博朋克风格或者梵高油画风格。这个技术的原理是AI会分析原视频的每一帧画面和动态，然后用你指定的风格重新绘制出来。Runway Gen-2就支持这个功能。这很适合做一些视觉特效，或者把普通的素材变得更有创意。
数字人播报（AI Avatar）：这种视频里会有一个非常逼真的数字人，代替你播报内容。你只需要提供文案，AI就能生成数字人讲这段话的视频，口型、表情、动作都非常自然。HeyGen和Synthesia是做这个的头部工具。很多新闻媒体和企业培训都在用这种方式，因为它能大大节省拍摄成本和时间。

搞清楚这几种类型，你就能根据自己的需求选对方向。想做创意短片，就试试文生视频；想让产品图动起来，就用图生视频；想做内容播报，数字人最省事。

第二步：选对工具，事半功倍

市面上的AI视频工具非常多，功能也各有侧重。对于新手来说，没必要每个都去试，选一两个主流的开始就行。

如果你想玩“文生视频”和“图生视频”：
- Pika：这个工具现在非常火，操作简单，生成的视频质量也不错。它有一个免费试用的额度，很适合新手入门。你可以直接在它的网站上输入文字，选择视频风格、长宽比，几分钟就能生成。而且它对中文的理解也还行。
- Runway：这个可以说是行业标杆之一，功能非常全面。除了文生视频，它还有视频换风格、AI擦除视频里的物体（Inpainting）、自动抠像等专业功能。如果你想深入学习AI视频制作，Runway是绕不开的。它的Gen-2模型生成的视频效果很惊艳。
- Sora：这是OpenAI发布的模型，效果是目前最好的，生成的视频几乎能以假乱真。但问题是，它现在还没对公众开放。所以现阶段只能先看看官方演示，暂时还用不上。
如果你想做“数字人”视频：
- HeyGen：这个工具做得非常逼真，特别是口型同步技术。你只需要上传一段自己的录音，或者直接输入文字，它就能生成一个数字人分身，用你的声音、嘴型来讲话。它还有一个视频翻译功能，可以把你说中文的视频，直接翻译成英文版本，而且嘴型都会自动匹配成说英文的嘴型，效果很自然。
- Synthesia：这是另一个主流的数字人平台，提供了大量的现成数字人形象和模板，非常适合快速制作教学视频或企业宣传片。你选好一个形象，输入稿子，它就能帮你生成整个视频。

选择工具的原则是，先从免费、简单的开始。Pika就是个很好的起点。等你熟悉了基本操作，再根据需要去研究像Runway这样更专业的工具。

第三步：核心技巧——怎么写好提示词（Prompt）

AI视频生成的效果，很大程度上取决于你给它的“提示词”写得好不好。这就像你给一个画家下指令，指令越清晰、越具体，他画出来的东西就越接近你想要的。写提示词有几个基本原则：

描述要具体，不要模糊：
- 不要写：“一个男人在走路。”
- 要写：“一个穿着黑色风衣的年轻男人，在雨夜的东京街头撑着一把透明雨伞走路，背景是闪烁的霓虹灯。”
- 你看，后者提供了更多细节：人物特征（年轻男人、黑色风衣）、环境（雨夜、东京街头、霓虹灯）、动作（撑着伞走路）。细节越多，AI能想象的空间就越大，生成的画面也就越丰富。
加入镜头语言：
- 想让视频更有电影感，就要告诉AI用什么镜头。比如，你可以加入“广角镜头（wide-angle shot）”、“特写镜头（close-up shot）”、“从下往上拍（low-angle shot）”、“无人机视角（drone view）”这些词。
- 举个例子：“一个登山者站在珠穆朗玛峰顶，无人机航拍视角，俯瞰着脚下的云海，日出的金色光芒照亮了他的脸。” 加入镜头描述，AI生成的画面就会更有冲击力。
明确画面风格：
- 你想让视频是什么风格？是写实的、动漫的、还是科幻的？直接告诉AI就行。
- 可以这样写：“一只猫在图书馆的书架上睡觉，宫崎骏动画风格。”
- 或者：“一座漂浮在空中的未来城市，赛博朋克风格，色调是蓝色和紫色。”
- 明确风格后，AI就会按照这个风格去生成画面、光影和色彩。一些常用的风格词包括：电影感（cinematic）、8K、超高清（ultra HD）、虚幻引擎（Unreal Engine）等等。
不断尝试和修改：
- 很少有人能一次就写出完美的提示词。通常需要反复测试。第一次生成的效果不理想，很正常。你要做的是分析哪里不对，然后修改提示词再试一次。
- 比如，你想要一个“快乐的”场景，但生成的画面人物表情很平淡。那你下次就可以把提示词改成“一个脸上洋溢着灿烂笑容的女人”，把情绪描述得更具体。

写提示词是一个熟能生巧的过程。多看别人优秀的作品是怎么写的，然后模仿、修改，慢慢你就有感觉了。

第四步：后期处理，让视频更完整

AI目前生成的视频通常都比较短，一般只有几秒钟。要做成一个完整的短片，还需要把这些AI生成的片段组合起来。

剪辑拼接：用剪辑软件把多个AI生成的视频片段，按照你的故事线索剪辑到一起。剪映、Adobe Premiere Pro这些工具都可以。你可以把一个长镜头拆成几个AI片段来生成，再拼起来，效果会更好。
配音和配乐：声音是视频的灵魂。你可以自己录制旁白，也可以用AI配音工具（比如微软的Azure TTS）来生成。然后，找一些合适的背景音乐，能极大地提升视频的感染力。很多网站提供免费的背景音乐素材。
添加字幕：给视频加上字幕，能让观众更好地理解内容。现在很多剪辑软件都支持AI自动识别语音生成字幕，非常方便，识别完再手动校对一下错别字就行。

整个流程走下来，其实并没有那么神秘。核心就是“想法 → 选工具 → 写指令 → 后期加工”。现在AI技术发展很快，工具的操作也越来越简单。关键是你要先动手去试。不要怕犯错，每个视频高手都是从生成第一个“不怎么样”的视频开始的。从现在开始，找个工具，用我上面说的方法，生成你的第一个AI视频吧。

原创文章，作者：MakeAI，如若转载，请注明出处：https://www.qidianhudong.com/aiyy/ai-video/2583.html