揭秘！爆火的AI数字人背后，都用了哪些黑科技软件？

网上到处都是AI数字人。
直播带货的、当客服的、开发布会的，感觉一下子就冒出来了。
这些数字人不光长得像真人，还能跟你聊天互动。
这背后到底是用什么软件做出来的？
今天就把它拆开来看看，讲明白制作一个数字人的完整流程和工具。

一、AI数字人的诞生：拆解四大核心环节

做一个数字人，就跟玩游戏捏人差不多。
一共分四步：捏脸、让它动、给它配音、最后让它看起来够真。
每一步都有不同的玩法和工具，决定了这数字人是精致还是粗糙。

①形象生成（建模）：从一张照片到一个3D模型

这是第一步，决定了数字人是2D的还是3D的。

2D数字人，让照片开口说话

2D数字人就是个会动的平面图像。
做起来快，花钱少，适合批量做那种讲话的短视频。
具体怎么弄？
它的技术叫生成式AI。你给它一张照片，再打上一段字。
AI就能让照片里的人动动嘴巴，点点头，把文字念出来。

HeyGen 是个热门工具。你把稿子丢进去，选个数字人形象，它就能帮你生成一段完整的视频。
D-ID 也干这个事。给一张静态图，它就能把它变成一个会说话的动画头像。
Synthesia 更偏向给公司用，里面有一百多个现成的数字人形象。适合用来做内部培训或者产品介绍视频，省得找真人拍了。
3D数字人，追求极致的真实感

3D的就复杂多了。
它是一个立体模型，可以360度转着看，能跑能跳，像真人一样。
当然，制作起来也费劲。

想做得跟照片一样真，就得用 Unreal Engine的MetaHuman Creator。
这是做超写实数字人的顶尖工具。皮肤上的毛孔、头发丝都给你弄得明明白白。操作起来就像一个高级版的游戏捏脸系统，但是细节多得多。
还有一个叫 Character Creator 的软件。
它的自定义功能很强，能让你精细调整身体和脸部的每个细节。
如果不想那么写实，想快点弄个卡通形象，可以用 Ready Player Me。
上传一张自拍，它就能生成一个你的专属卡通3D化身。这个化身还能在很多游戏和App里用。

a 动作与表情驱动：让数字人活起来的关键

光有个模型还不行，得让它动起来，有表情，有灵魂。

全身动作靠动作捕捉

好莱坞拍特效大片，都是让演员穿上那种带标记点的紧身衣，用一堆摄像头拍。
这种叫光学动捕，效果好，但也贵。
而且现在有更简单的方法了。
只用一个普通的摄像头，AI就能捕捉你的动作。
比如MetaHuman Animator，你用手机给自己拍一段视频，它就能把你的面部表情高质量地复制到数字人脸上。
那些虚拟主播（VTuber）用的 VTube Studio 软件也是这个道理，用摄像头就能实时驱动卡通形象。

嘴型和表情最考验细节

脸上的表情最难模仿。
嘴型能不能对上声音，直接决定了数字人假不假。
这就需要一种叫Audio2Lip的技术。
它的作用是分析音频，然后自动生成匹配的嘴型动画。
开源的Wav2Lip模型在这方面做得不错。后来又出了个叫SadTalker的模型，不光能对嘴型，还能根据声音的情绪，让数字人做出更自然的点头、眨眼等动作。

(1) 声音生成与克隆：给它配上独一无二的声音

形象和动作都有了，该解决说话的问题了。

TTS文本转语音
这是最基础的操作。
你输入文字，软件把它读出来。
国内的科大讯飞，国外的微软Azure和Google aS，都提供这种服务。它们有很多种声音可以选，男声、女声、童声都有。
声音克隆
如果想让数字人用某个特定的人的声音说话，比如你老板的声音。
那就用声音克隆。
找一段目标人物几分钟的录音，喂给 Resemble.ai 或 Descript 这样的软件。
它就能模仿出这个人的音色和说话方式。
之后你打任何字，它都能用克隆出来的声音读出来。

No.1 渲染与合成：最后一关，让画面以假乱真

所有东西都准备好了，最后一步就是把它们组合起来，输出最终的视频画面。

对于超写实的3D数字人，需要用强大的渲染引擎。
Unreal Engine 和 Unity 就是干这个的。
它们能计算出真实的光影、皮肤质感、毛发效果，让数字人看起来像是真实摄像机拍出来的。
对于2D数字人，事情就简单多了。
前面提到的Synthesia、HeyGen这类平台，已经把所有步骤都打包好了。
它们在云端完成了形象、声音、动作的合成。
你只要在网页上点几下鼠标，选人、输稿子，一个视频就生成了。

二、大脑进化：让数字人拥有智能

上面说的那些，只是解决了数字人的外壳问题。
一个只会念稿子的数字人，本质上还是个木偶。
要让它能思考、会交流，就得给它装个大脑。

接上大语言模型（LLM）

这就是让数字人变聪明的关键。
操作很简单，通过API接口，把数字人和ChatGPT或者百度文心一言这样的大模型连起来。
这是它的工作原理：
你向数字人提个问题。
问题被传到大语言模型那里。
大模型生成答案。
答案通过TTS技术，由数字人说出来。
这样，一个能跟你自由对话的数字人就诞生了。

不光能说，还能看、能懂

更进一步的数字人，还能理解它看到和听到的东西。
NVIDIA的Avatar Cloud Engine (ACE) 平台就在做这个事。
它把语音识别、自然语言理解、面部动画生成这些技术都整合到了一起。
用ACE做出来的数字人，能听懂你的话，看到你的表情，然后作出相应的反应。
比如它看到你皱眉头，可能会主动问你是不是遇到什么麻烦了。

三、降低门槛：普通人也能用的数字人工具

搞AI数字人不一定非得是技术大神。
现在有很多工具，就是给普通人设计的。

01 开箱即用的SaaS平台

代表工具：Synthesia, HeyGen, D-ID, 还有国内的腾讯智影, 万兴播爆。
它们的好处：就是快和简单。
不用懂建模，不用懂动画。
在网页上操作，几分钟就能做好一个口播视频。
比如你想做个产品介绍，选个数字人员工，把介绍文案粘进去，一个视频就出来了，成本比请人拍低多了。

02 人人都是VTuber的轻量级工具

代表工具：VTube Studio, PrprLive。
它们的好处：好玩，互动性强。
这些工具专注于虚拟直播。
你可以在网上找一个自己喜欢的Live2D或3D模型。
然后打开软件，用电脑摄像头对着自己，软件就会捕捉你的表情，让虚拟形象跟着你一起动。
很多人在B站和YouTube上就是这么当虚拟主播的。

四、结语

AI数字人这套技术，高端的可以去拍电影，简单的普通人也能在电脑上做。
让这一切变得又快又便宜的，是AIGC，也就是生成式AI。
它不光能帮你捏脸、配音，还能给数字人装上大脑，让它会思考。
接下来会怎么样？
可以预见三件事。
A. 做数字人的门槛会越来越低。以后可能就像P图一样简单，人人都能给自己做个数字分身。
B. 数字人会变得更聪明。它们不再只是花瓶，而是会成为真正的数字员工，在客服、教育这些行业帮人干活。
C. 它们会更懂感情。技术会集中在模仿人类的微表情和情绪上，让你感觉自己真的是在和一个人交流。
这股风暴才刚开始。
它正在改变我们和屏幕互动的方式。一个充满各种数字人的世界，离我们不远了。

原创文章，作者：七点互动，如若转载，请注明出处：https://www.qidianhudong.com/aikonw/1798.html