网上到处都是AI数字人。
直播带货的、当客服的、开发布会的,感觉一下子就冒出来了。
这些数字人不光长得像真人,还能跟你聊天互动。
这背后到底是用什么软件做出来的?
今天就把它拆开来看看,讲明白制作一个数字人的完整流程和工具。

一、AI数字人的诞生:拆解四大核心环节
做一个数字人,就跟玩游戏捏人差不多。
一共分四步:捏脸、让它动、给它配音、最后让它看起来够真。
每一步都有不同的玩法和工具,决定了这数字人是精致还是粗糙。
①形象生成(建模):从一张照片到一个3D模型
这是第一步,决定了数字人是2D的还是3D的。
- 2D数字人,让照片开口说话
2D数字人就是个会动的平面图像。
做起来快,花钱少,适合批量做那种讲话的短视频。
具体怎么弄?
它的技术叫生成式AI。你给它一张照片,再打上一段字。
AI就能让照片里的人动动嘴巴,点点头,把文字念出来。
- HeyGen 是个热门工具。你把稿子丢进去,选个数字人形象,它就能帮你生成一段完整的视频。
- D-ID 也干这个事。给一张静态图,它就能把它变成一个会说话的动画头像。
- Synthesia 更偏向给公司用,里面有一百多个现成的数字人形象。适合用来做内部培训或者产品介绍视频,省得找真人拍了。
- 3D数字人,追求极致的真实感
3D的就复杂多了。
它是一个立体模型,可以360度转着看,能跑能跳,像真人一样。
当然,制作起来也费劲。
- 想做得跟照片一样真,就得用 Unreal Engine的MetaHuman Creator。
这是做超写实数字人的顶尖工具。皮肤上的毛孔、头发丝都给你弄得明明白白。操作起来就像一个高级版的游戏捏脸系统,但是细节多得多。 - 还有一个叫 Character Creator 的软件。
它的自定义功能很强,能让你精细调整身体和脸部的每个细节。 - 如果不想那么写实,想快点弄个卡通形象,可以用 Ready Player Me。
上传一张自拍,它就能生成一个你的专属卡通3D化身。这个化身还能在很多游戏和App里用。
a 动作与表情驱动:让数字人活起来的关键
光有个模型还不行,得让它动起来,有表情,有灵魂。
- 全身动作靠动作捕捉
好莱坞拍特效大片,都是让演员穿上那种带标记点的紧身衣,用一堆摄像头拍。
这种叫光学动捕,效果好,但也贵。
而且现在有更简单的方法了。
只用一个普通的摄像头,AI就能捕捉你的动作。
比如MetaHuman Animator,你用手机给自己拍一段视频,它就能把你的面部表情高质量地复制到数字人脸上。
那些虚拟主播(VTuber)用的 VTube Studio 软件也是这个道理,用摄像头就能实时驱动卡通形象。
- 嘴型和表情最考验细节
脸上的表情最难模仿。
嘴型能不能对上声音,直接决定了数字人假不假。
这就需要一种叫Audio2Lip的技术。
它的作用是分析音频,然后自动生成匹配的嘴型动画。
开源的Wav2Lip模型在这方面做得不错。后来又出了个叫SadTalker的模型,不光能对嘴型,还能根据声音的情绪,让数字人做出更自然的点头、眨眼等动作。
(1) 声音生成与克隆:给它配上独一无二的声音
形象和动作都有了,该解决说话的问题了。
- TTS文本转语音
这是最基础的操作。
你输入文字,软件把它读出来。
国内的科大讯飞,国外的微软Azure和Google aS,都提供这种服务。它们有很多种声音可以选,男声、女声、童声都有。 - 声音克隆
如果想让数字人用某个特定的人的声音说话,比如你老板的声音。
那就用声音克隆。
找一段目标人物几分钟的录音,喂给 Resemble.ai 或 Descript 这样的软件。
它就能模仿出这个人的音色和说话方式。
之后你打任何字,它都能用克隆出来的声音读出来。
No.1 渲染与合成:最后一关,让画面以假乱真
所有东西都准备好了,最后一步就是把它们组合起来,输出最终的视频画面。
- 对于超写实的3D数字人,需要用强大的渲染引擎。
Unreal Engine 和 Unity 就是干这个的。
它们能计算出真实的光影、皮肤质感、毛发效果,让数字人看起来像是真实摄像机拍出来的。 - 对于2D数字人,事情就简单多了。
前面提到的Synthesia、HeyGen这类平台,已经把所有步骤都打包好了。
它们在云端完成了形象、声音、动作的合成。
你只要在网页上点几下鼠标,选人、输稿子,一个视频就生成了。
二、大脑进化:让数字人拥有智能
上面说的那些,只是解决了数字人的外壳问题。
一个只会念稿子的数字人,本质上还是个木偶。
要让它能思考、会交流,就得给它装个大脑。
- 接上大语言模型(LLM)
这就是让数字人变聪明的关键。
操作很简单,通过API接口,把数字人和ChatGPT或者百度文心一言这样的大模型连起来。
这是它的工作原理:
你向数字人提个问题。
问题被传到大语言模型那里。
大模型生成答案。
答案通过TTS技术,由数字人说出来。
这样,一个能跟你自由对话的数字人就诞生了。
- 不光能说,还能看、能懂
更进一步的数字人,还能理解它看到和听到的东西。
NVIDIA的Avatar Cloud Engine (ACE) 平台就在做这个事。
它把语音识别、自然语言理解、面部动画生成这些技术都整合到了一起。
用ACE做出来的数字人,能听懂你的话,看到你的表情,然后作出相应的反应。
比如它看到你皱眉头,可能会主动问你是不是遇到什么麻烦了。
三、降低门槛:普通人也能用的数字人工具
搞AI数字人不一定非得是技术大神。
现在有很多工具,就是给普通人设计的。
01 开箱即用的SaaS平台
- 代表工具:Synthesia, HeyGen, D-ID, 还有国内的腾讯智影, 万兴播爆。
- 它们的好处:就是快和简单。
不用懂建模,不用懂动画。
在网页上操作,几分钟就能做好一个口播视频。
比如你想做个产品介绍,选个数字人员工,把介绍文案粘进去,一个视频就出来了,成本比请人拍低多了。
02 人人都是VTuber的轻量级工具
- 代表工具:VTube Studio, PrprLive。
- 它们的好处:好玩,互动性强。
这些工具专注于虚拟直播。
你可以在网上找一个自己喜欢的Live2D或3D模型。
然后打开软件,用电脑摄像头对着自己,软件就会捕捉你的表情,让虚拟形象跟着你一起动。
很多人在B站和YouTube上就是这么当虚拟主播的。
四、结语
AI数字人这套技术,高端的可以去拍电影,简单的普通人也能在电脑上做。
让这一切变得又快又便宜的,是AIGC,也就是生成式AI。
它不光能帮你捏脸、配音,还能给数字人装上大脑,让它会思考。
接下来会怎么样?
可以预见三件事。
A. 做数字人的门槛会越来越低。以后可能就像P图一样简单,人人都能给自己做个数字分身。
B. 数字人会变得更聪明。它们不再只是花瓶,而是会成为真正的数字员工,在客服、教育这些行业帮人干活。
C. 它们会更懂感情。技术会集中在模仿人类的微表情和情绪上,让你感觉自己真的是在和一个人交流。
这股风暴才刚开始。
它正在改变我们和屏幕互动的方式。一个充满各种数字人的世界,离我们不远了。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aikonw/1798.html