你想过没,只要打几个字,一张精美的图片就冒出来了。比如,“一只猫穿着宇航服,在土星环上漂着,看着地球,画面要搞成梵高《星夜》那样”。几秒钟,这图就真出来了。
这不是科幻片,现在就能做到。这就是大家都在聊的“文生图”AI。

市面上工具一大堆,都说自己牛。那到底哪个好用?它们是怎么凭空画出图的?我们又该怎么让它画出自己想要的东西?
这篇内容就是把这些事给你说明白。从它怎么工作,到哪个工具适合你,再到怎么说话能让它听懂,一次性讲清楚。
AI到底怎么画出图的
你看到的那些AI画的图,背后不是什么魔法,是一套叫“扩散模型”的技术在干活。
这东西的工作原理是这样的:
想象一下,你先有一张清楚的图片,然后拼命往上加噪点,直到图片变成一片纯粹的雪花。
AI的工作,就是学习这个过程的逆操作。它看着一堆雪花一样的噪点,一步步把噪点抹掉,最后还原成一张清晰的画。
那我们输入的文字干嘛用呢?文字就是“路标”。AI在抹掉噪点的每一步,都会参照你的文字。比如你输入了“戴墨镜的酷猫”,AI就会朝着“猫”和“墨镜”的方向去还原图像,而不是还原成别的什么东西。最后出来的,就是一张全新的、符合你描述的图片。
它不是真的在“创造”,而是把学习过的无数图片概念(比如猫的样子、森林的颜色、赛博朋克的感觉)打碎了重新组合。你给它一个指令,它就在海量的数据里,把相关的概念拼起来,给你一个结果。
市面上那几个AI,哪个好用
现在能画图的AI不少,但真正好用、大家都在玩的,主要就下面这几个。它们脾气不一样,适合的人也不同。
① Midjourney,这家伙出的图最有艺术感
如果你想要那种能当壁纸、艺术感拉满的图,直接用Midjourney。它画出来的光影、构图都特别讲究,有一种高级感,很适合设计师、艺术家这些人用。最新的V6版,对人话的理解能力和画面的真实感又强了不少,连以前老大难的手指头问题都解决得很好了。
怎么用?
就是在那个叫Discord的聊天软件里。你进去,打个/imagine指令,后面跟上你的想法就行。现在它也开了自己的网站,用起来更方便了。
它牛在哪?
就是那种说不清的“美感”。有时候你随便说两句,它给你的构图和感觉都让你很惊喜。
② Stable Diffusion,最自由,但也最折腾
Stable Diffusion是开源的,意思就是你可以在自己电脑上装,完全免费,想怎么玩就怎么玩。它的控制能力是所有工具里最强的。
比如,它有个叫ControlNet的插件。你想让画面里的人摆个特定的姿势,你直接画个火柴人给它,它就能严格按照你画的姿势生成一张细节丰富的图,精准得很。而且网上有无数别人训练好的小模型(叫LoRA),你想画二次元、水墨画或者某个特定明星,下个模型就能用。
谁适合用?
喜欢折腾的技术爱好者,或者需要画面完全受自己控制的专业画师。在自己电脑上跑需要一块好点的显卡,不然会很慢。
它牛在哪?
就是控制。画面的每一个细节你都能想办法控制住,而且免费。
③ DALL-E 3,最会听人话的
DALL-E 3是开发ChatGPT那家公司OpenAI搞的,所以它最大的特点就是和ChatGPT绑在一起。这让它成了最容易上手的工具。
你都不用学什么复杂的关键词,就跟平时聊天一样,用大白话告诉ChatGPT你想要个啥样的图,它会自己分析你的意思,然后转换成AI能听懂的详细指令。这大大降低了门槛。而且它有个绝活,就是在图里写字,正确率比别的工具高很多。
谁适合用?
所有人,特别是懒得学复杂指令的普通用户和内容创作者。ChatGPT Plus会员可以直接用。
它牛在哪?
语义理解。你可以跟它来回聊天修改图片,“让左边的人笑得再开心点”,“把背景从白天换成黄昏”,它都能听懂。
④ 要干正事,还得看这几个
- Adobe Firefly
Adobe出的东西,最大的好处就是图片版权干净。它学习的图片都来自Adobe自己的正版图库,所以用它生成的图拿去做商业设计,基本不用担心版权扯皮。而且它已经塞进了Photoshop里,像“创成式填充”这种功能,框选一个地方让AI帮你 P 图,方便得不行。 - 国内的文心一格、通义万相
百度和阿里出的。它们的好处是,画中国风的东西,比国外的工具懂。你要画个“苏式园林里的汉服少女”,它们对那种中式美学的味道把握得更准。操作界面也都是中文的,用起来没啥障碍。
为了方便看,整了个表:
| 工具名叫啥 | 牛在哪 | 谁用着爽 | 麻烦不 | 花钱不 |
| Midjourney | 艺术感独一档 | 设计师、艺术家 | 中等,得会用Discord | 付费 |
| Stable Diffusion | 免费、控制力最强 | 技术宅、专业画师 | 自己装电脑上很麻烦 | 免费(自己电脑) |
| DALL-E 3 | 最会聊天,好上手 | 所有人 | 简单 | 付费(集成在服务里) |
| Adobe Firefly | 商用没版权风险 | 公司、职业设计师 | 简单 | 付费(集成在Adobe里) |
| 文心一格/通义万相 | 画中国的东西在行 | 国内用户 | 简单 | 有免费额度 |
想让AI画得好,你得会说话
工具选好了,能不能出好图,关键看你怎么下指令。这个指令,行话叫Prompt。你话说得越清楚、越具体,AI就画得越准。
一个好指令的组成部分
别想得太复杂,一个好的指令就像你在安排一个场景,把下面几块说清楚就行:
- 主体: 画面最主要的东西是啥? 一个年轻女人
- 细节: 她长啥样?穿什么?干什么? 银色长发,穿着蓝色裙子,在笑
- 环境: 她在哪?周围有什么? 夜晚的魔法森林里,身边都是发光的蘑菇
- 风格: 要画成什么感觉?像照片?像动画片?还是谁的风格? 宫崎骏动画的感觉,电影截图
- 参数: 对光线、构图、画质有什么要求? 电影光效,构图要大气,细节多,8K画质
我们看看差别有多大
(A) 你只说: 一只猫
- 结果可能就是一张普普通通的猫,甚至有点怪。
(B) 你把话说全了:
一只可爱的三花猫,戴着一顶小巫师帽,坐在一堆旧书上,在一个舒服的图书馆里,早上的阳光从窗户照进来,光线温暖柔和,毛发细节要清楚,奇幻艺术风格,画得要像真的一样。
- 这样出来的图,才是一张有故事、有氛围的好作品。
几个有用的小技巧
- 告诉它不想要什么
这个叫“负面提示词”。比如你发现AI老是画出6根手指的手,你就在负-面提示词里加上“多余的手指,畸形的手”。画面质量不好,就加上“低质量,模糊,水印”。 - 给关键词加“权”
在Stable Diffusion这类工具里,可以用括号来强调某个词。(红头发:1.3)就是让红头发的特征更明显,[蓝眼睛:0.8]就是让蓝眼睛的特征弱一点。 - 拿图给它看
这个叫“以图生图”。你丢给AI一张图做参考,让它照着这个风格或者构图来画。想让一个角色的形象在不同图片里保持一致,就靠这招。
这玩意儿现在都能干嘛?以后呢
AI画图已经不是个玩具了,很多人已经用它在干活。
广告公司用它一天出100个海报草稿,让客户去挑。
游戏公司拿它画怪物和场景的概念图,省了好多事。
做电商的用它生成商品背景图和模特图,成本低效果好。
我们自己写个文章、做个PPT,也能用它快速配图,还不用担心版权。
它会不会让设计师失业
不会。但它会逼着设计师升级。
AI现在就是个超级助手,帮你把基础的、重复的绘画工作干了,让你能专心在创意、审美这些更有价值的事情上。
以前画一张复杂的图可能要好几天,现在AI几分钟给你几十个方案,你的工作就变成了从里面选出最好的,再进行加工和修改。你从一个画图的,变成了一个指挥AI画图的“总监”。
所以,真正淘汰你的,不是AI,是旁边那个会用AI的同事。
未来这技术还会变得更厉害。像OpenAI搞的Sora,已经能直接拿文字生成视频了。以后做动画、拍电影可能都会是另一番景象。从文字生成3D模型的技术也在路上。
当然,问题也有不少。AI画的图,版权算谁的,现在还说不清楚。还有人拿这技术去造假新闻图,也很头疼。这些问题都需要慢慢解决。
别想那么多了,自己上手试试
说了这么多,其实最直接的,还是你自己去玩一下。
从上面推荐的工具里找一个看起来顺眼的,注册个账号,然后把你脑子里想的那些奇奇怪怪的画面,用文字打出来,看看它到底能给你变出什么花样来。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aiyy/ai-pic/1407.html