你看到一张AI画的图,觉得很牛。背后那行字,就是提示词。这行字不是随便写的,它有自己的规矩。搞懂了这套规矩,你才能让AI听懂你到底想画啥。

一、AI怎么把文字和图片对上号的
AI并不真的“懂”画画。它靠一个叫CLIP的模型,把文字和图片联系起来。
这是它的工作原理:
CLIP看了巨量的图片和描述这些图片的文字。它学习把意思相近的文字和图片,放在一个“空间”里很近的位置。
举个例子。
你输入文字“一只在盒子里的小猫”。
同时,有一张小猫在盒子里的图片。
CLIP会把这段文字和这张图片,都转成一串数字。这两串数字在它的系统里会挨得特别近。
所以,你写的提示词,不是一个命令。它更像一个搜索词。你用这个词,在AI的记忆库里,找一个最匹配的目标。
二、图是怎么从一堆噪点里“长”出来的
找到了目标,怎么画出来?这就要靠扩散模型(Diffusion Model)了。
它的干活方式有点特别:
先拿一张清楚的图,一点点往上加噪点,直到变成一团雪花。然后,它学习怎么把这个过程倒过来。
AI画画,就是从一堆随机的雪花点开始。它一边消除这些噪点,一边反复问自己:我现在画的这个东西,跟提示词描述的那个目标像不像?
比如,你的提示词是“一只在盒子里的小猫”。AI就会朝着“猫”和“盒子”的方向,把雪花点慢慢变成一张清晰的图。你给的提示词越清楚,它去噪点的方向感就越强,最后的结果也就越好。
三、写提示词,得讲究点方法
写提示词就像搭积木。每个词,每个符号,都有用。
① 把话说全,别说半截话。
AI很笨,你得把话说细。
- 不行: 一只猫
- 这样行: 一只毛茸茸的三花猫,趴在红色天鹅绒垫子上,窗户光,照片质感
看,后者给出的信息多得多。主体、细节、光线、风格都定了,AI才知道往哪儿画。
② 词的顺序,会影响画面。
排在前面的词,AI会更重视。
- 一个男人牵着一条狗
- 一条狗牵着一个男人
这两个提示词,出来的图里,谁是主角,谁更显眼,可能会不一样。另外,用逗号把不同的想法隔开,AI能更好地理解每个部分。
③ 控制画面的轻重,去掉不想要的东西。
有时候,你想让某个东西更突出。
在Stable Diffusion里,可以给词加权重。先做这个:用括号把词括起来,再加个冒号和数字。
比如,想让猫的毛特别突出,就写 (fluffy:1.3) calico cat。数字大于1是加强,小于1是减弱。
而且,你还可以告诉AI什么东西不要画。这个叫负面提示词。
比如画人像,老是画出手崩了的情况。你可以在负面提示词框里写:多余的手指, 畸形, 丑陋, 解剖结构错误。这样可以帮你避开很多常见的错误。
四、不同的AI,脾气不一样
你用同样的提示词,给不同的AI工具,出来的图可能完全不同。因为它们的“性格”和“知识库”不一样。
No.1 Midjourney,更像个艺术家。
它的图都有一种艺术感。你不用写得太复杂,给一些感觉、氛围的词,它就能给你惊喜。
比如写:电影感,宇航员站在霓虹灯照亮的异星,史诗感。它很擅长处理这种风格化的描述。
No.2 Stable Diffusion,更像个工程师。
它能让你控制画面的很多细节。而且它有很多社区做的模型(Checkpoints)和插件(LoRA)。你的提示词需要写得更精确、更有条理。
比如写:(杰作:1.2), 最好画质, 1个女孩, 单人, 棕色头发, 蓝色眼睛, 看着观众, 坐在咖啡馆里, (精细的背景:1.1)。这种结构化的写法在Stable Diffusion里效果更好。
它们为什么不一样?因为训练它们用的图片数据不一样,背后公司的调整方向也不一样。这就导致了它们各自的“品味”。
说到底,AI画图工具会越来越好用,越来越“傻瓜”。以前那些复杂的写法可能会慢慢过时。但工具的进步,反过来要求用工具的人,想法要更好,创意要更独特。你的想象力,才是真正决定一张图好坏的根本。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aikonw/735.html