你肯定有过这种时候。在网上刷到一张AI画的图,效果惊人,心里直痒痒,也想搞一张出来。结果对着软件憋了半天,除了“画一个女孩”,啥也想不出来。看着别人的神作,再看看自己的,感觉就像隔了一条河。
那条河,其实就是“提示词”(Prompt)。别人能画出神图,就是因为掌握了那串关键词密码。

今天就来拆解这个密码。这活儿叫“提示词反推”。说白了,就是把一张图丢给AI,让AI反过来告诉你,生成这张图可能用了哪些关键词。这招学会了,大神们的创作思路,在你面前就跟透明的没两样。
这玩意儿到底怎么回事?
这个技术的核心,是一个叫CLIP的AI模型。你可以把它看成一个既懂画又懂话的翻译。它能看懂一张图里的内容、风格、构图、光线,再把这些视觉信息“翻译”成文本关键词,也就是提示词。
学会反推有几个实打实的好处:
① 直接偷师
这是学东西最快的方法。看高手图的反推词,能立刻明白人家是怎么搭配关键词的,用了哪些艺术家的名字,怎么描述光线和镜头感。
② 找灵感
脑子空空的时候,随便找张喜欢的图去反推一下。AI生成的词组经常会给你一些意想不到的组合,思路一下子就打开了。
③ 节省时间
想要某种特定风格,但不知道怎么描述?找张参考图,让AI帮你生成一套基础提示词,你再上手修改就行。这比自己闭着眼瞎试快多了。
破解密码的工具箱
想干活,得有工具。市面上有几种主流工具,各有各的用处。
No.1 Midjourney 用户专用:/describe 命令
玩Midjourney的,最方便的就是用它自带的/describe命令。
操作很简单:在Discord对话框里输入/describe,它会让你上传一张图片。把图传上去,敲回车。
Midjourney会分析这张图,直接给你提供四组不同的提示词让你选。它甚至会告诉你原图的宽高比参数。这四组词风格各异,给了你很多再创作的空间。缺点是,它生成的词最适配Mid-tjourney自己,用在别的AI绘画工具上效果可能会打折扣。
No.2 Stable Diffusion 玩家的组合拳:CLIP Interrogator + Tagger
如果你用的是Stable Diffusion(SD),那WebUI里的这两个插件就是你的主力武器。
- CLIP Interrogator:这是个艺术评论家。它分析的是一张图的整体感觉,比如“这画有格雷格·鲁特科夫斯基(Greg Rutkowski)的风格”,“属于奇幻概念艺术”,或者“灯光很有电影感”。它负责搞定风格和氛围。
- Tagger:这是个细节控。它会把图里看得见的东西全给你标出来,变成一个个标签(tags)。比如“一个女孩”、“金发”、“皮夹克”、“夜景”、“城市背景”等等。它负责搞定画面里的具体内容。
这两个必须配合着用。先用CLIP Interrogator确定画面的整体艺术风格,再用Tagger把所有细节元素补全。这样弄出来的提示词,有骨架也有肉,还原度很高。当然,前提是你得在本地装好Stable Diffusion环境。
No.3 谁都能用的在线工具
不想折腾本地部署的,可以直接用网页版工具。
很多在线工具都是把CLIP Interrogator这类开源模型做成了网页服务。比如去Hugging Face这个网站,搜“CLIP Interrogator”,能找到一堆可以直接用的在线应用。打开网页,上传图片,就能拿到结果。
这种方式的好处是方便,不用装任何东西。缺点是人多的时候可能要排队,速度慢,功能也不如本地部署的那么全。
实战一下:三步拆解一张图
我们拿一张复杂的赛博朋克人像图来练练手。
第一步:选好工具
这张图的特点是:风格强烈(赛博朋克),细节又多(机械改造、霓虹灯)。这种图最适合用Stable Diffusion的CLIP Interrogator + Tagger组合拳来拆。
第二步:动手拿词
把图丢进WebUI。
- 先用 Tagger 跑一遍。它会吐出一大堆标签,比如:1girl, solo, neon lights, cyberpunk, night, city, mechanical parts, glowing eyes, detailed face, jacket, looking at viewer, cinematic lighting…
- 再用 CLIP Interrogator 跑一遍。它会给出一句对风格的描述,比如:a digital painting of a woman in a futuristic city, by artgerm and greg rutkowski, concept art, cinematic, highly detailed, octane render, trending on artstation.
第三步:组合加工
现在我们拿到了两份“情报”,一份是细节清单,一份是风格报告。接下来把它们揉在一起。
先把两边的词合并。通常把描述主体的词放最前面,比如1girl, cyberpunk。后面跟着细节补充,比如mechanical parts, glowing eyes。最后放风格、画质、艺术家名字这些,比如cinematic lighting, by artgerm。
删掉一些没啥用的词,比如solo(一个人)这种。
最关键的一步,加入你自己的想法。比如你不喜欢原图的发色,想改成蓝色,就在词里加入blue hair。想让背景模糊一点突出人物,就加入depth of field。
最后,你可能会得到这样一串优化过的提示词:
(masterpiece, best quality, highly detailed), 1girl, cyberpunk, blue hair, mechanical parts, jacket, detailed face, neon lights, night city background, cinematic lighting, depth of field, art by artgerm and greg rutkowski, concept art, trending on artstation, octane render.
用这串词去画,出来的图不仅味道对了,还带上了你自己的想法。
别光会拆,得会造
记住,反推提示词不是为了让你去当个像素级的“复印机”。那样没意思,也容易有版权问题。这招的真正目的是让你学会别人是怎么思考的。
养成个好习惯,建一个你自己的“词库”。每次反推出什么有意思的、效果好的词组,比如某种灯光的描述,或者某种笔触的风格,就把它记下来。时间长了,你的“弹药库”就满了。
还可以试试“杂交”。把从科幻图里学来的光影词,用到一张古风图里,看看会发生什么。AI绘画的乐趣就在于这种未知的可能性。
最后要明白,AI是死的,人是活的。AI反推的词很客观,但它理解不了“带着一丝苦涩的喜悦”这种复杂的人类情感。它能给你提供完美的构图和色彩搭配,但画面的故事和灵魂,还得由你来注入。
现在,破解密码的工具和方法你都有了。去拆解,去学习,然后,去创造点真正属于你自己的东西吧。
原创文章,作者:七点互动,如若转载,请注明出处:https://www.qidianhudong.com/aikonw/700.html