你可能有个想法,比如一个宇航员骑着马在火星上漫步,画面是梵高风格的。过去,要把这个想法变成一幅画,你需要学会构图、色彩、笔触,可能还要花上好几年时间练习。但现在,你只需要把“宇航员骑着马在火星上,梵高风格”这几个字输入一个软件,等上30秒,一张质量不错的画就出来了。
这就是AI生成软件在做的事:它把艺术创作的技术门槛,一下子拉到了普通人脚边。以前,从想法到成品,中间隔着一条叫“专业技能”的鸿沟。现在,AI在这条鸿沟上搭了座桥。你负责出想法,它负责执行。

这东西听起来很神奇,但背后原理说穿了也不复杂。我们今天常用的大部分AI绘画工具,比如Midjourney和Stable Diffusion,它们的核心技术叫“扩散模型”(Diffusion Model)。你可以这么理解这个过程:软件先拿一张充满噪点的、像电视没信号时的雪花图。然后,它根据你输入的文字指令,一步一步把这些噪点“猜”成你想要的样子。它之所以能猜对,是因为它在“出生”前,已经被投喂了互联网上数以亿计的图片和对应的文字描述。它看过足够多的“猫”的照片,也看过足够多的“梵高风格”的画,所以当你让它画一个“梵高风格的猫”时,它就能把这两个概念联系起来,并从一堆杂乱的噪点中,逐渐还原出一张符合你描述的图像。
所以,这并不是什么魔法,而是一个基于海量数据学习和概率计算的工具。它不懂艺术,也不懂美,但它知道什么样的像素组合,最有可能符合“梵-高-风-格-的-猫”这个文字描述。
要用起来,其实比你想的还简单。我们拿现在很流行的Midjourney举个例子,它的操作流程几乎是固定的。
第一步,你需要一个叫Discord的聊天软件。Midjourney目前没有自己的独立网站或App,它的所有操作都是在Discord的聊天频道里通过对话指令完成的。你只要注册一个Discord账号,然后加入Midjourney的官方服务器就行。
第二步,进入一个新手频道。在服务器里,你会看到很多名为“newbies”的频道,随便进一个。这里是给新手练习的地方,你会看到满屏幕都在出图,别慌,这是正常的。
第三部,输入你的指令。在聊天框里,先输入一个斜杠 /,会自动弹出一个菜单,选择 imagine 这个指令。然后,在它后面的 prompt 框里,输入你想要画面的英文描述。这是最关键的一步,你描述得越清楚,AI就越懂你。
比如,你想画一只在图书馆看书的猫。直接输入“a cat reading a book in a library”当然可以,但出来的图可能很普通。想要效果更好,你的描述需要包含更多细节。你可以把它拆解成几个部分:
- 主体 (Subject): 一只戴着圆框眼镜的橘猫 (An orange cat wearing round glasses)。
- 场景 (Setting): 坐在一张老旧的木书桌前,背景是堆满书的书架,阳光从窗户照进来 (sitting at an old wooden desk, surrounded by bookshelves filled with books, sunlight streaming through a window)。
- 风格 (Style): 吉卜力动画电影的风格,色彩温暖 (in the style of a Ghibli anime film, warm color palette)。
- 构图和画质 (Composition & Quality): 电影感的灯光,细节丰富 (cinematic lighting, rich details)。
把这些组合起来,你的指令就变成了:“An orange cat wearing round glasses, sitting at an old wooden desk in a library, surrounded by bookshelves, sunlight streaming through a window, Ghibli anime film style, cinematic lighting, rich details.”
最后,你还可以加上一些参数,来控制最终的输出。比如在指令后面加上 --ar 16:9,就可以把图片的长宽比设置为16:9,更像电影截图。加上 --v 6.0 则是使用最新的6.0版本模型,通常效果会更好。
指令发出去之后,等几十秒,机器人就会给你四张草稿图。图片下方有两排按钮,U1到U4代表放大(Upscale)对应的第一到第四张图。V1到V4代表以对应的图为基础,再生成四张风格类似的(Variation)。如果你对某张图特别满意,就点击U按钮,机器人会给你一张高清大图。如果不满意,可以点击V按钮,让它再变一变,或者干脆重新写指令。
整个过程,就像你在跟一个言听计-从、但想象力需要你来引导的画师沟通。你不需要自己动笔,但你需要清楚地知道自己想要什么,并且能用语言把它描述出来。这就是所谓的“咒语”(Prompt Engineering)。有时候为了一个完美的效果,你可能要反复修改、尝试几十次指令,这个过程本身,就是一种新的创作。
当然,AI能做的远不止这些。Stable Diffusion这个工具,可以让你在自己的电脑上部署,自由度更高。你可以用自己指定的图片来训练它,生成特定风格或人物的图像。比如,你可以用自己画的10张插画来训练一个模型,然后让AI用你的风格画出100张新的插画。很多专业艺术家已经这么做了,他们把AI当成一个超级助手,用来快速生成设计草案、寻找灵感,或者完成作品中一些重复性的工作。
不过,这个工具也带来了很多现实问题。
首先是版权的争议。AI生成的图片,版权到底属于谁?是属于写下指令的用户,还是提供服务的AI公司?美国版权局已经有过表态,纯粹由AI生成的作品不受版权保护,因为缺少“人类作者”这一要素。 但是,如果一个艺术家在AI生成图的基础上进行了大量的二次创作和修改,那这部分人类创作的价值又该如何界定?这些问题,现在的法律还没有明确的答案。
其次是伦理问题。AI模型的训练数据来自整个互联网,这里面包含了大量受版权保护的艺术家作品,而这些艺术家在大多数情况下并未授权自己的作品被用于AI训练。 这引发了很多艺术家的抗议,他们认为这是对他们劳动成果的窃取。 这就像一个学生,把图书馆里所有书都背下来,然后自己写了本书,书里的句子都是他自己写的,但风格和知识都来自图书馆,这算不算抄袭?这个问题很复杂,目前还在激烈讨论中。
还有一个很现实的冲击,就是对商业美术从业者的影响。过去,一个游戏公司可能需要雇佣一批画师来绘制大量的角色概念图和场景原画。现在,一个主美带着几个AI操作员,可能一天就能生成几百张高质量的概念图,工作效率大大提高,但对初级画师的需求就减少了。这和当年摄影技术出现时,很多肖像画师失业的情况很像。技术总是会改变行业的形态,这是无法回避的。
所以,AI生成软件到底是什么?它是一个工具,就像相机替代了部分画师的工作,Photoshop改变了设计师的工作流一样。它降低了视觉表达的技术门槛,让更多没有绘画基础的人,也能把脑海中的画面呈现出来。
你和艺术家的差距,或许真的只差一个AI软件。这句话对,也不对。
说它对,是因为在“把想法变成图像”这个技术执行层面,AI确实帮你填平了大部分的沟壑。你不需要再花数年时间去练习透视、光影和人体结构。
说它不对,是因为艺术从来不仅仅是技术。艺术的核心是审美、是观念、是叙事,是你想通过画面传达的情绪和故事。AI可以生成一张“悲伤的国王”的画,画得比任何人都逼真。但国王为什么悲伤?他的悲伤是源于失去国土的悔恨,还是对人性虚伪的洞察?你想通过这个画面,让观众感受到一种宏大的悲剧感,还是一种荒诞的讽刺?
这些,才是艺术创作中真正属于“人”的部分。AI无法替你决定这些。它能给你无数个选择,但最终做出判断和取舍的,还是你。工具变得简单了,但对使用者“想法”的考验,其实变得更直接了。
所以,不妨去试试这些软件。把它当成一个画笔、一个相机,一个能帮你快速验证想法的伙伴。也许你会发现,你缺的从来不是画画的技巧,而只是一个把想法具现化的途径。现在,这个途径就在你面前。
原创文章,作者:MakeAI,如若转载,请注明出处:https://www.qidianhudong.com/aikonw/2599.html