大家好,我是小包。
我是没有艺术细胞的,这点我从很小就切实的感受到了,我不会画画,不会唱歌,我便是艺术的荒漠。童年是那么的梦幻,那么的值得渴望,谁不想亲自用自己的画笔来描绘记忆中的过去那?没错,我也曾想成为一个画家。
今年是很值得庆幸的一年,澳门太阳集团城网址54开头AI 绘画在 2023 年泉涌般发展,给予了我马良的神笔,使用它我可以绘画出无限的可能,本文就分享了今年我在 AI 绘画中的一系列尝试,本文整理了整年学习和体验 AI 绘画的总结以及一些对于 AI 绘画的看法,我尽量通过浅显易懂的方式讲述 AI 绘画的基本使用,文章很长,其中包含大量案例和小窍门,建议收藏慢慢品味,如果能对大家的 AI 绘画之路有微乎其微的帮助,那真的是我的荣光。
让我们举起 AI 绘画的神笔,一起绘制出梦想中的世界。
在 AI 绘画之前,我有必要简短给大家介绍一下 AI 绘画的基本原理。
我们先来想一个问题,你认为 AI 是怎么进行绘画的?是一笔一笔地勾勒轮廓,然后再上色精修,然后得到一副完美的画作吗?
No No No。
它采取了一种非常独特的思路——扩散 Diffusion,这个词比较难以理解,我想了一个通俗的案例,那就是我们经常使用的马赛克。
日常中,发朋友圈或者其他方式分享时,有张图片很喜欢,但是其中有一些部分涉及一些隐秘,不想让别人看,我们就会打上马赛克,这些部分就由此变得模糊不清。
如果有一张模糊不清的图片,我们给予一些提示,正如一千个读者就有一千个哈姆雷特,那每个人对这个模糊区域的想象是不同的,如果把每个人的想象复现为真实图像,就会得到与原图不同表现的千万张图片。
Diffusion 就是这样的工作原理,在图像的生成过程中,不断地迭代加入噪声或一些随机性信息,也就是进行马赛克,同时每一次噪声的迭代只与上一次的状态相关联,也就是说形成一段随机的加噪链条。
然后迭代去噪,在这个过程中,AI 就是万千的我们,根据关键词和它们所学习的知识,不断地进行联想,进行去噪,图像变得越来越清晰和逼真。
以后再想起 AI 绘画,你就可以简单地理解为马赛克的加密和解密过程,至于细节如何实现,有兴趣可以去深究一下,没兴趣,了解这么多就够了。
学到这里,我不由就产生了新的问题,最基础的文生图,我输入的都是文字啊,何来图像之说,那有何来马赛克之说?
好问题,AI 怎么知道你描述的是什么,又是如何转化为图像的那?
模型,AI 绘画的底层本质是一个图像模型,摸不着头脑,嘛玩意。
要是想彻底说清楚它,我估计三天三夜都不一定够。
还是再举一个例子吧,神经网络大家我想都不陌生,CNN,RNN,Transformer 等多了去了,它们其实就是一个结构,那它们是怎么具备人工智能的那?
练它,练它,它们也需要学习,这个学习过程叫做训练,图像模型就是这样一种模式,假设我是它的训练师,大致就是这样的一个训练过程。
图像模型经过的无数类别的对应训练,它就构建了一张庞大的文本到图像的对应关系。当我输入狗时,它脑海中就会出现无数狗的印象,这是一个很笼统的狗,这也就是最初的马赛克图像。
原理其实并不难,但将这个原理付诸于现实,推广使用,就是一个非常艰难的论题,Stable Diffusion 完整的实现了这个流程,并将其开源,由此我们便迎来了 AI 绘画的元年,我只能说配享太庙。
了解完基础原理后,我相信你已经成功构建起 AI 绘画的基本概念,那么估计已经迫不及待的开始 AI 绘画之旅了。
开源的魅力就在于它的无限可能,AUTOMATIC1111大佬为 Stable Diffusion 开发了一套 Webui 页面,通过简单的网页交互操作,就可以轻松实现 AI 绘画。Webui 大幅度降低了使用门槛,这也是今年 AI 绘画的爆发的有力推动者之一。
环境配置这里我就不详细讲解了,目前社区内已经有广泛的配置细节,这里我讲一些比较省事省力的方法
AI 绘画对于设备的要求还是蛮高的,嗯,挺高的,很多朋友的电脑其实未必能吃得住 AI 绘画,因此就需要一个在线的 AI 绘画平台,对于这种情况,就有两种解决方案,我最推荐下面的几类方案
如果电脑的性能足够的话,可以在本地配置环境,那样的话我强烈推荐秋叶佛祖的整合包,一键式安装,摒弃复杂的环境配置流程。
webui 启动后,就类似于上图,由于我已经安装了很多扩展插件,可能与你的存在一些差异,但是整体模块是类似的。
了解到基本页面后,我们就可以开始第一张 AI 的绘画了。经过我一阶段的 AI 马良之旅,AI 绘画在我看来有三大核心要素:模型+提示词+参数。另外额外的一些扩展,可以算是核心外的锦上添花,把握住核心,就能完成一些不错的绘图。
Stable Diffusion 模型其实官方提供了几款基本模型,但是在日常的绘画中,我很少使用。很简单的道理,Stable Diffusion 就像一个世界语言词典,囊括世界上所有的词汇,咱们汉语是母语,遇到不会的,世界语言词典肯定能查到,但是怎么能比的过使用汉语词典去查,来得简单和精确那。
Stable Diffusion 官方提供的模型就是类似的原理,它们足够包容,全面,但是它们的专精性不够强,例如我就像画猫狗,我便倾向于侧重于猫狗的图像模型;我画人像,我便倾向于人像。于是,开源的小伙伴们,就在 Stable Diffusion 官方的基础模型(也可以称作底模)上进行了无数微调,私炉训练,由此产生了现在模型万花筒般的盛况。
那么问题来了,我们该如何获取模型那?
下面我先推荐几个不错的模型社区,然后分享几款我特别喜欢的模型。
上面三款应该足以满足大多数 AI 炼丹师的需求了,尤其是 C 站,那真的是繁荣,各类资源丰富,就是需要科学上网,如果综合考虑,我还是推荐 liblib,下载速度和模型数量都足够抗打,而且更偏向于国人的审美。
在推荐模型之前,有句话希望大家可以有个概念,别被繁杂的模型弄晕了:模型本质没有优劣之分,只不过有些模型好评度比较高。
模型如海一般,每天又在频繁的制造 ing,大家选用自己喜欢的即可,我就不详细的写模型的推荐理由了,只标记了几款我最常用的,通过链接点进去,都会有模型的详细介绍和返图区,风格、画风比较容易判断。
关键词是门学问,还记得 ChatGpt 刚出现时,网络上出现一种 prompt develop 的岗位,专门来帮助设计 prompt,当时还有些不屑一顾,后来开始 AI 绘画时,才发现 prompt 刚上来是真有些摸不着头脑。
此外经过一段时间的学习,我总结了一些 prompt 的使用经验,我称为三大法宝:
因此我推荐在写 prompt 时,按照分类顺序来写,这样编写的 prompt 逻辑更好,修改起来也更不容易混淆。
关于 prompt 方面,有三个插件我是特别大力强烈推荐的,分别是
C 站、liblib 每个模型都有返图区,返图区的某些图像会带有相对应的生成参数,我们可以直接借鉴。
除此之外,再给大家提供几个我常用的抄作业网站,生成好看绘图前,保证让你挑花眼。
除了提示词写法外,还有两点需要补充
后续不同参数的效果会在后面做案例比较,大家这里先有一个概念。
掌握核心三要素后,就可以开启文生图的旅程了,后续的案例我都将按照下面的模式来注明所用的指标。
如果你按照我的步骤来了一遍,那么你应该得到的是下面这个小姐姐,是不是挺简单的,不知不觉,你已经成功地完成第一张绘制了。
文生图就是这么简单,朴素无华,只要写好提示词,就可以绘制出大千世界的任何景色。
但这远不是文生图的真正强大,它的魅力还远远不止这些。例如我为此添加一个 lora: 扁平像素风,设置权重 0.8,小姐姐风格瞬间就被改变了,是不是很神奇,AI 绘画的世界大着那,Lora 是什么,具体先不用深入理解,后续咱们一步一步来。
但是此时如果取消传入的 Seed,再点击生成,你会就发现,每次生成,得到的绘图是天差地别的,AI 画师也形象把这个过程比作抽卡。那么问题就来了,抽卡通常就意味着低效,大家应该都被抽卡概率荼毒过,学到这里你可能会怀疑 AI 商业的可能性?别急,等我慢慢道来。
图生图说到底也并不复杂,相较于文生图枯燥的文字提示,它只是添加了更为直接的提示——图片信息,也就是所谓的垫图,其余都是一样的。
文生图我们不是生成一张扁平肖像风小姐姐吗?这里咱们把这个汉服小姐姐扁平像素风一番,这也就是真人动漫风的一种。
我们把文生图所用的参数都同步到图生图中,注意修改一下生成图像的尺寸,图生图会以传入的图像作为基准,上面小姐姐像素为 1200*2048,如果不修改尺寸,依旧按照 512*768,生成图像就会被压缩。
1200*2048 这个分辨率有些过大,太考验显卡性能,咱们等比缩放一下,使用600*1024,重绘幅度,保持默认。
使用了文生图的提示词,汉服小姐姐的很多行为被修改了
对应修改一下 positive prompt,如下:
绘制的图像是不是更接近我们的想法了,如果依旧感觉不足,可以继续调整提示词。
比如我想要东方传统青花瓷风格的衣服,那就可以再添加一个 Lora:东方魅力系列-青花瓷风,权重依旧设置为 0.8
青花瓷的感觉已经上来了,但是它也带来了负面作用,那就是发色、整体画风受到了非常大的影响,权重有些大,降至 0.4。整体就有比较清晰的回调,当然,你也可以继续调整,辅助于其他的 Lora 和 prompt。
依照上面这个案例,我们来测试一下重绘幅度的影响,加深对此的认识。
重绘幅度位于 0.1~0.3 之间,图像的改变其实并不是特别大(画风的改变是 Lora 影响的),而 0.8~0.9 背景已经没有,原图也变动很大,因此我比较推荐 0.3~0.8,在这个区间,一方面尽可能保留了原图特征,还给了 AI 足够的发挥空间。
但小的重绘幅度也有妙用,比如你想做一个赛博 Coser,既然是 Coser,你总不想出来的效果完全不像你吧。
赛博 Coser 是今年上半年,一个 B 站 Up 主制作了一组以自己为原型的赛博 Coser,上传到 B 站时,被官方分类到了 Coser 类,官方都没审核出来,可见这组绘图的质感。此事一出,在国内外的 Coser 圈和设计圈引起了轩然大波,人们由此开始重新思考 AI 绘画的魅力。
如果有兴趣也可以读一下我写的 prompt,主要就是写了一些赛博朋克风格、科幻风格的背景和衣服。
另外有一个比较值得注意的点,除了降低重绘幅度外,我还拉高了 CFG 的大小,这是为了更大程度上模拟赛博朋克风格,同时尽可能保持脸部和身形的还原度。最后的结果大约就是下面这样。
如果感觉赛博朋克的风格不够显著,也可以加入相对应的 Lora,例如赛博朋克风格 V2.0,风格类权重不要设置太大,0.4~0.6 就好,这里咱们设置 0.4。
图生图的案例还有很多,记住其生成核心即可:利用图片提供更多的信息,相当于垫图。但你是否发现一个问题,我们已经提供了图片信息,还是要写一大堆 prompt,而且还不能保证生成效果,这有点让人难受。
那有没有解决方案呢?有,还有两种,一种便是 Lora,另一种是前段时间刚推出的 ip-adapter,后面我都会慢慢介绍。
上文中反复使用了多种 Lora,但是我并没有告诉你它是什么?现在咱们来揭开它的面纱。
训练图像模型的时候,我举过让他辨别猫狗的案例,那么现在问题来了,我现在要求提升了,我现在要求画一只柯基。
它认识柯基吗?它不认识,不信咱们试试。不应该这么武断,应该说它的认识不够精确。
距离咱们日常中的柯基是不是相差甚远,这是因为 AI 在训练时,虽然可能接收了部分柯基图片,但是通常只会占据一小部分,它们没法建立起特别精确的对应关系。
这时候就产生了两种解决方案:
柯基的感觉是不是直接溢出屏幕了,没有添加任何的提示词,加入一个 Lora 就可以实现柯基效果。
模型是对 SD 底模的微调,Lora 则是针对特定场景的特训,不管谁来了,你就这么理解,就是相当于查字典,本来你使用提示词,需要告诉字典第几章第几部分第几个,Lora 就相当于书签,直接定位到所查单词。
Lora 使用有三种,我比较推荐我介绍的这种,在 Webui 界面中,有一个工具栏,点击 Lora 选项,就可以罗列出所有的 Lora。如果没有这个工具栏,在生成按钮下面,会有一个小按钮,叫隐藏/显示扩展模型,点击一下,就可以出现。
Lora 相较于模型,它更容易训练,体积更小,能完成我们心中的特定场景、人物中,我时常称其为 AI 绘画中的明珠,如何能用好它呐,我认为需要在心中对 Lora 有一个大致的分类,不同的分类权重设置有所不同。
Lora 可以同时使用多个,但注意有些 Lora 可能会存在冲突,这个生图的时候需要注意一下。下面推荐一个案例,使用了画风和概念 Lora,大家有兴趣可以去尝试一番
大约是这种效果:
上面的案例,为了保证你生成的效果与我保持一致,我推荐固定 seed。但是在日常我们的绘画过程中,需要大批量的生图,最后再挑出一张心仪的,作为绘制成果。
在这个大批量绘制的过程中,你会发生,牛鬼蛇神,各种姿态,各种布置都会出现,这是由于 AI 绘图是基于扩散模型,生成过程充满了随机性,难以控制。
随机也就意味着低效,那我就需要重新评估它的商业价值了。
ControlNet 就是针对于这些场景而出现的,中文叫控制网,本质是对大模型做微调的额外网络,根据一些额外信息控制扩散生成走向。
ControlNet 提供了很多提取额外信息的方式,例如 openpose 提取姿势信息,canny 提取边缘信息,在后续中,我不会详细的讲解每个到底是怎么使用的,下面主要围绕案例展开。
Controlnet 位于参数的下面,框起来的是核心部分,支持多种 ControlNet 同时使用,推荐开启完美像素模式,如果设备显卡有限,可以开启低显存模式。
控制权重类似于 CFG、Deoising,代表提取的控制信息对生图的影响比例,后面的介入时机和终止时机表示这些控制信息什么时候参与到噪声生成。举个好理解的例子,例如 Step 为 20 步,0.2 就可以理解为从第 4 步参与。
模特换装|背景这是电商中非常热门的应用之一,它的核心便是借助于图生图的蒙版重绘。
蒙版的设计可以借助 PS,但如果不会 PS,也没关系,webui 中存有webui-rembg插件,安装该插件后,在顶部菜单栏的后期处理中,就会有生成蒙版的功能。按照下面截图操作,点击生成,就可以获得蒙版。
然后传入到图生图的蒙版绘制,蒙版默认重绘白色区域,但可以选择重绘蒙版内容,实现倒置。
其余的参数,建议按照我所使用的
下面来看一个例子,首先把背景换成圣诞风格,我随便写了一组比较简单的关键词。
然后你就有可能会看到惊悚的一幕,生成的图像中多出了两只手,即使我在 prompt 中进行了约束((no human:1.5),(no hand:1.1)),但是依旧还是出现多余肢体的问题。
网上很多教程并没有提出对此的解决方案,这其实算是蒙版重绘目前存在的弊端,确实不好解决。其一它还不够智能,我们使用的蒙版,右手被身体遮盖了,它就会尝试去补全;其二咱们制作的蒙版边缘应该存在一些空隙,可能会好一些。
那该怎么解决那?我经过一系列的尝试,Controlnet 可以有效地解决这一问题。
提取越多信息,openpose 所用时长越久,这里咱们不需要面部表情,因此选用 openpose-hand 就可以,有了它,我们就可以控制小姐姐的身体和手指的整体姿态。但是光有它是不够的,姿态只能提供平面信息,无法提供深度位置信息,小姐姐的右手是被遮挡住了,因此我们需要添加额外的 Controlnet。
在人像的生成中,depth 通常可以用来提供深度信息的辅助,因此其权重通常设置比较小,0.2~0.4 左右,同时引导时机也要相应调整,否则生成的人像会非常突兀。depth 推荐使用 depth leres++预处理器,下面是我使用的参数和深度图,深度图中颜色的深浅便是其中部分距离我们的远近,也就是距离深度信息。
depth 可以提供深度信息,其实它最大的发挥空间是建筑、布局等诸多领域。
多生成几次,你就可以发现,在 openpose + depth 的双重控制下,多余肢体出现的情形就会非常少。openpose 和 depth 是一组常用的控制网搭配,在人像绘制中可以起到很好的互补作用。
这个案例因为是一个长图,可供渲染的背景区比较少,更换背景的效果没有那么明显,主要目的是为了记录在蒙版重绘过程中遇到的问题和解决方案,如果想要更明显的背景切换感,可以换成横屏图或者缩小人像的占比。
下面我们来尝试进行模特换装,从背景中提取人像,我们用 webui 插件实现了,衣服的提取也可以用 webui 插件实现,是不是感觉好强,打倒 PS 就在今日。
这个插件叫inpaint-anything,安装之后,会在顶部菜单栏多一个 Inpaint Anything 标签页。
截图中提供了使用的大致步骤,模型推荐使用 sam_vit_l_0b3195.pth,这个生成会有些慢,需要等一会,然后再右边就可以得到场景中每一个部分的切片,想要那部分蒙版,用画笔在上面勾勒一下,就可以获取对应蒙版,这个插件可以允许你提取图像中的任何部分,而且效果还是特别不错的。
得到蒙版后,更换衣服的方法与更换背景类似,这里就不做赘述。
基于扩散的机制,虽说可以产生无限的可能,但是在某些情形下,它也有很多的不足,例如早期 AI 画手,就是因为扩散的机制,导致出来的手千奇百怪。除了手,另外一个最典型的就是文字,AI 写出的文字也和早期的手一般,歪曲,乱七八糟。
如果想绘制不变形的文字,或者在文字的基础上在做一番尝试,也需要借助 Controlnet 来做。这是我随手在 Word 中写的两个字——冬至,我想以此为基准,创建一个带有冬至的海报。
给它一组参数,扔了图生图里面去。
结果我就不展示了,因为你会得到一些奇奇怪怪的展示。如果我再给 AI 些提示,例如加上poster style,the "冬至" is written in the middle,,额,结果怎么说那,又臭又硬。
Controlnet 出手,对于这种需要比较精准的提取轮廓信息,Controlnet 中有很多种,例如 canny 边缘监测、softedge 柔性边缘、Scribble 涂鸦都是可以的,canny 最较真一些,后面两者相对更柔和一些,对于信息的把控没有那么严格,如果你想要 AI 更天马行空一些,可以使用后面;如果更多的精度,canny 最合适。下面就是分别对冬至两个字的 controlnet 预览效果,可以看到,从 canny -> softedge -> scribble,对边缘的提取越来越柔和,AI 的发挥空间越来越大
下面两图分别使用 scribble 和 canny 生成的,我没有使用太复杂的提示词,加上了几个 Lora,效果就挺不错的。
艺术二维码也算是在抖音盛极一时,那时候我记得抖音总会推相应的广告或者视频,甚至现在咸鱼上还有好多售卖艺术二维码的,我不信这个邪,让我来看看怎么个事。二维码其实是通过定位点和黑白之间的明暗关系来识别的。因此我们只需要尽可能地还原二维码中的关键定位点,同时增加明暗关系,然后借助文生图的方式,是不是就可以实现艺术二维码。
当然这种方式不是我发明的,是神通广大的网友发明的,我只是其中的实践者。
那我们就按照上面的思路来:
边边角角的融合度通常是较难的,经过我反复体验,AI 更喜欢圆滑的曲线,因此咱们首先使用 QR Toolkit 插件进行二维码改造,改造的模式建议使用我下面的方案,经过测试,融合度最好。
改造完二维码后,一定要用手机扫一下,如果不成功,修改一下 seed,但是别指望长按识别,等会你会见证奇迹。
qrcode 权重关乎到二维码的还原度,通常在 1~1.2 以上,但是据我经验,最好开始不要拉太大,1 即可,后续慢慢调整。brightness 是提供明暗辅助信息,因此权重要小,0.3~0.5 之间就好,引导时机也要拉小,0.3~0.8 之间,最开始我都设置 0.65~0.8。
然后写上提示词,就可以进行艺术二维码的创作了。
下面就是我随手创建的一张,既可以扫描,也可以长按识别。当然你也可以继续丰富提示词,让画面更加的精美。
艺术二维码的生成难度主要在于调试上,一般有两种情形
把握住这两点,慢慢的你就可以调控出属于自己的 AI 艺术二维码。
Canny 的效果其实可以做很有意思的操作,前段时间,我在 B 站看到一个海报的生成模式。它是这样一种生产方式,我认为还是挺科学的。
以 AI 绘制掌控整体的大背景,然后再借助 PS 修改小细节,这样的融合度和画面的呈现都都会好特别多,一种不错的海报制作方式,记录一下。
Ip-Adapter 是今年刚出的一个 ControlNet,它的效果让我惊喜,也让我恐惧,AI 进化的速度超乎我的想象。
Ip-Adapter 你不用知道它的原理,你就知道它能非常完善的提取图像的画风,提出的还原度超级高。
例如下面的案例,我甚至都不用写 prompt,只需要配置上 Ip-Adapter 和 canny,前者提供风格,后者提供内容,一键复刻,内容就和风格完美统一。
除了人像风格的融合,在建筑设计领域,我感受到了 ip-adapter 深深的潜力,一套线稿,我可以随便拿风格来套,这不就是云装修吗?
经过半年多对 AI 绘画的体验,有了好多感想,也有了几丝惧怕,AI 的时代就这样一步一步地靠近我们,不日必将石破天惊。同时也让我想到了闲鱼上很多售卖 AI 绘画的商家,其实大多都是特别简单的原理,如果你不了解,很容易被唬住,AI 没有那么难,而且它会越来越便利,因此,学起来吧,扬帆起航,美好的就在不远处。不会画画的你,也可以成为马良。
以最近比较重大的更新入手,来预测 24 年 AI 绘画走向。
AI 绘画在飞速发展的 2023 年,展现出两大特点:
在 2024 年,我认为有几大趋势:
如果是 2023 是绘画元年,2024 我相信会是视频元年,全民绘画元年。拥抱 AI,就是在拥抱未来的机会。
Lora 相较于模型,它更容易训练,体积更小,能完成我们心中的特定场景、人物中,我时常称其为 AI 绘画中的明珠,如何能用好它呐,我认为需要在心中对 Lora 有一个大致的分类,不同的分类权重设置有所不同。
Lora 可以同时使用多个,但注意有些 Lora 可能会存在冲突,这个生图的时候需要注意一下。下面推荐一个案例,使用了画风和概念 Lora,大家有兴趣可以去尝试一番
大约是这种效果:
上面的案例,为了保证你生成的效果与我保持一致,我推荐固定 seed。但是在日常我们的绘画过程中,需要大批量的生图,最后再挑出一张心仪的,作为绘制成果。
在这个大批量绘制的过程中,你会发生,牛鬼蛇神,各种姿态,各种布置都会出现,这是由于 AI 绘图是基于扩散模型,生成过程充满了随机性,难以控制。
随机也就意味着低效,那我就需要重新评估它的商业价值了。
ControlNet 就是针对于这些场景而出现的,中文叫控制网,本质是对大模型做微调的额外网络,根据一些额外信息控制扩散生成走向。
ControlNet 提供了很多提取额外信息的方式,例如 openpose 提取姿势信息,canny 提取边缘信息,在后续中,我不会详细的讲解每个到底是怎么使用的,下面主要围绕案例展开。
Controlnet 位于参数的下面,框起来的是核心部分,支持多种 ControlNet 同时使用,推荐开启完美像素模式,如果设备显卡有限,可以开启低显存模式。
控制权重类似于 CFG、Deoising,代表提取的控制信息对生图的影响比例,后面的介入时机和终止时机表示这些控制信息什么时候参与到噪声生成。举个好理解的例子,例如 Step 为 20 步,0.2 就可以理解为从第 4 步参与。
模特换装|背景这是电商中非常热门的应用之一,它的核心便是借助于图生图的蒙版重绘。
蒙版的设计可以借助 PS,但如果不会 PS,也没关系,webui 中存有webui-rembg插件,安装该插件后,在顶部菜单栏的后期处理中,就会有生成蒙版的功能。按照下面截图操作,点击生成,就可以获得蒙版。
然后传入到图生图的蒙版绘制,蒙版默认重绘白色区域,但可以选择重绘蒙版内容,实现倒置。
其余的参数,建议按照我所使用的
下面来看一个例子,首先把背景换成圣诞风格,我随便写了一组比较简单的关键词。
然后你就有可能会看到惊悚的一幕,生成的图像中多出了两只手,即使我在 prompt 中进行了约束((no human:1.5),(no hand:1.1)),但是依旧还是出现多余肢体的问题。
网上很多教程并没有提出对此的解决方案,这其实算是蒙版重绘目前存在的弊端,确实不好解决。其一它还不够智能,我们使用的蒙版,右手被身体遮盖了,它就会尝试去补全;其二咱们制作的蒙版边缘应该存在一些空隙,可能会好一些。
那该怎么解决那?我经过一系列的尝试,Controlnet 可以有效地解决这一问题。
提取越多信息,openpose 所用时长越久,这里咱们不需要面部表情,因此选用 openpose-hand 就可以,有了它,我们就可以控制小姐姐的身体和手指的整体姿态。但是光有它是不够的,姿态只能提供平面信息,无法提供深度位置信息,小姐姐的右手是被遮挡住了,因此我们需要添加额外的 Controlnet。
在人像的生成中,depth 通常可以用来提供深度信息的辅助,因此其权重通常设置比较小,0.2~0.4 左右,同时引导时机也要相应调整,否则生成的人像会非常突兀。depth 推荐使用 depth leres++预处理器,下面是我使用的参数和深度图,深度图中颜色的深浅便是其中部分距离我们的远近,也就是距离深度信息。
depth 可以提供深度信息,其实它最大的发挥空间是建筑、布局等诸多领域。
多生成几次,你就可以发现,在 openpose + depth 的双重控制下,多余肢体出现的情形就会非常少。openpose 和 depth 是一组常用的控制网搭配,在人像绘制中可以起到很好的互补作用。
这个案例因为是一个长图,可供渲染的背景区比较少,更换背景的效果没有那么明显,主要目的是为了记录在蒙版重绘过程中遇到的问题和解决方案,如果想要更明显的背景切换感,可以换成横屏图或者缩小人像的占比。
下面我们来尝试进行模特换装,从背景中提取人像,我们用 webui 插件实现了,衣服的提取也可以用 webui 插件实现,是不是感觉好强,打倒 PS 就在今日。
这个插件叫inpaint-anything,安装之后,会在顶部菜单栏多一个 Inpaint Anything 标签页。
截图中提供了使用的大致步骤,模型推荐使用 sam_vit_l_0b3195.pth,这个生成会有些慢,需要等一会,然后再右边就可以得到场景中每一个部分的切片,想要那部分蒙版,用画笔在上面勾勒一下,就可以获取对应蒙版,这个插件可以允许你提取图像中的任何部分,而且效果还是特别不错的。
得到蒙版后,更换衣服的方法与更换背景类似,这里就不做赘述。
基于扩散的机制,虽说可以产生无限的可能,但是在某些情形下,它也有很多的不足,例如早期 AI 画手,就是因为扩散的机制,导致出来的手千奇百怪。除了手,另外一个最典型的就是文字,AI 写出的文字也和早期的手一般,歪曲,乱七八糟。
如果想绘制不变形的文字,或者在文字的基础上在做一番尝试,也需要借助 Controlnet 来做。这是我随手在 Word 中写的两个字——冬至,我想以此为基准,创建一个带有冬至的海报。
给它一组参数,扔了图生图里面去。
结果我就不展示了,因为你会得到一些奇奇怪怪的展示。如果我再给 AI 些提示,例如加上poster style,the "冬至" is written in the middle,,额,结果怎么说那,又臭又硬。
Controlnet 出手,对于这种需要比较精准的提取轮廓信息,Controlnet 中有很多种,例如 canny 边缘监测、softedge 柔性边缘、Scribble 涂鸦都是可以的,canny 最较真一些,后面两者相对更柔和一些,对于信息的把控没有那么严格,如果你想要 AI 更天马行空一些,可以使用后面;如果更多的精度,canny 最合适。下面就是分别对冬至两个字的 controlnet 预览效果,可以看到,从 canny -> softedge -> scribble,对边缘的提取越来越柔和,AI 的发挥空间越来越大
下面两图分别使用 scribble 和 canny 生成的,我没有使用太复杂的提示词,加上了几个 Lora,效果就挺不错的。
艺术二维码也算是在抖音盛极一时,那时候我记得抖音总会推相应的广告或者视频,甚至现在咸鱼上还有好多售卖艺术二维码的,我不信这个邪,让我来看看怎么个事。二维码其实是通过定位点和黑白之间的明暗关系来识别的。因此我们只需要尽可能地还原二维码中的关键定位点,同时增加明暗关系,然后借助文生图的方式,是不是就可以实现艺术二维码。
当然这种方式不是我发明的,是神通广大的网友发明的,我只是其中的实践者。
那我们就按照上面的思路来:
边边角角的融合度通常是较难的,经过我反复体验,AI 更喜欢圆滑的曲线,因此咱们首先使用 QR Toolkit 插件进行二维码改造,改造的模式建议使用我下面的方案,经过测试,融合度最好。
改造完二维码后,一定要用手机扫一下,如果不成功,修改一下 seed,但是别指望长按识别,等会你会见证奇迹。
qrcode 权重关乎到二维码的还原度,通常在 1~1.2 以上,但是据我经验,最好开始不要拉太大,1 即可,后续慢慢调整。brightness 是提供明暗辅助信息,因此权重要小,0.3~0.5 之间就好,引导时机也要拉小,0.3~0.8 之间,最开始我都设置 0.65~0.8。
然后写上提示词,就可以进行艺术二维码的创作了。
下面就是我随手创建的一张,既可以扫描,也可以长按识别。当然你也可以继续丰富提示词,让画面更加的精美。
艺术二维码的生成难度主要在于调试上,一般有两种情形
把握住这两点,慢慢的你就可以调控出属于自己的 AI 艺术二维码。
Canny 的效果其实可以做很有意思的操作,前段时间,我在 B 站看到一个海报的生成模式。它是这样一种生产方式,我认为还是挺科学的。
以 AI 绘制掌控整体的大背景,然后再借助 PS 修改小细节,这样的融合度和画面的呈现都都会好特别多,一种不错的海报制作方式,记录一下。
Ip-Adapter 是今年刚出的一个 ControlNet,它的效果让我惊喜,也让我恐惧,AI 进化的速度超乎我的想象。
Ip-Adapter 你不用知道它的原理,你就知道它能非常完善的提取图像的画风,提出的还原度超级高。
例如下面的案例,我甚至都不用写 prompt,只需要配置上 Ip-Adapter 和 canny,前者提供风格,后者提供内容,一键复刻,内容就和风格完美统一。
除了人像风格的融合,在建筑设计领域,我感受到了 ip-adapter 深深的潜力,一套线稿,我可以随便拿风格来套,这不就是云装修吗?
经过半年多对 AI 绘画的体验,有了好多感想,也有了几丝惧怕,AI 的时代就这样一步一步地靠近我们,不日必将石破天惊。同时也让我想到了闲鱼上很多售卖 AI 绘画的商家,其实大多都是特别简单的原理,如果你不了解,很容易被唬住,AI 没有那么难,而且它会越来越便利,因此,学起来吧,扬帆起航,美好的就在不远处。不会画画的你,也可以成为马良。
以最近比较重大的更新入手,来预测 24 年 AI 绘画走向。
AI 绘画在飞速发展的 2023 年,展现出两大特点:
在 2024 年,我认为有几大趋势:
如果是 2023 是绘画元年,2024 我相信会是视频元年,全民绘画元年。拥抱 AI,就是在拥抱未来的机会。