先自我介绍?笔者为人工智能领域工作者,还是个好久不产文的作者。文中若有理论性错误请各位人工智能界大佬们不吝赐教。
最近AI作画大火,笔者在各大平台都能或多或少看到有人在谈论AI作画,有人抵制,也有不少人玩的不亦乐乎。AI作画这个东西大家都知道,但是是怎样一回事呢,跟小编一起来看看吧......咳咳,差点变成营销号......不过这篇文章的确是笔者要作为一个人工智能研究者,从不是数学和统计学的角度,来进行一个科的普,里面可能会涉及到少量公式什么的不过更多我想用生动形象的例子来解释:AI是如何学习画画,AI是如何画画,AI是如何越画越好,AI是如何知道画什么的......嗯......这大概是这篇文章的大纲。先开篇点明观点,现在AI作画商用纯纯吃相难看!
绪论:()
首先,我想我需要介绍一下AI是个啥?简单来说,人工智能 (AI) 是指可模仿人类智能来执行任务,并基于收集的信息对自身进行迭代式改进的系统和机器。AI 具有多种形式。例如:
聊天机器人使用 AI 更快速高效地理解客户问题并提供更有效的回答
智能助手使用 AI 来解析大型自由文本数据集中的关键信息,从而改善调度
推荐引擎可以根据用户的观看习惯自动推荐电视节目(摘自什么是人工智能 (AI)?| Oracle 中国)
QQ小冰就是个很好的例子,还有语音转文字,也包括你经常点进美女的视频然后视频平台疯狂给你推美女的技术,这些都写在大忙人AI的“工作合同”上。
不过这样一说好像还是不能太理解AI是啥?没关系,请看下面的一个例子:
假设有这样一个电脑程序rin,它的目标是猜出你心中想的一个数,现在你默念3,因为没有任何已知条件,所有rin随机地猜了一个数,5。
这个时候你微微一笑,轻语道:“猜大了”。
rin面露尴尬,眼神飘忽,沉默了好久才憋出一个字,“4?”
你觉得面前这个电脑程序似乎还挺有意思,便又对它展开了攻势。
“还是大了哟~还有两次机会呢。”
rin似乎紧张起来了,嘴皮在微微颤抖。
“上两次都只减小了1,这次干脆减小2吧,对,一定是这样。”
于是rin给出了它的第三次答案——2。
你噗呲一声笑了出来,rin的脑子却开始有点宕机了,你盯着电脑程序的眼睛:“猜小了。”
虽然rin此时已经知道答案,但声音是如此的不自信,“......3?”
你拍桌大笑,感叹到这个电脑程序有多有意思。
......
这样的一个能根据自己给出的答案被肯定与否调整策略的电脑程序就是一个很基础的AI,刚开始它根据输入给出的输出可能是完全随机的,但是当你说出这个输出结果是正确的还是错误的那一刻起,AI就在朝着正确答案一步一步前进,最终你肯定了AI的答案,AI在此处的工作也就结束了。
这样读者应该是对AI有个初步了解了。但是这跟画画有什么联系呢,我的评论是别急,再等我聊聊“AI普遍是预测器”这样的一个理论。
但是啥是预测器啊?预测器简单来说就是以收集到的客观事实为根据,对你的输入给出一个成功率最大的结果......好像有点难懂,同样,看下面一个例子(算是对一个浅显道理的阐述):
你每天回家都有一段路需要步行,但是一共有三条路程差不多的路。
第一天你走了左边的那条路,但是因为路面湿滑摔了一跤,你心想可能是今天倒霉。
因为你有选择困难症,第二天你又走了左边那条路,然后又摔了一跤,你咬牙切齿,骂了两句。
第三天你不信邪,觉得不能连着三天摔跤吧,还是选了左边那条路,但是果不其然,摔了个狗吃屎,你如此发誓:“我再走这条路我就是沙比。”
因此你第四天换了中间这条路,没有摔跤。
第五天你同样走了中间这条路,但是摔了,你心想虽然摔了跤,但是前一天没摔,明天再试试。
但是第六天你又摔了个狗吃屎,因此你换了右边的那条路。
结果你再也没摔过跤。
当你给同样要走这段路的人提起这件事的时候,我想这个人会很顺其自然地直接选择右边那条路走。
那么在这个例子中,你扮演的就是客观事实,下一个要走这段路的人就是AI,AI分析了走左边那条路不摔跤的概率是0,走中间那条路是1/3,而走右边那条路是100%也就是1。当你问AI“我走哪条路才能不摔跤呢?”AI理所应当会回答右边。
这就是预测器。根据:
预测器能干啥呢?
在基本上所有能总结出一定规律的任务中,它能根据输入给出一个大部分人能接受的结果,具体的表现就是下围棋,因为围棋有具体的规则,而且甚至有定式,别人用A战术你用B战术最有可能胜利,AI学习了上万场棋局,在你下第一步棋的时候它就有一堆应对方式了,这个时候它可能会随机地选一种下法,然后根据你下的每一步棋调整战术;再比如你某一天点开了一个美女,第二天你会发现你的首页充满了美女视频,但同时也会有美妆视频,以及穿搭的视频,甚至还有R18的东西,这是因为AI分析了上万人,他们在看美女视频的同时也会看美妆和穿搭,以及R18,所以AI就自动认为你也是其中一员——这就是视频网站推荐的原理,分析看这个视频的人还喜欢什么,用上面的AI思维方式就是根据:
总的来说,AI是一类总结规律的计算机程序,它需要大量客观事实(几百都有点少,几十甚至个位数根本学不明白)来总结规律,根据你的特定输入给出最有可能被你接受的结果,它的工作范围是任意能够总结出一定规律的任务,规律越明显越死它表现得越好(这就是AI为什么能拿围棋冠军但是画手脚很难看),而且它针对的目标是大部分人(AI作画为什么是流水线画风留着后面阐述),如果你很有个性那么AI更可能难以满足你的要求。
那么到这里我想读者应该对AI有了个初步了理解了,接下来我们深入一点。
1.AI将会止步于何处?
AI理论上最终能代替任何职业的人,只是因为难度不同才有先后而已。
人类所有行为获取都是在这种行为是有规律可寻的基础上进行的(读者可以自己试着举出反例,我是举不出来),而AI本质是什么,是规律总结计算机程序。你知道开发学习了上万棋谱最终战胜人类棋手AI的团队之后干了什么吗,开发了个没学任何棋谱就能轻松干碎初代的AI。所以AI理论上是完成人类能完成的所有事情的,包括拥有感情之类的所谓人类特有的东西。
2.AI是怎么学习的?
其实这儿一点在预测器的部分已经具体阐述过了,AI学习的流程就是根据带有结果和输入的客观事实,分析出每种输入最有可能对应哪种结果并输出,并写出一本行动纲要,以供以后参考,这个过程一般是由程序员完成,所以用户并没有参与到这一过程中。其中“根据带有结果和输入的客观事实,分析出每种输入最有可能对应哪种结果并输出,并写出一本行动纲要”,就是AI的学习过程,而当AI学习完毕,也就是写完了一本针对各种情况的行动纲要时,它就可以被部署了——用白话来说就是供用户进行使用了,输点关键词让AI给你画画。
那么它是怎么学习别人的画呢?首先一位程序员新风拿到了一张作品,他用眼睛看出这张图上面是一个穿着裙子的女孩站在草地上,之后新风用girl,standing on grass,dress标记了这张作品——对于其他作品也做如上处理,之后他便得到了一个包括了上万张图片的数据包,然后把这个数据包喂给了AI,AI思维如下。根据:
我们也可以再进一步跟随AI深挖它是怎么学习水手服的样式。根据:
我们再一步深挖AI是怎么知道水手服具体是怎么画的,比如轮廓是怎样,袖口长啥样,根据
在经过多次深挖后,AI觉得它的行动纲要写得差不多了,它的学习也就停止了,这个时候它得到的是一本如上一步步深入到底层的行动纲要,当接受你的输入后,它会一步步查到底,直到行到纲要告诉它这个像素点该画什么颜色。行动纲要看起来可能会像这样
没错,最基础的AI在一幅1080x1080的图片上要对这1080x1080个像素每个进行一次处理,也就是一共1080x1080次处理!这就是为什么要跑AI的电脑性能不能太差,而且你的电脑在跑AI的时候风扇会像个直升机一样呼呼转!
为啥AI要像这样学习?人工智能其实可以归于仿生学,它的学习方式是在研究了人类学习方式后,用计算机的方式来进行表达的,具体的就不展开讨论了,涉及到专业知识,只需要知道AI的学习方式是简化的人类学习方式就行了!我们共用的是一套类似的学习方式!数据库里的作品也是学习完后就不会再用的了,也就是说之后AI画画是彻底与作品无关了!不然你想跑个AI还得下载那上万张图片?那也太离谱了!
3.AI是怎么知道画什么的
这个其实部分涉及到自然语言处理,这是AI研究另一大领域,此处不展开讨论,我们只拿novelai讨论如girl,black hair,smile,uniform这样的输入。
先简单介绍一下novelai:novelai可以将文字描述的场景或者是上传图片的图片内容,经过AI合成后形成新的绘画内容展示出来,你的输入是形如school uniform,girl,black hair,smile,uniform这样你想要的元素和glasses girl,missing fingers,missing legs这样你不想要的元素或者bug,输出是一张与关键词有关的图片。
现在我们来理解AI是怎么知道画什么的:
首先假如你的输入是school uniform,girl,black hair,smile,uniform(你不想要的关键词此处不讨论,在后面会详解),那么AI首先会把这几个词拆开并记住,然后到它的行动纲要中查找对应解决方法,也就是学习得到的
但是如果你给的词有冲突,比如水手服,渔网袜,但是你又给了高中生,小皮鞋这样的关键词,那么AI此时的内心如下:
“哎我去这人有问题吧,水手服是清纯的象征,渔网袜走的性感,这俩能放一起?”
如果遇见懂变通的AI:
“哦你后面还加了更多跟水手服有关的关键词啊,那我就当你渔网袜打错了吧。”
于是你得到的是穿着黑丝和水手服的女高中生
如果遇见固执的AI:
“唉你开心就好,画出来怪也别怪我,谁叫我行动纲领里面没写呢。”
于是你真的得到了穿着渔网袜和水手服的女高中生,但是上身水手服,下身渔网袜黑高跟鞋。(哎,那这不就是缝合吗?别急,后面会讲区别)
如果遇见中庸的AI:
“你这又要清纯又要性感好难办啊,但是结合起来又很怪,看你水手服的关键词较多就给你画3张水手服女高中生,2张性感御姐吧”
于是你得到了3张没有渔网袜和性感元素的水手服女高中生和2张性感的制服御姐。
AI决定到底要画什么的时候,就像是人在看着菜单选披萨一样,你可以选烤肠披萨也可以选夏威夷披萨,或者是来个双拼,只不过AI选披萨具有一定的随机性,不像人一样能想想昨天吃了啥,只是例如某款披萨有优惠可能会影响AI的选择——AI局限于菜单上有啥。
这是对于由词条生成图画的AI,既用词条又用参考图的AI同理,只是在已知条件加上AI从图中看出的东西,如果图过于模糊,AI可能就只会取颜色当已知条件了。
哎但是,不是听说放在前面的词优先级较高,AI咋取舍的?哦~这个就像是你去玩抽奖游戏,商家告诉你一种玩法100%中奖但是最高奖品是1块钱,但是另一种玩法只有30%的概率中奖但是最高奖品是一百万,你肯定会选第二种玩法吧。
4.AI是怎么画画的(3.4.可作为一节阅读)
好了,现在我们的AI画手rin酱决定好画什么了,但是要怎么下笔呢?其实方法跟决定画什么基本一致,只是把输入从你给的词变成了它决定要画的东西,也就是水手服,然后查查行动纲领,一直深入直到纲领上写着把某某像素点画成白色,而我们的rin酱也像这样做了。处理完所有的像素点,rin酱得意地放下了画笔,我们得到了一幅画。
5.AI是怎么从一幅模糊的图越画越好直到画出一张artbook级别的作品的?
再进入这一节之前,我希望读者可以花一点时间看完以下这个视频来直观地了解AI是怎么作图的:你以为的AI绘图过程VS现实
如果你已经观看了此视频你或许会很疑惑,“我去,它是怎么从一幅模糊图画变成成稿的?”
那么接下来我引用一个例子:
引用原文链接:https://blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/114877206
这就是绘图AI,我想现在读者应该理解了为什么AI能从一幅模糊不清的图迭代出一张成稿。
6.为什么AI会画出邪神?(negative prompt的意义)
AI作图时有可能会出现缺胳膊少腿的情况,甚至一只手有6根手指,这不经让我们怀疑这不会是个人工智障吧。
但是出现这种情况是有原因的,如下阐述:
当你要求AI画出水手服女高中生的时候,你没有给定具体的姿势,所以在AI的眼中,画站着坐着成功的概率是一样的,假设都是50%,那么AI一想,我画一个又是站着又是坐着的,那成功的概率不就是100%?你也没说不行对吧,嘿我可真聪明。于是我们得到了一幅四条腿美少女的画。所以现在我想读者对negative prompt的意义应该是理解了,negative prompt(负面关键词)的作用就是告诉AI我不想要多出的手脚,我也不想正常手脚没了。
7.不同种类的绘图AI
笔者这几天玩novelai玩得可high了,游戏都不打了(毕竟占着显存,还想跑3A?),同时我也遇见了各种形式的novelai,有要下载9g压缩包的本地版,有直接部署在服务器上手机电脑都可以直接点开链接用的,还有连跑都不用自己电脑跑的colob(显卡用别人的不香吗!),还有qq群里的bot,只能说形式虽然不一样但是基本上都是一个东西。
其实市面上还有很多有趣的绘图AI:
DeepFaceDrawing:通过计图(Jittor)实现, 用手绘生成肖像。堪称“灵魂画手”! seeprettyface:定制符合你喜好的人脸,每次得到的人脸都是独一无二。可以换脸、生成虚拟数字人说话视频等
deepart.io:一张普通图片转换其他风格图片,成为数字艺术家。
AI Gahaku:AI程序生成的线条图挺不错的。
Ebsynth:支持将真人视频转换为各种手绘特效动画的软件,简单而强大的功能。
DeepArt:滤镜类AI应用程序,可以将一张普通图片转换其他风格图片。
instapainting:可以将照片处理成油画和水彩的风格,效果很棒。
Chimera Painter: 专门画怪兽的AI应用程序。
GauGAN Beta:专门画风景的AI应用程序。
原文链接:https://www.zhihu.com/question/265740439/answer/2268013074
还有根据输入图画进行向外的内容扩充的AI(比如你这图512x512,处理后变成1080x1080,注意还不是增加清晰度,原图的部分没变,而是AI向外画了更多与原图相关的内容),将两张图特征融合生成新图的AI,以及各种功能各异的绘图AI。
8.AI作画到底是不是缝合?
不是,对于AI来说缝合比自己画难多了。
我觉得上面那个链接的视频里展示了挺多区别了,而且认真看完上面7节内容的读者应该也能看出AI作画跟缝合还是有挺大区别的,这一节主要思考一下如何写出一个缝合的算法(白话,放心)。
与从0开始画一幅作品不同的是,缝合AI要学习的是各个部分的相关性,如何把一部分完整地剪切下来,同时处理拼接处使其平滑。
那么我们现在从程序员处理图像开始:
新风现在拿到了一些作品,他要给这些作品打上标签,现在是第一张图——穿着短裤短袜和运动鞋的运动系少女,新风打上了第一个标签运动系少女,但是第二个标签难住他了,他打上了短袜的标签,但是现在面临的问题是这整张图只有部分是短袜,而缝合AI的要求之一就是把相关部分完整地剪切下来,于是新风只把图中短袜的部分给标记了,但是画长裤的时候怎么办,短裤可以让短袜的上面部分露出来可长裤会遮住一部分,那么我们就还要要求AI会裁剪......
是不是发现缝合AI反而变复杂了,而事实的确是这样,所以我开发一个会缝合的AI可能还不如开发一个会画画的AI。
9.AI有没有创造力?(其中简单地说明了AI的运行原理)
首先明确,AI是可以有创造力的。
我们思考一下,现在市面上的绘图AI是为了解决什么问题而开发出的?是为了快速且低价地提供大量满足甲方需求的图片,或者是为画师提供灵感。明确这一点之后我们再回过头来想想,为了满足这样的需求AI需要有创造力吗?答案是否定的。我不认为会有一家动画公司或者游戏公司给画师提的要求会是“提供一幅具有艺术美感的图片”,而更像给AI绘图提供的关键词——白色头发,红色眼睛,穿着夹克,运动系......
那么AI能有创造力吗?AI能有自己独特而的画风吗?这是如何实现的?
前两个问题的答案是肯定的,至于如何实现,我们可以类比AI学习画画的过程:
(1)刚开始AI画的东西都是随机的,它并不知道要画什么,但是你会告诉它画的好还是差
(2)经过大量试错,AI偶然生成了一张你觉得看起来还算有线条轮廓的图,但是画的什么你也看不出来,但是你告诉AI这张稍微好点
(3)AI分析这张“稍微好点”的图片,总结特点,按照总结的特点继续试错
(4)重复1-3
这样经过大量试错,AI画出了一张看得出来是人的图片,再经过大量试错,AI画出了一张有独特画风的原画级别的作品,并且形成了自己特有的画画方式和画风。
在这个过程中,我们甚至能加入随机的干扰,比如让这个AI是色盲,让那个AI不能使用红色,这样我们就得到了不同画风的AI,而且是从0开始,没有学习任何人。
总结一下,目前所有的绘图AI都不是为了创造艺术作品而被开发出的,他们的开发目的是快速提供大量满足具体要求的产品,创造艺术的AI不是不能被开发出来,只是现阶段没有商业必要
10.一些问题
我看现在各大社交平台上面支持AI作画的和抵制的真的吵得不可开交啊,笔者认为这是信息不对等造成的,人工智能工程师觉得被说他们的AI是电子裁缝是一种侮辱,画手觉得这是一种威胁也是一种侵权行为,资本家只想着怎么降低成本,普通人可能就只想着我把野兽先辈丢进去会出来什么......
笔者只在这里丢出问题以及个人分析,不过答案我认为就算我分析了也会有反对的,但是这一部分其实是激起多方思考,之后才能达成共识
(可能会让人血压升高,但是本意是要解决问题啊,毕竟我们人工智能领域的工作者更希望的是自己开发的东西被更多人承认和使用啊)
援引b站某视频评论区的一段话:“短期来看,能让好的画师地位更高,差的画师没饭吃,这样对于大部分人来说可以更廉价的获得不那么好的画,甚至有望去降低动画成本。是好事
但是长远来看,一个好的画师的画技也是一点一点进步的,必然会经历技术差的这一阶段,也就是会很久都吃不上饭。而这会导致新人不敢入行,进而导致无法产生新的顶级画师。是坏事,是急切需要解决的问题”
一些需要流水线作品的公司,如动画公司和游戏公司,一些没有能力画画但是想参与到一些二次元活动的人,想要人物设定图和插图但是没有经济能力约稿的作者,大部分画师(毕竟线稿变上色了的成稿,打几个关键词就能帮着设计场景动作的工具还是挺好用的),等等。
万恶的资本家一直在寻找快速且低成本的解决方案,而AI作画的确在一定程度上让他们得逞了,AI作画的确是会淘汰掉一部分中底层画手,特别是没什么自己画风的画手,同时缩小整个行业的体量,增大失业率,同时由于一些人丢掉了工作加入了其他行业,其他行业竞争也会更加激烈。
但是我们不能否认的是,同时AI作画提高了作画的效率,也就是说游戏的开发会更快,动画的制作也会变快,画师在相同时间内能完成的稿子数量也会增加(当然一张作品的价格也可能会往下降,所以是好是坏难以讨论),而且能让底层和中层的作者以及其他需要流水线作品的人和有自己独特画风的画师收益(AI学习需要大量样本所以有自己个性的大大和太太根本不用担心...除非你是肝帝画同一个姿势的人画了几百张)。所以从短期来看我们只能持观望态度,没必要盲目抵制和盲目吹捧。
这个问题我不讨论,版权保护一直是一个问题,而且没有是非正确与否(比如笔者曾经见过的一个问题:“如果一个国人盗版开发出了英特尔芯片,他会被嘉奖还是蹲大牢?”),所以笔者的态度是,版权保护固然重要,但是并没有必要过分钻牛角尖,有时更关注自己的用户体验可能会更开心。
首先我们应该达成一个共识——资本家才是应该被批评的对象。
程序员开发出这个AI本意绝对不会是消灭中底层画师,我们更希望的是让这个世界发展的脚步更快,为人们包括自己带来更好的生活质量,程序员我想应该不是被批评的对象。
普通人使用AI作画我想更多的是为自己带来乐子吧,把室友的脸丢到参考图那里看看会是怎么样,或者是参加一些原本只有会画画或者有财力的人才能参加的活动,也应该不是被批评的对象。
对于个别愿意使用AI作画的画师,他们只是更快接受了这一项技术而已,毕竟AI作画会对绘画行业带来怎样的影响不是这几个月这几年就能看得出来的,我想他们也不应该成为被批评的对象。
要我说谁最应该被攻击的话,那一定是资本家。现在年轻人为啥会躺平,还不是我创造的一切价值最终都成为了资本家的玛莎拉蒂上的一颗螺丝呗。年轻人躺平,资本不满足,不够他们收割,于是变本加厉,当赚够钱之后就溜了,享受漂亮国的“香甜空气”。在整个AI作画风波中,程序员和画师都是受伤的对象。程序员不开发出点东西没有饭吃,画师没有稿子画也没有饭吃,于是资本想到一个绝妙的主意,把多方矛盾点燃,自己拍了拍屁股数钱去了,转移矛盾这招对于资本来说是惯招了。
技术不应该被批评,这是时代的进步,开发算法的人不应该被批评,他们是推动时代进步的工匠,普通人也不该被批评,世间从来就不是非黑即白,擦亮双眼,团结力量,我们要把铁拳砸到资本头上!
最后放上我的一个画师朋友给我看的一张图,经此事可谓士别三日刮目相看,她应该是属于绘圈最先能接受AI作画的一批人吧(也许抢占了先机?)
以上就是本篇文章【别再说AI画画是缝合了——白话AI作画原理(通俗易懂版)】的全部内容了,欢迎阅览 ! 文章地址:http://zleialh.tongchengxian.cn/news/17.html 资讯 企业新闻 行情 企业黄页 同类资讯 首页 网站地图 返回首页 通成线资讯移动站 http://zleialh.tongchengxian.cn/mobile/ , 查看更多