你的涂鸦,我的3D世界

生成式AI的上限在哪里？这个问题的答案或许在短时间内都不会有答案，至少现在生成式AI似乎又征服了一个新的领域。此前，生成式AI的工作范凑主要集中在文字处理、绘画、声音处理等方面，但是生成式AI的能力显然远不止于此。

近日，开源生成式AI公司Stability AI正式发布了Stable Animation SDK，以及备受关注的Stable Diffusion 模型（以下简称Stable）也正式公布新版本，现在用户可以更好的控制AI生成的3D模型，并且对特定参数进行修改。

(资料图)

或许很多人看到这个消息的想法是：“3D模型？是指方块、长条之类的东西？”，毕竟在多数人看来，真正的3D建模复杂性恐怕是普通AI难以处理的。不过，生成式AI的魅力就在这里，通过对数据的处理与分析，配合对自然语言的理解，如今的AI可以根据描述生成更加复杂、完善的模型，并不仅限于简单的方块模型。

不仅仅是2D变3D

在此之前，Stable就因为可以将2D画面、描述直接转换成3D模型而引起了许多关注，Stable生成的3D模型在精细度上虽然比不上专业人员花长时间搭建的模型，但是考虑到生成所需的时间，也足以带给大家不小的震撼。

而在Stability AI公布的最新演示视频中，Stable的3D模型已经不仅限于静物，即使是一直在运动的人物形象，也可以轻松转变为3D模型，并且运动的幅度、姿势都与原版十分接近。类似的技术在动画制作中其实经常被用到，一些动画为了让画面、物体显得更具有立体感时，就会通过2D转3D的方式来制作这段画面，凸显画面的张力

图源：Stability AI

而在传统的动画行业里，想要将2D画面转为3D，需要不少工作人员忙碌一段时间，而在Stable的帮助下，只需要将2D画面输入模型中，即可获得高质量的起始3D模型，大幅度降低建模所需的时间与成本。

当然，如果只是这样，或许也就从业者会高兴，对于广大网友来说，Stable又有什么用呢？关键就在于Stable的3D模型生成并不需要精细的引导，即使只是简笔画，Stable也可以生成出大差不差的3D模型，比如这幅如图幼儿园小孩般的涂鸦，经过Stable的“润色”后就变成了一个还算能看的3D画面。

图源：YouTube

让你的一切绘画作品，甚至文字动起来，这就是Stable的期盼与目标。所以，Stability AI的所有成果都是直接公开，以开源的方式提供给网友使用，对于广大二次元爱好者来说，或许这是让他们的“纸片老婆”们动起来的最简单方法。

而且从Stable的3D动态模型生成能力中，我们也可以看到一些未来的应用场景，比如更低廉、便利的动作捕捉系统，理论上只要算力足够，就可以通过摄像头捕捉的画面实时生成对应的3D模型动作。

除此之外还有什么妙用呢？不知道大家是否有看过近日的一个热闻，海外网红Caryn Marjorie通过与AI团队合作，用GPT-4复制了一个数字版的自己，然后将数字版的使用权以每分钟一美元的价格出售给自己的粉丝。

在短短的一周里，Caryn Marjorie就以此获得了7.1万美元的收入，而她提供的仅仅是语音对话闲聊服务。作为视觉生物，我们对于声音的敏感度其实要低于画面，如果Stable也被应用到相关领域，是否可能打造出真正意义上的AI女友呢？可动、可聊，足以抚慰你空虚的内心。

咳咳，好吧，这个话题先打住，至少在目前的模型效率和算力规模下，个人想要实现实时且高规格的3D动态模型生成，恐怕还十分困难，但是考虑到半导体行业的进步速度，或许这一天离我们并不遥远。

全新的生产力工具

Stable此前最大的问题在于只能根据描述或图像来生成3D模型，如果生成的效果不好，只能重新调整图像或文字信息来重新生成，根据显卡的性能不同，3D模型的生成时间也会有所区别，相较于ChatGPT等传统问答式AI，Stable的时间成本高很多。

所以，虽然Stable的3D模型生成效果远优于以往的类似应用，使用场景却十分受限，仅仅是能够给社区爱好者提供一个简单便利的3D模型生成工具。一直以来，社区用户都希望Stability AI就可以给Stabel增加参数调整功能，这样就可以对不满意的模型细节进行修改。

Stability AI给出的回应就是Stable Animation SDK，该接口可以被加载到Stabel的模型中，用户在使用Stabel生成3D模型后，可以通过接口直接输入对应的参数，调整或增加模型的细节，让模型更符合用户的要求。

图源：Stability AI

从接口的描述文件来看，支持修改的参数非常多，从基础的颜色、形状、大小、纹理到动作姿势等都可以进行调节，而且调节过程并不需要输入专业数据或是名词，只需要如图生成3D模型时一样输入文字信息即可。

比如你生成了一只小狗的3D模型，然后觉得小狗身上的花纹不太满意，只需要从接口输入你想要的花纹描述，Stabel就会根据描述对模型进行修改并重新渲染相关图层。

除此之外，Stable Animation SDK还支持动作命令的输入，可以让静态的3D模型直接执行你的动作指令，比如你渲染了一只飞龙，然后输入指令“让龙飞起来喷火”，Stable就会开始对3D模型进行动作渲染。

而且Stable还提供摄影功能，用户可以调整拍摄机位、照明效果、背景等一系列的参数，对3D模型进行静态和动态的录像。是的，大家估计都猜到了，3D建模、3D动画等与3D建模有关的行业，都将会感受到来自AI的“温暖”。

另外，部分网友认为Stable与虚拟现实设备结合，或许会让虚拟现实设备的生产力表现得到飞跃式提升。大家应该都看过漫威电影《钢铁侠》，电影主角史塔克就拥有一个高级人工智能程序“贾维斯”，在史塔克制造钢铁侠铠甲时给予了许多帮助。

图源：钢铁侠

其中一个片段就是史塔克通过对话直接生成了一个零件的3D模型，然后对其进行调整并应用到铠甲上，这套流程听起来是不是有点耳熟？没错，某种意义上这就是Stable+ChatGPT的未来版本，通过对话直接创造出3D模型，让设计师可以在虚拟现实设备中直接检视物品的外观、使用效果等。

将这个过程放到现实生活照，就相当于将产品设计中最耗时的打样、调整过程简化，实质性的提高产品从设计到落地的整个流程效率。而且，结合虚拟现实设备的功能，甚至可以让设计师提前在虚拟现实中使用和体验自己的产品。

当然，现在的产品设计流程中，其实就已经广泛利用类似的3D模型软件来渲染场景，但是Stable的优势在于生成的速度，本来需要数小时甚至数天进行调整渲染的模型，如今只需要十分之一或更短的时间即可生成，背后所带来的效率提升不言而喻。

随着生成式AI的遍地开花，可以看到AI对我们的社会、生产等方面会造成十分深远的影响，今天是3D模型，明天又会是什么？我非常期待。

关键词：