麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和谷歌研究院的研究人员可能刚刚施展了数字魔法——以扩散模型的形式,可以改变图像中物体的物理属性。
配音 炼金术士,该系统允许用户更改真实图像和人工智能生成图像的四个属性:粗糙度、金属度、反照率(物体的初始基色)和透明度。 作为一种图像到图像的发布模型,人们可以输入任何图像,然后在-1到1的连续范围内调整每个属性以创建新的视觉图像。 这些图像编辑功能可以扩展到改进视频游戏中的模型、扩展视觉效果中的人工智能功能以及丰富机器训练数据。
Alchemist 背后的魔力始于减少噪音的扩散模型:在实践中,研究人员使用了 Stable Diffusion 1.5,这是一种文本到图像模型,因其逼真的结果和编辑功能而受到好评。 以前的工作建立在流行模型的基础上,使用户能够进行更高级别的更改,例如交换对象或更改图像的深度。 相比之下,CSAIL 和 Google Research 方法应用此模型来关注较低级别的属性,通过优于同类产品的基于滑块的独特界面来审查对象材料属性的更精细细节。
以前的扩散系统可以从帽子里拉出兔子来获得图像,而化学家可以使同一只动物看起来透明。 该系统还可以使橡皮鸭呈现出金属质感,去除金鱼的金色,以及擦亮旧鞋。 Photoshop 等程序具有类似的功能,但该模型可以以更明显的方式改变材质的属性。 例如,在广泛使用的应用程序中,修改图像的金属外观需要几个步骤。
麻省理工学院电气工程和计算机科学博士生、描述该结果的新论文的主要作者 Praful Sharma 表示:“当你查看自己创建的图像时,结果通常并不完全是你想要的结果。” 。 工作。 “您想要在编辑图像时控制图像,但图像编辑软件中的控件无法更改材质,而在 Alchemist 中,我们利用文本到图像模型输出的真实性并创建滑块控件。这允许我们在图像呈现“主要”后修改特定属性。
精准控制
“生成文本到图像的模型使普通用户能够像写句子一样轻松地创建图像,”卡内基梅隆大学助理教授周俊彦(他没有参与这项研究)说,“但是,控制这些。模型可能很困难。” 。 “虽然创建花瓶很简单,但制造具有特定物理属性(例如透明度和粗糙度)的花瓶需要用户花费数小时尝试不同的文本提示和随机种子,这可能会令人沮丧,特别是对于需要精确工作的专业用户而言。提供了一个解决方案“通过对输入图像纹理进行细粒度控制,同时利用数据驱动的原型来实现大规模扩散模型,来应对这一挑战,激发未来的工作,将生成模型无缝集成到常用内容创建软件的现有界面中。”
Alchemist 的设计功能可以帮助修改视频游戏中不同模型的外观。 在此区域应用此扩散模型可以帮助创作者加快设计过程,并优化纹理以适应关卡的游戏玩法。 此外,Sharma 和他的项目团队可以帮助改变图形设计元素、视频和电影效果,以增强照片真实感并实现确切所需的物理外观。
该方法还可以改进处理等任务的机器训练数据。 通过让机器接触更多纹理,它们可以更好地理解现实世界中可以理解的各种元素。 化学家还可以帮助进行图像分类,分析神经网络无法识别图像中物理变化的位置。
夏尔马和他的团队的工作超越了类似的模型,只仔细编辑所需的感兴趣的主题。 例如,当用户要求各种模型编辑海豚以达到最大透明度时,只有化学家能够实现这一壮举,同时保持海洋背景未经编辑。 当研究人员使用比较方法中使用的相同数据训练 InstructPix2Pix 比较扩散模型时,他们发现 Alchemist 取得了更高的准确度分数。 同样,一项用户研究表明,麻省理工学院的模型更受欢迎,并且被认为比其对应模型更现实。
使用合成数据保持真实
研究人员表示,收集真实数据是不切实际的。 相反,他们在合成数据集上训练模型,在流行的计算机图形设计工具 Blender 中随机编辑应用于 100 个独特的公开可用 3D 对象的 1,200 种材质的材质属性。
“迄今为止,生成式 AI 图像合成的控制仅限于文本可以描述的内容,”麻省理工学院电气工程和计算机科学 (EECS) 系的计算机教授、CSAIL 成员 Fredo Durand 说道。 该论文的资深作者。 “这项工作开辟了对数十年计算机图形学研究中继承的视觉特征的新的、更精细的控制。”
“Alchemist 是一种使机器学习和扩散模型对 CGI 社区和图形设计师实用且有用的技术,”谷歌研究院高级软件工程师兼合著者 Mark Matthews 补充道。 “没有它,你就会陷入这种无法控制的随机性中。这可能会很有趣一段时间,但在某些时候,你需要完成真正的工作并使其服从创造性的愿景。”
夏尔马的最新项目是在他领导这项研究一年后推出的 材料,这是一种机器学习方法,可以识别图像中的相似材料。 之前的工作展示了 AI 模型如何提高其材料理解技能,并且与 Alchemist 一样,已在 Blender 的 3D 模型合成数据集上进行了微调。
然而,Alchemist 目前存在一些局限性。 该模型很难正确推断光照,因此有时无法遵循用户输入。 夏尔马指出,这种方法有时也会产生物理上令人难以置信的透明度。 例如,想象一下一只手部分位于麦片盒内 – 当您调整此属性的最大炼金术士设置时,您将看到一个透明的容器,而手指无法触及它。
研究人员希望扩展该模型如何改进场景级图形的 3D 资源。 它还可以帮助化学家从图像推断材料的特性。 夏尔马表示,此类工作可以在未来打开物体的光学和机械特征之间的联系。
麻省理工学院 EECS 教授兼 CSAIL 成员 William T. Freeman 也是一位资深作者,其他作者包括 Varun Jampani 和 Google Research 科学家 Yuanzhen Li 博士 ’09、Xuhui Jia 和 Dmitry Lagun。 这项工作部分得到了美国国家科学基金会的资助以及谷歌和亚马逊的捐赠的支持。 该小组的工作将在 6 月份的 CVPR 上得到重点关注。
More Stories
《东京恶习》制片人详述日本走向全球制作中心之路
康拉德·科尔曼仅使用可再生能源再次改变了世界
新款 MacBook Pro 为苹果一周的重大新闻画上了句号