Descargitas

来自中国的最新突发新闻。

苹果正在推出一种人工智能模型,可以根据文本命令编辑照片

苹果正在推出一种人工智能模型,可以根据文本命令编辑照片

苹果 它不是当今人工智能游戏中的顶尖玩家之一,但该公司用于照片编辑的新开源人工智能模型显示了它可以为该领域做出的贡献。 该模型称为 MLLM 引导图像编辑 (MGIE),它在处理图像时使用多模态大语言模型 (MLLM) 来解释基于文本的命令。 换句话说,该工具能够根据用户键入的文本编辑图像。 尽管它不是第一个可以做到这一点的工具,但“人类指令有时太简短,现有方法无法捕捉和遵循。” 项目表 (PDF) 阅读。

该公司与加州大学圣巴巴拉分校的研究人员共同开发了 MGIE。 MLLM 能够将简单或模糊的文本提示转换为图像编辑器本身可以遵循的更详细、更清晰的指令。 例如,如果用户想要编辑意大利辣香肠披萨的图像以“使其更健康”,MLLM 可以将其解释为“添加蔬菜配料”并照此编辑图像。

披萨、猎豹、电脑和人的图片。

披萨、猎豹、电脑和人的图片。 (苹果)

除了对图像进行重大更改之外,MGIE 还可以通过文本提示对图像进行裁剪、调整大小和旋转,以及提高其亮度、对比度和色彩平衡。 它还可以修改图像的特定区域,例如修改图像中人物的头发、眼睛和衣服,或者删除背景中的对象。

喜欢 风险节拍 注释,苹果通过 github,但有兴趣的人也可以尝试一下 实验性的 目前托管在 Hugging Face Spaces 上。 苹果尚未明确表示是否计划将从该项目中学到的知识用于可集成到其任何产品中的工具或功能中。

READ  研究发现你的音乐偏好和你的道德指南针之间存在联系