苹果 它不是当今人工智能游戏中的顶尖玩家之一,但该公司用于照片编辑的新开源人工智能模型显示了它可以为该领域做出的贡献。 该模型称为 MLLM 引导图像编辑 (MGIE),它在处理图像时使用多模态大语言模型 (MLLM) 来解释基于文本的命令。 换句话说,该工具能够根据用户键入的文本编辑图像。 尽管它不是第一个可以做到这一点的工具,但“人类指令有时太简短,现有方法无法捕捉和遵循。” 项目表 (PDF) 阅读。
该公司与加州大学圣巴巴拉分校的研究人员共同开发了 MGIE。 MLLM 能够将简单或模糊的文本提示转换为图像编辑器本身可以遵循的更详细、更清晰的指令。 例如,如果用户想要编辑意大利辣香肠披萨的图像以“使其更健康”,MLLM 可以将其解释为“添加蔬菜配料”并照此编辑图像。
除了对图像进行重大更改之外,MGIE 还可以通过文本提示对图像进行裁剪、调整大小和旋转,以及提高其亮度、对比度和色彩平衡。 它还可以修改图像的特定区域,例如修改图像中人物的头发、眼睛和衣服,或者删除背景中的对象。
喜欢 风险节拍 注释,苹果通过 github,但有兴趣的人也可以尝试一下 实验性的 目前托管在 Hugging Face Spaces 上。 苹果尚未明确表示是否计划将从该项目中学到的知识用于可集成到其任何产品中的工具或功能中。
“驕傲的網絡狂熱者。微妙迷人的推特怪胎。讀者。互聯網先驅。音樂愛好者。”
More Stories
《东京恶习》制片人详述日本走向全球制作中心之路
康拉德·科尔曼仅使用可再生能源再次改变了世界
新款 MacBook Pro 为苹果一周的重大新闻画上了句号