DALL-E 2 如何解决主要的计算机视觉挑战

我们很高兴能在 7 月 19 日和 7 月 20 日至 28 日前后亲自带回 Transform 2022。加入 AI 和数据领导者的行列，进行富有洞察力的对话和激动人心的交流机会。今天注册！

OpenAI 有最近发布的 DALL-E 2，DALL-E 的更高级版本，一种巧妙的多媒体人工智能，能够仅基于文本描述创建图像。 DALL-E 2 通过利用先进的深度学习技术来做到这一点，这些技术可以提高生成图像的质量和准确性，并提供额外的功能，例如编辑现有图像或创建新版本的图像。

许多 AI 爱好者和研究人员在推特上发布了关于 DALL-E 2 在从细词中创建艺术和图像方面的出色表现，但在本文中，我想探索这种强大的文本到图像模型的不同应用——创建数据集解决计算机视觉的最大挑战.

图片说明：由 DALL-E 2 创建的图像。“一只调查员兔子坐在公园的长椅上，在维多利亚时代的地方看报纸。” 来源：推特

计算机视觉缺陷

计算机视觉的人工智能应用可以从检测 CT 扫描中的良性肿瘤到启用自动驾驶汽车。然而，它们的共同点是需要丰富的数据。深度学习算法最显着的性能指标之一是已训练的基础数据集的大小。例如，文件 JFT 数据集，用于训练图像分类模型的 Google 内部数据集，由 3 亿张图像和超过 3.75 亿个标签组成。

考虑图像分类模型的工作原理：神经网络将像素的颜色转换为代表其特征的数字数组，也称为“嵌入”输入。然后将这些特征分配给输出层，其中包含模型应该检测的每类图像的概率分数。在训练期间，神经网络试图学习区分类别的特征的最佳表示，例如杜宾犬与贵宾犬的尖耳朵特征。

理想情况下，机器学习模型将学会在不同的照明条件、角度和背景环境中进行泛化。然而，深度学习模型经常会学习到错误的陈述。例如，神经网络可能会得出结论，蓝色像素是“飞盘”类的一个特征，因为它在训练期间看到的所有飞盘都在海滩上。

解决此类缺陷的一种有希望的方法是增加训练集的大小，例如通过添加更多具有不同背景的飞盘图像。但是，此过程可能是一项昂贵且耗时的工作。

首先，您需要收集所有必需的样本，例如通过在线搜索或拍摄新照片。接下来，您需要确保每个章节都有足够的标签，以防止表单被个性化或不适合某些人。最后，您需要为每张图片命名，说明哪一张对应于哪一类别。在一个世界里更多数据转化为性能更好的模型这三个步骤是实现最先进性能的瓶颈。

但即便如此，计算机视觉模型也很容易被欺骗，尤其是当它们受到恶意示例的攻击时。猜猜还有什么其他方法可以减轻敌对攻击？你猜对了——更多分类、有组织和多样化的数据。

文字说明：OpenAI 的 CLIP 将苹果错误分类为 iPod，原因是文本标签。来源：开放爱

输入 DALL-E 2

让我们以狗品种分类器和一个很难找到图片的类别 – 斑点狗为例。我们可以使用 DALL-E 来解决我们的数据短缺问题吗？

考虑应用 DALL-E 2 支持的以下技术：

使用香草。 将类名称作为文本提示的一部分提供给 DALL-E，并将生成的图像添加到该类的标签中。例如，“公园里的一只斑点狗在追一只鸟。”
不同的环境和模式。 为了提高模型的泛化能力，在保持相同类的同时使用不同环境的提示。例如，“一只达尔马提亚狗在沙滩上追逐一只鸟”。这同样适用于所创建图像的风格，例如“一只达尔马提亚狗在花园里追逐一只卡通风格的鸟”。
打折样品。 使用类名创建对抗样本数据集。例如，“类似斑点狗的汽车”。
差异。 DALL-E 的新功能之一是能够创建输入图像的多种变体。它还可以拍摄第二张照片并通过组合每张照片最突出的方面来合并两者。然后可以编写一个脚本，将所有图像提供给数据集，为每个类创建几十个变体。
我绘画。 DALL-E 2 还可以对现有图像进行逼真的调整，添加和删除元素，同时考虑到阴影、反射和纹理。这可能是一种强大的数据增强技术，可以进一步训练和改进基础模型。

除了生成更多的训练数据之外，上述所有技术的最大好处是新生成的图像已经被标记，无需人工进行标记。

虽然生成对抗网络 (GAN) 等图像生成技术已经存在了一段时间，但 DALL-E 2 因其几代高分辨率 1024 x 1024、文本到图像转换的多媒体特性以及强大的语义一致性，即对特定图像中不同对象之间关系的理解。

使用 GPT-3 + DALL-E 自动创建数据集

DALL-E 输入是我们要创建的图像的文本提示。我们可以利用文本生成模型 GPT-3 为每一章生成数十个文本提示，然后将这些文本输入到 DALL-E 中，进而生成数十个图像，并为每一章存储。

例如，我们可以创建包含我们希望 DALL-E 生成狗图像的不同环境的提示。

说明：由 GPT-3 创建的路由器，用作 DALL-E 的输入。来源：作者

使用这个例子，一个类似模板的句子，如“a [class_name] [gpt3_generated_actions], “我们可以给 DALL-E 喂食以下提示：一只斑点狗躺在地板上。这可以通过调整 GPT-3 以生成类似于上面 OpenAI Playground 示例中的数据集标题来进一步改进。

为了增加对新添加样本的置信度，可以设置确定性限制以仅选择已通过特定分类的代，因为由图像到文本模型生成的每个图像称为夹子.

限制和障碍

如果不小心使用，DALL-E 可能会生成不准确或窄带的图像，同时排除某些种族或忽略可能导致偏见的特征。一个简单的例子是一个只接受过男性肖像训练的人脸检测器。此外，使用 DALL-E 生成的图像可能会在病理学或自动驾驶汽车等特定领域带来重大风险，其中假阴性图像的成本过高。

DALL-E 2 仍然有一些限制，安装就是其中之一。依靠声称，例如，假设事物的正确位置可能是有风险的。

说明文字：DALL-E 仍在与一些索赔作斗争。来源：推特

缓解这种情况的方法包括人类抽样，其中人类专家随机选择样本进行验证。为了改进这一过程，人们可以采取一种主动学习方法，其中给定评论的 CLIP 评级最低的图像优先进行审查。

最后的话

DALL-E 2 是 OpenAI 的另一个令人兴奋的搜索结果，它为新型应用程序打开了大门。创建海量数据集以解决计算机视觉中最大的瓶颈之一——数据只是一个例子。

开放爱信号 DALL-E 将于明年夏天的某个时候发布，可能会分阶段发布，并为感兴趣的用户进行预筛选。那些迫不及待或无法为这项服务付费的人可以修补开源替代品，例如 DALL-E Mini (用户界面和体育场仓库）。

虽然许多基于 DALL-E 的应用程序的可行性研究将取决于 OpenAI 为其 API 用户设置的定价和政策，但它们肯定会使图像创建取得巨大的飞跃。

Sahar Moore 拥有 13 年专注于 AI 产品的工程和产品管理经验。他目前是 Stripe 的产品经理，并领导战略数据计划。此前，他创立纸，一个由 GPT-3 提供支持的文档智能 API，并且是公司的创始产品经理泽托尔德 (Acq. by Deel)，一家 B2B 人工智能会计软件公司，在那里他在循环中构建和扩展了其人类产品，以及悬浮, AutoML 平台无需代码。他还曾在早期创业公司和以色列精英情报部门 8200 担任工程总监。

决策者

欢迎来到 VentureBeat 社区！

DataDecisionMakers 是专家（包括从事数据工作的技术人员）可以分享与数据相关的想法和创新的地方。

如果您想了解前沿理念和最新信息、最佳实践以及数据和数据技术的未来，请加入我们的 DataDecisionMakers。

你甚至可以认为投稿你自己！

从 DataDecisionMakers 了解更多信息

Peng Guowei

“驕傲的網絡狂熱者。微妙迷人的推特怪胎。讀者。互聯網先驅。音樂愛好者。”

READ Garmin 展示 Fenix 7 Pro 和 Epix 2 Pro，均配备太阳能电池、灯泡和 32GB 存储空间

DALL-E 2 如何解决主要的计算机视觉挑战

计算机视觉缺陷

输入 DALL-E 2

使用 GPT-3 + DALL-E 自动创建数据集

限制和障碍

最后的话

决策者

太阳之子花了20年才一鸣惊人

Slack 正在向所有付费客户推出其人工智能工具

Twitch 将于本月晚些时候让所有用户访问其 Discovery Feed

2019北京半程马拉松也确定了吗？中国体育专家称：视频引发质疑，对每一个结果都提出质疑

太阳之子花了20年才一鸣惊人

在一场涉及羊的“悲惨事故”后，一对夫妇被发现死在牧场上

墨尔本北部耗资 6 亿澳元的 Merinda 铁路线因汽车而被忽视

计算机视觉缺陷

输入 DALL-E 2

使用 GPT-3 + DALL-E 自动创建数据集

限制和障碍

最后的话

决策者

發佈留言 取消回覆

More Stories

太阳之子花了20年才一鸣惊人

Slack 正在向所有付费客户推出其人工智能工具

Twitch 将于本月晚些时候让所有用户访问其 Discovery Feed

You may have missed

2019北京半程马拉松也确定了吗？ 中国体育专家称：视频引发质疑，对每一个结果都提出质疑

太阳之子花了20年才一鸣惊人

在一场涉及羊的“悲惨事故”后，一对夫妇被发现死在牧场上

墨尔本北部耗资 6 亿澳元的 Merinda 铁路线因汽车而被忽视

發佈留言取消回覆

2019北京半程马拉松也确定了吗？中国体育专家称：视频引发质疑，对每一个结果都提出质疑