行业新闻

人工图像生成器如何帮助机器人？

时间：2022-10-30 作者：超级管理员点击：1403次

　　人工图像生成器在梦想和现实的交汇处创造出奇幻的场景，在网络的每个角落冒泡。它们的娱乐价值体现在不断扩大的异想天开和随机图像的宝库中，这些图像是人类设计师大脑的间接门户。一个简单的文字提示，就会产生一个几乎瞬间的图像，满足我们原始的大脑，这种大脑天生就有瞬间的满足感。

　　虽然看起来很新，但人工智能产生的艺术领域可以追溯到20世纪60年代。前期尝试用基于符号规则的方法制作技术图像。尽管解决和解析单词的模型的开发变得越来越复杂，但生成艺术的爆炸式增长引发了围绕版权、虚假信息和偏见的辩论，所有这些都陷入了炒作和争议。

　　电气和计算机科学系博士生、麻省理工学院计算机科学和人工智能实验室(CSAIL)下属的Yilun Du最近开发了一种新方法，使DALL-E 2等模型更具创意，并具有更好的场景理解能力。在这里，杜描述了这些模型是如何工作的，这种技术基础设施是否可以应用于其他领域，以及我们如何在人工智能和人类创造力之间划清界限。

　　问：人工智能生成的图像使用一种称为“稳定扩散”的模型，在短短几分钟内将文字变成令人震惊的图像。但每一个被使用的图像，背后通常都有一个人。那么人工智能和人类创造力的界限是什么？这些模型是如何工作的？

　　答：想象一下你在谷歌搜索上能看到的所有图片及其相关模式。这就是这些模特喂的饮食。他们接受了所有这些图像及其标题的训练，以生成类似于它在互联网上看到的数十亿张图像的图像。

　　假设一个模特看过很多狗的照片。它经过训练，当它收到类似的文本输入提示(如“狗”)时，它能够生成一张看起来与它已经看到的许多狗的照片非常相似的照片。现在，在方法论上，这一切是如何运作的，可以追溯到一个非常古老的模型，叫做“基于能源的模型”，它起源于20世纪70年代或80年代。

　　在基于能量的模型中，构建图像上的能量景观来模拟物理耗散以生成图像。当你将一种墨水滴入水中时，它会消散，例如，在最后，你会得到这种均匀的纹理。但如果你试图逆转这种消散过程，你会逐渐重新获得水中原有的墨点。

　　或者假设你有一个非常复杂的积木塔。如果你用球打它，它会塌成一堆积木。然后，这堆积木很杂乱，没有太多的结构。要恢复塔，你可以尝试逆转这一折叠过程，以生成原始的积木。这些模型以非常相似的方式生成图像。最初，你有这个非常好的形象。你从这个随机噪声开始，你基本上学会了如何模拟如何逆转这个过程，从噪声回到原始图像。你试着迭代优化这个图像，让它越来越逼真。

　　就人工智能和人类创造力的界限而言，你可以说这些模型实际上是根据人的创造力来训练的。互联网上有人们过去创作的各种绘画和图像。这些模型可以被训练来总结和生成互联网上的现有图像。所以这些模型更像是人们花费了几百年的创造力的结晶。

　　同时，由于这些模型是根据人类设计的内容进行训练的，所以它们可以制作出与人类过去所做的非常相似的艺术作品。他们可以找到艺术领域的人制作的图案，但这些模型很难自己实际生成有创意的照片。

　　如果你试图输入“抽象艺术”或者“独特艺术”这样的提示，它并没有真正理解人类艺术的创造性方面，相反，这些模型可以说是总结了人们过去所做的事情，而不是产生新的创造性艺术。

　　由于这些模型是在互联网上的大量图像上训练的，所以它们中的许多可能受到版权保护。你并不知道模型在生成一张新图片的时候到底在检索什么，所以有一个很大的问题，就是如何确定模型是否在使用有版权的图片。如果模型在某种意义上依赖于一些有版权的图片，那么这些新图片有版权吗？这是另一个需要解决的问题。

　　麻省理工学院学生解释人工智能图像生成器。鸣谢：麻省理工学院

　　问：你认为扩散模型生成的图像编码了对自然或物理世界的某种理解，无论是动态的还是几何的？有没有努力“教”图像生成器婴儿很久以前就已经学会的宇宙基础知识？

　　答:他们理解代码中对自然和物理世界的一些掌握吗？我确定。如果你让一个模型生成一个稳定的块配置，它一定会生成一个稳定的块配置。如果你告诉它生成一个不稳定的块配置，它看起来确实很不稳定。或者你说“湖边的一棵树”，大致能产生。

　　从某种意义上说，这些模型似乎抓住了很大一部分常识。然而，让我们远离真正理解自然和物理世界的问题是，当你试图生成你或我在工作中很容易想象的不寻常的单词组合时，这些模型是无法想象的。

　　例如，如果你说，“把叉子放在盘子上”，这种情况经常发生。如果你要求模型生成这个，那就简单了。如果你说，“在叉子上放一个盘子”，我们很容易想象它会是什么样子。然而，如果你把它放入这些大模型中的任何一个，你将永远不会在叉子上得到一个盘子。相反，你会在盘子的顶部得到一个叉子，因为模型正在学习总结它已经训练过的所有图像。用没见过的词组合也不能很好的概括。一个众所周知的例子是宇航员骑马，模型可以很容易地完成。但是你说一个宇航员骑马，还是会产生一个骑马的人。这些模型似乎捕捉到了它们训练的数据集中的大量相关性，但它们实际上并没有捕捉到世界的潜在因果机制。

　　另一个常见的例子是，如果你得到一个非常复杂的文本描述，比如一个物体在另一个物体的右边，第三个物体在前面，第三个或第四个物体在飞。它实际上只能满足一两个对象。这可能部分是因为训练数据，因为很少有非常复杂的标题，但也可能表明这些模型不是非常结构化。

　　可以想象，如果得到非常复杂的自然语言提示，模型是无法准确表示所有组件细节的。

　　问：你最近提出了一种新方法，使用多种模型来创建更复杂的图像，以便更好地理解生成艺术。这个框架在图像或文本领域之外有潜在的应用吗？

　　答：这些模型的局限性让我们深受启发。当你为这些模型提供非常复杂的场景描述时，它们实际上无法生成与之正确匹配的图像。

　　一种想法是，既然是固定计算图的单个模型，就意味着你只能用固定的计算量来生成图像。如果您收到极其复杂的提示，您将无法使用更多的计算能力来生成图像。

　　如果我向一个人描述一个场景，比方说，100行长，而不是一个场景长，人类艺术家可以花更长的时间在前者上。这些模型真的没有做到这一点的敏感度。然后，我们建议，给定非常复杂的提示，你实际上可以将许多不同的独立模型组合在一起，并让每个单独的模型代表你想要描述的场景的一部分。

　　我们发现这使得我们的模型能够生成更复杂的场景，或者更准确地生成场景的不同方面的场景。此外，这种方法通常可以应用于各种领域。虽然图像生成可能是目前最成功的应用，但生成模型实际上已经在各个领域看到了所有类型的应用。

　　你可以使用它们来生成不同的机器人行为，合成3D形状，更好地理解场景或设计新材料。您可以将多个所需因素结合起来，生成特定应用所需的精确材料。

　　我们一直非常感兴趣的一件事是机器人技术。就像你可以生成不同的图像一样，你也可以生成不同的机器人轨迹(路径和时间表)。通过组合不同的模型，可以生成不同技能组合的轨迹。如果我有一个跳跃和避障的自然语言规范，你也可以把这些模型结合起来，生成一个可以跳跃和避障的机器人轨迹。同样的，如果我们想要设计蛋白质，我们可以指定不同的功能或方面——类似于我们使用语言指定图像内容的方式——用类似的语言描述，比如蛋白质的类型或功能。然后，我们可以将它们结合在一起，产生一种新的蛋白质，满足所有这些功能。

　　我们还探索了扩散模型在三维形状生成中的应用。您可以使用此方法来生成和设计3D资源。通常，3D资产设计是一个非常复杂和费力的过程。通过将不同的模型组合在一起，生成形状变得更容易，例如“我想要一个具有这种风格和高度的四条腿的3D形状”，这可能会使3D资产设计的某些部分自动化。

特别声明：文章仅代表作者个人观点，不代表丽泰的观点和立场。如果侵犯到您的权益，版权或其他问题请及时联系我们，我们会第一时间处理。

行业新闻

相关产品

人工图像生成器如何帮助机器人？

相关新闻