「羊驼打篮球」怎么画？有人花了13美元逼DALL·E 2亮出真本事

前沿科技 3年前 (2022) 虚像

选自 Medium

作者：Joy Zhang

机器之心编译

充值之前，建议你先学会「调教」 DALL · E 2。

2022 年，DALL · E 算是火出圈了。

4 月初，OpenAI 的开创性模型 DALL · E 2 登场，为图像生成和处理领域树立了新的标杆。只需输入简短的文字 prompt，DALL · E 2 就可以生成全新的图像，这些图像以语义上十分合理的方式将不同且不相关的对象组合起来。

很多人都迫不及待地上手试试——博主 Joy Zhang 在 5 月初注册了候补名单，并在 7 月底获得了访问权限。在测试期间，用户会收到积分（第一个月免费 50 个积分，之后每月 15 个积分），每次使用需要 1 个积分，每次使用会产生 3-4 张图像。如果不够用，还可以花 15 美元购买 115 个积分。

你可能已经在网上看到过各种精心挑选的图片，展示了 DALL · E 2 的能力（提供了正确的创意 prompt）。

在一篇博客中，她分享了一些演示，以说明如何从头开始为主题创建一个可用的图像：「一只大羊驼打篮球」。

起点

给 DALL · E 2 喂 prompt 是一门学问。首先，下图是「大羊驼打篮球」的生成结果：

为什么 DALL · E 2 倾向于为这个 prompt 生成卡通图像？她认为这与训练期间模型没怎么见过大羊驼打篮球真实图像有关。

她试图通过添加关键词「真实照片」更进一步：

这只大羊驼看起来更逼真，但整个图像开始看起来像是一个拙劣的 Photoshop 作品。在这种情况下，DALL · E 2 显然需要一些手工技巧来创造一个更逼真的场景。

Prompt 工程

在 DALL · E 的上下文中，prompt 工程是指设计 prompt 以提供你想要的结果的过程。

DALL · E 2 Prompt Book 是一个很好的资源，包含使用摄影和艺术关键词的 prompt 灵感的详细列表。

地址：https://dallery.gallery/the-dalle-2-prompt-book/

为什么这样的事情是有必要的？因为从 DALL · E 2 获得可用的输出是不确定性的（尤其是当你不确定 DALL · E 2 的能力时）。以至于一家新的初创公司正在创建一个收费 1.99 美元的相关业务，以节省人们自己提出 prompt 的时间和金钱。

她个人最喜欢的发现是「戏剧背光」，下图的 prompt 是：

「Film still of a llama dunking a basketball, low angle, extreme long shot, indoors, dramatic backlighting.」

告诉 DALL · E 2 你想要什么很重要。显然，从上下文来看，这只大羊驼的着装并不适合这种场合。然而，当指定「穿着运动衫的大羊驼」时，DALL · E 2 很好地实现了这个场景：

不止于此，为了给图像添加一些戏剧性并真正让这只大羊驼飞起来，她需要指定诸如「扣篮」、「动作镜头」之类的短语，或者她个人最喜欢的「穿着球衣的大羊驼像迈克尔乔丹一样扣篮」：

你可能已经注意到：DALL · E 2 的构图并不出色。

你会认为，从「扣篮」的上下文来看，大羊驼、球和篮筐的相对位置应该是显而易见的。通常情况下，大羊驼的扣篮方式是错误，或者球的位置使大羊驼没有按照真正想要的方式投篮。尽管 prompt 的所有元素都在那里，但 DALL · E 2 并没有真正理解它们之间的关系。

DALL · E 2 没有真正「理解」场景的另一个特征是偶尔出现的纹理混淆。在下图中，篮网是由毛皮制成的（想想就觉得很诡异）：

DALL · E 2 生成的面孔不够逼真

DALL · E 2 生成的面孔似乎没有那么逼真，有人认为，这是模型为了避免重现在训练中看到的面孔而故意为之，不然就可能遭遇之前 deepfake 遇到的问题。作者原本以为这仅适用于人类受试者，但显然，它也适用于大羊驼。

有些结果简直令人毛骨悚然：

DALL · E 2 的其他一些限制

以下是她遇到的其他一些问题：

角度和镜头总是被忽略

无论她使用了多少「远景」或「超远景」的说法，都很难找到整只大羊驼都能进入画面的图像。

在某些情况下，框架问题被完全忽略：

DALL · E 2 不会拼写

鉴于 DALL · E 2 很难理解各个成分之间的关系，不会拼写倒也不足为奇。然而，它还是能够在正确的上下文中尝试一些成形的字母：

DALL · E 2 可能会因复杂或措辞不当的 prompt 而喜怒无常

有时，以某些方式添加关键词会导致与预期完全不同的结果。

在这种情况下，prompt 的真正主题（穿着运动衫的大羊驼）被完全忽略了：

即使添加「蓬松」一词也会导致性能显着下降，并且在多个情况下看起来 DALL · E 2 只是 …… 坏了：

在使用 DALL · E 2 时，重要的是要具体说明你想要什么，而不要过度填充或添加多余的词汇。

DALL · E 2 的风格转换能力令人印象深刻

你需要试试这个！

一旦有了关键词主题，你就能以令人印象深刻的其他艺术风格生成图像。比如「…… 的抽象画」：

蒸汽波：

数字艺术：

宫崎骏动画电影截图：

经过 100 多个积分的尝试（大概 13 美元）和反复试验，她的最终图像如下：

最终版的 prompt 是：「Film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting.」

图像并不完美，但 DALL · E 2 设法完成了大约 80% 的要求。

嗯 …… 怎么不算成功呢？

原文地址：http://www.myzaker.com/article/63411106b15ec03b68063d67

extreme 扣篮篮网艺术远景

版权声明：虚像发表于 2022年10月8日 pm2:42。
转载请注明：「羊驼打篮球」怎么画？有人花了13美元逼DALL·E 2亮出真本事 | 快导航网

「羊驼打篮球」怎么画？有人花了13美元逼DALL·E 2亮出真本事

谷歌发布了新手机 Pixel 7、手表和平板，Google 生态会更好吗？

消息称苹果一直积极准备2纳米芯片最早2025年量产

相关文章

热门文章

最新资讯

热门网址

热门标签

「羊驼打篮球」怎么画？有人花了13美元逼DALL·E 2亮出真本事

谷歌发布了新手机 Pixel 7、手表和平板，Google 生态会更好吗？

消息称苹果一直积极准备2纳米芯片 最早2025年量产

相关文章

热门文章

最新资讯

热门网址

热门标签

运营相关

软件下载

跨境电商

购物网站

设计相关

行业企业

自媒体相关

网络科技

编程帮手

综合其他

站长助手

知识充能

电商运营

生活服务

榜单排名

服务生活

日常生活

新闻媒体

教育文化

政府组织

探索发现

影视工具

影视基地

工具大全

学术资源

学习教育

娱乐生活

发现资源

医疗健康

兴趣爱好

元宇宙

体育健身

休闲娱乐

交通旅游

NFT概念

ACG

消息称苹果一直积极准备2纳米芯片最早2025年量产