科技谷歌新AI火了：世界最长单词都能画：Pneumonoultramicroscopicsilicovolcanoconiosis

漂亮的石头 · 2022-06-30

朋友，你知道这个英文单词是什么吗？Pneumonoultramicroscopicsilicovolcanoconiosis.这个世界公认最长 —— 由 45 个字母组成的单词，意思是“因肺部沉积火山矽质微粒所引起的疾病”（俗称火山矽肺病）。但如果说，现在不是让你拼读这个单词，而是…… 把它给画出来呢？（读都读不出来，还画画？？？）

谷歌最新提出来的一个 AI——Parti，它就能轻松 hold 住这事。

在把这个单词“投喂”给 Parti 后，它就能有模有样地生成多张合情合理的肺部疾病图片：

但这只是 Parti 小试牛刀的能力，据谷歌介绍，它是目前最先进的“文本转图像”AI。

例如，跟它说句：“把悉尼歌剧院和巴黎铁塔做个结合”，输出结果是这样的：

（不知道的还真以为是画报呢）

而且在算法路数上，还不同于谷歌自家的 Imagen，Parti 可以说是把“AI 作画”卷出了新高度。

就连谷歌 AI 负责人 Jeff Dean 也连发数条推文，玩得不亦乐乎：

可扩展到 200 亿参数：更逼真，更“聪明”

事实上，Parti 的能力还不止于此。

得益于模型可扩展到 200 亿参数，一方面，它生成的图像更加细节逼真。

不管是短短几个字，还是五十多个个单词的小段落，都能清晰展现出来。

比如，The back of a violin，小提琴的背面。

亦或是照着梵高《星空》来描述的夜晚画面。ps，这段有 67 个单词。

结果 Parti 也不在话下，一揽子把各种风格的图全给你画出来了~

这也正是 Parti 的第二大能力，不光细节到位，风格也能做到多变。

还有像“浣熊穿正装，头戴礼帽，拄着拐杖，拿着个垃圾袋”这种奇特的描述，它也能在整出花活的同时还不落细节。

风格上，则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……

甚至有时候它还会讲双关笑话。

（Toad’ay，癞蛤蟆）

具体在测试结果上，MS-COCO、Localized Narrative（LN，4 倍长的描述）上 FID 分数，Parti 都取得了最先进的结果。

尤其在 MS-COCO 零样本的 FID 得分仅为 7.23，微调 FID 得分为 3.22，超过了此前的 Imagen 和 DALL-E 2。

所有组件都是 Transformer

时隔一个月，谷歌再把 AI 作画卷出新高度，结果作者却说：秘诀很简单。

Parti 主要是将文本生成图像视作序列到序列之间建模。这有点类似于机器翻译，将文本标记作为编码器的输入，目标输出从文本变成了图像。

从结构上看，它的所有组件只有三部分：编码器、解码器以及图像标记器，且都是基于标准 Transformer。

首先，使用基于 Transformer 的图像标记器 ViT-VQGAN，将图像编码为离散的标记序列。

然后再通过 Transformer 的编码-解码结构，将参数扩展到 200 亿。

以往关于文本生成图像的研究，除了最早出现的 GAN，大体可以分成两种思路。

一种是基于自回归模型，首先文本特征映射到图像特征，再使用类似于 Transformer 的序列架构，来学习语言输入和图像输出之间的关系。

这种方法的一个关键组成部分就是图像标记器，将每个图像转换为一个离散单元的序列。比如 DALL-E 和 CogView，就采用了这一思路。

另一种则是这段时间以来进展频频的路线 ——基于扩散的文本到图像模型，比如 DALL-E 2 和 Imagen。

他们摒弃了图像标记器，而是采用扩散模型来直接生成图像。可以看到的是，这些模型产生的图像质量更高，在 MS-COCO 零样本 FID 得分更好。

而 Parti 模型的成功，则证明了自回归模型可以用来改善文本生成图像的效果。

与此同时，Parti 还引入并发布了新的基准测试 ——PartiPrompts，用于衡量模型在 12 个类别和 11 个挑战方面的能力。

但 Parti 还是有一定的局限性，研究人员也展示了一些 bug：

比如，对否定的描述就没招了~

一个没有香蕉的盘子，旁边一个没有橙汁儿的玻璃杯。

还会犯一些常识性错误，例如不合理地缩放。比如这张图，机器人竟然比赛车高出好几倍。

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆 F1 赛车前。太阳落在城市景观上。漫画书插图。

谷歌“自己卷自己”

在这项研究来自 Google Research，团队中的华人居多。

研究核心工作人员包括 Yuanzhong Xu、Thang Luong 等，目前均就职于谷歌从事 AI 相关研究工作。

（Thang Luong 在谷歌学术上的引用量高达 20000+）

△ 左：Yuanzhong Xu；右：Thang Luong

不过有意思的是，同为“说句话让 AI 作画”，同为出自谷歌之手的 Imagen，它跟 Parti 还真有点千丝万缕的关系。

在 Parti 的 GitHub 的项目文档中就有提到：

感谢 Imagen 团队，他们在发布 Imagen 之前与我们分享了其最近完整的结果。

他们在 CF-guidance 方面的重要发现，对最终的 Parti 模型特别有帮助。

而且 Imagen 的作者之一 Burcu Karagol Ayan，也参与到了 Parti 的项目中。

（有种谷歌“自己卷自己”那味了）

不仅如此，就连“隔壁”DALL-E 2 的作者 Aditya Ramesh，也给 Parti 在 MS-COCO 评价方面做了讨论工作。

以及 DALL-Eval 的作者们，也在 Parti 数据方面的工作提供了帮助。

One More Thing

有一说一，就“文本生成图像”这事，可不只是研究人员们的宠儿。

网友们在“玩”它这条路上，也是乐此不疲（脑洞不要太大好吧）。

前一阵子让 Imagen 画一幅宋朝“虎戴 VR”，直接演变成 AI 作画大战。

△ 图：Imagen 作画

DALL・E、MidJourney 等“闻讯赶来”参与其中。

△ DALL・E 作画

甚至还有把 Wordle 和 DALL-E 2 搞到一起的：

……

不过回归到这次的 Parti，好玩归好玩，但还是有网友提出了“直击灵魂”的问题：

啥时候商业化？要是自己“关门玩”就没意思了。

Parti 论文地址：

https://parti.research.google/

GitHub 项目地址：

https://github.com/google-research/parti

参考链接：

[1]https://twitter.com/lmthang/status/1539664610596225024

[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289

[3]https://imagen.research.google/

登录或注册

科技谷歌新AI火了：世界最长单词都能画：Pneumonoultramicroscopicsilicovolcanoconiosis

漂亮的石头版主管理成员

登录或注册

科技 谷歌新AI火了：世界最长单词都能画：Pneumonoultramicroscopicsilicovolcanoconiosis

漂亮的石头 版主 管理成员

科技谷歌新AI火了：世界最长单词都能画：Pneumonoultramicroscopicsilicovolcanoconiosis

漂亮的石头版主管理成员