谷歌AI发布Muse研究论文是一种新的文本至图像生成技术

发布时间：2023-02-14 09:13:31来源：infoq

图片来自网络/侵删

　　谷歌 AI 发布了一篇关于 Muse 的研究论文，这是一种新的文本至图像生成技术，它基于掩码生成(Masked Generative)Transformer，可以生成与 DALL-E 2和 Imagen 等竞争对手相媲美的高质量图片，但是速度要快得多。

　　Muse 被训练为预测随机掩码图像的 token，它会使用业已训练过的大型语言模型所生成的嵌入式文本。这项工作涉及在离散的 token 空间中进行掩码建模。Muse 使用一个 9 亿个参数的模型，称为掩码生产 transformer(masked generative transformer)，以创造视觉效果，而不是采用像素空间扩散或自回归模型。

　　谷歌声称，借助 TPUv4 芯片，可以在 0.5 秒内创建一个 256*256 的图像，而使用 Imagen 则需要 9.1 秒，根据谷歌的说法，Imagen 使用的扩散模型提供了“前所未有的逼真程度”和“深度的语言理解”。TPU，即张量处理单元(Tensor Processing Unit)，是谷歌开发的定制芯片，专门用作 AI 的加速器。

　　根据研究，谷歌 AI 已经训练了一系列不同规模的 Muse 模型，参数从 6.32 亿到 30 亿不等，研究发现，预先训练好的大型语言模型，对于生成逼真的高质量图像至关重要。

　　Muse 的性能也超过了最先进的自回归模型 Parti，因为它使用了并行解码，在推理时间上比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，根据使用同等硬件的测试，比 Stable Diffusion v1.4 快 3 倍。

　　Muse 创建的视觉效果与输入中的各种语义成分相对应，如名词、动词和形容词。此外，它还展示了视觉风格和多对象特性的知识，如合成性(compositionality)和基数(cardinality)。

　　近年来，由于新的训练方法和改进的深度学习架构，图像生成模型有了长足的进步。这些模型有能力生成非常详尽和逼真的图像，在广泛的行业和应用中，它们正在成为越来越强大的工具。
　　（码上科技）

苹果代工厂和硕1月营收12...

最后一页

热点推荐

谷歌AI发布Muse研究论文 是一种新的文本至图像生成技术

谷歌AI发布Muse研究论文是一种新的文本至图像生成技术