谷歌的新 AI 工具使用图像提示而不是文本

首页 > 图文 > 正文

发布时间：2024-12-24 00:05:08 来源：本站作者：admin

谷歌最新的人工智能工具“Whisk”允许人们上传照片，以返回由 AI 生成的合成图像 - 甚至无需用户输入任何文本来解

释他们想要什么。

用户可以输入描绘主题、设置和风格的图像，然后 Whisk 会将所有内容组合成一张图像。

谷歌在一篇博客文章中表示，Whisk 是一种用于快速激发灵感的“创意工具”，而不是“传统的图像编辑器”。从本质

上讲，Whisk 旨在成为一种有趣的 AI 功能，而不是一种精致的专业工作。

尽管反对者警告说，人工智能发展缺乏护栏会给人类带来危险，但谷歌和 OpenAI 等大型科技公司正在竞相推出可以展

示时髦新技术用途的消费产品。

自 OpenAI 于 2021 年首次推出其文本转图像创作工具 Dall-E 以来，人工智能生成艺术作品的概念已席卷社交媒体，并

成为消费产品的焦点。谷歌的 Whisk 是一款图像转图像生成器，它建立在流行的文本转图像生成器概念之上。

使用 Whisk 的人可以通过编辑输入和混合类别来“重新混合”最终图像，以制作不同的图像，如毛绒玩具、珐琅别针或

贴纸。如果用户想要指导某些细节，他们可以添加文本，但这不是创建图像的必要条件。

“Whisk 旨在让用户以新颖而富有创意的方式重新混合主题、场景和风格，提供快速的视觉探索，而不是像素完美的编

辑，”谷歌实验室产品管理总监 Thomas Iljic 在一份声明中表示。

谷歌的 Whisk 是基于 DeepMind 开发的生成式人工智能而构建的，DeepMind 是谷歌于 2014 年收购的人工智能实验

室。

Whisk 的工作原理是使用谷歌的核心人工智能产品 Gemini（于 2023 年 12 月首次亮相），并将其与 DeepMind 于

12 月发布的最新文本转图像生成器 Imagen 3 配对。

当用户上传他们的图像时，Gemini 会生成一个标题，并将其输入到 Imagen 3 中。该过程捕捉了主题的“本质”，而不

是精确的复制品，这允许重新混合最终图像，但也意味着最终产品可能会偏离提示。

例如，谷歌在一篇博文中表示，生成的图像可能与提示图像具有不同的身高、发型或肤色。

当谷歌于 2 月首次推出 Gemini 的文本转图像创建器时，该公司最初面临强烈反对，因为该工具生成的图像在历史上是

不准确的。

该公司表示，Whisk 最初以 Google Labs 网站的形式向美国用户开放，目前处于早期开发阶段。

OpenAI 最近还发布了一款名为 Sora 的文本转视频生成器，凸显了消费产品的竞争。

Wedbush Securities 董事总经理兼高级股票分析师 Dan Ives 告诉 CNN，Whisk 是谷歌在人工智能和科技竞赛中又一

次“展示实力的时刻”。

“DeepMind 是谷歌的重要资产，”Ives 表示，并指出人工智能产品是谷歌 2025 年新产品“宝库”的一部分，其中还

包括与三星和高通合作开发的新 Android 操作系统。

热门城市：