发布时间:2024-12-24 00:05:08 来源:本站 作者:admin
谷歌最新的人工智能工具“Whisk”允许人们上传照片,以返回由 AI 生成的合成图像 - 甚至无需用户输入任何文本来解
释他们想要什么。
用户可以输入描绘主题、设置和风格的图像,然后 Whisk 会将所有内容组合成一张图像。
谷歌在一篇博客文章中表示,Whisk 是一种用于快速激发灵感的“创意工具”,而不是“传统的图像编辑器”。从本质
上讲,Whisk 旨在成为一种有趣的 AI 功能,而不是一种精致的专业工作。
尽管反对者警告说,人工智能发展缺乏护栏会给人类带来危险,但谷歌和 OpenAI 等大型科技公司正在竞相推出可以展
示时髦新技术用途的消费产品。
自 OpenAI 于 2021 年首次推出其文本转图像创作工具 Dall-E 以来,人工智能生成艺术作品的概念已席卷社交媒体,并
成为消费产品的焦点。谷歌的 Whisk 是一款图像转图像生成器,它建立在流行的文本转图像生成器概念之上。
使用 Whisk 的人可以通过编辑输入和混合类别来“重新混合”最终图像,以制作不同的图像,如毛绒玩具、珐琅别针或
贴纸。如果用户想要指导某些细节,他们可以添加文本,但这不是创建图像的必要条件。
“Whisk 旨在让用户以新颖而富有创意的方式重新混合主题、场景和风格,提供快速的视觉探索,而不是像素完美的编
辑,”谷歌实验室产品管理总监 Thomas Iljic 在一份声明中表示。
谷歌的 Whisk 是基于 DeepMind 开发的生成式人工智能而构建的,DeepMind 是谷歌于 2014 年收购的人工智能实验
室。
Whisk 的工作原理是使用谷歌的核心人工智能产品 Gemini(于 2023 年 12 月首次亮相),并将其与 DeepMind 于
12 月发布的最新文本转图像生成器 Imagen 3 配对。
当用户上传他们的图像时,Gemini 会生成一个标题,并将其输入到 Imagen 3 中。该过程捕捉了主题的“本质”,而不
是精确的复制品,这允许重新混合最终图像,但也意味着最终产品可能会偏离提示。
例如,谷歌在一篇博文中表示,生成的图像可能与提示图像具有不同的身高、发型或肤色。
当谷歌于 2 月首次推出 Gemini 的文本转图像创建器时,该公司最初面临强烈反对,因为该工具生成的图像在历史上是
不准确的。
该公司表示,Whisk 最初以 Google Labs 网站的形式向美国用户开放,目前处于早期开发阶段。
OpenAI 最近还发布了一款名为 Sora 的文本转视频生成器,凸显了消费产品的竞争。
Wedbush Securities 董事总经理兼高级股票分析师 Dan Ives 告诉 CNN,Whisk 是谷歌在人工智能和科技竞赛中又一
次“展示实力的时刻”。
“DeepMind 是谷歌的重要资产,”Ives 表示,并指出人工智能产品是谷歌 2025 年新产品“宝库”的一部分,其中还
包括与三星和高通合作开发的新 Android 操作系统。