谷歌推出 Veo 2 和 Image 3 视频及图像生成模型

来源：电手

编辑：小小辉

2024-12-17 10:37

谷歌推出了全新的 Veo 2 视频生成模型以及改进的 Image 3 图像生成模型

就在不久之前 OpenAI 推出了自己的全新 AI 视频生成模型 Sora，谷歌也不甘落后就在中国时间今天凌晨的时候谷歌推出了全新的 Veo 2 视频生成模型以及改进的 Image 3 图像生成模型。

Veo 2

我们先来了解一下 Veo 2 视频生成模型，就相比 OpenAI 官方公布的视频内容来看，Veo 2 模型生成的视频看着更加的真实一些，Sora 模型仅能生成最高 1080p 分辨率的视频同时时长比较短，而 Veo 2 可以生成 4K 分辨率时间长几分钟的视频。

上面给大家附带了一个谷歌官方发布的 AI 视频，可以看见视频非常的逼真就像是直接拍摄的现实世界一样。还有一个动画的视频，里面的人物看着也非常的灵动。（视频经过压缩可能不是很清除，感兴趣的可以前往谷歌 Veo 2 官网中查看：https://deepmind.google/technologies/veo/veo-2/）

谷歌表示 Veo 2 能更好地理解现实世界的物理现象以及人类动作和表情的细微差别，有助于整体改善细节和真实感。同时 Veo 2 将引入 Google Labs 视频生成工具 VideoFX，并扩大可以访问该工具的用户数量，可以访问 Google Labs 注册候补名单。谷歌还计划明年将 Veo 2 扩展到 YouTube Shorts 和其他产品。对了该模型生成的视频同样会有一个看不见的水印来辨别是不是 AI 生成的视频。

Image 3

再来看看 Image 3，这个图像生成模型是之前就推出过的，谷歌将其改进之后跟着 Veo 2 重新推出，该模型可以生成更明亮、构图更好的图像。

最新的 Imagen 3 模型将在全球 100 多个国家/地区推出图像生成工具 ImageFX。

Whisk

除了 Veo 2 和 Image 3 之外，谷歌还将推出一款有趣的新工具 Whisk，它允许你输入或创建能够表达你心中主题、场景和风格的图像。然后可以将它们组合在一起并重新混合，以创建属于自己的独特图像。

在底层，Whisk 将最新的 Imagen 3 模型与 Gemini 的视觉理解和描述功能相结合。Gemini 模型会自动为你创建的图像编写详细的说明，然后将这些说明输入到 Imagen 3 中。

结论

虽然从目前来看谷歌的 Veo 2 生成的视频比 OpenAI Sora 生成的视频要更真实一点，但是还是需要看后续的优化。

本文编辑：@ 小小辉