谷歌发布最强AI模型Gemini 2.0：性能翻倍，支持多模态输入输出

2024-12-12 网络整理佚名1110

核心提示：谷歌正式发布Gemini 2.0，号称迄今为止为智能体时代最有能力的AI模型，带来了增强的性能、更多的多模态性和新的原生工具使用。

感谢IT之家网友冯建惠仪的线索提交！

IT之家 12 月 11 日报道，谷歌正式发布 Gemini 2.0，号称是谷歌迄今为止最强大的 AI 模型，带来更强的性能和更多的多模态性能（如原生图像和音频输出）以及新的原生工具应用。

如图所示，Gemini 2.0在关键基准测试中比Gemini 1.5 Pro实现了显着的性能提升和更低的延迟。谷歌官方的说法是“它在关键基准测试中超越了1.5 Pro，并且速度快了一倍”。

据介绍，Gemini2.0还带来了多种新功能。除了支持图像、视频和音频等多模态输入外，现在还支持本地文本图形与文本混合等多模态输出，以及可定制的文本转语音（TTS）多语言音频内容。此外，还支持谷歌搜索、代码执行、第三方用户自定义函数等原生调用工具。

谷歌基础套件下载_谷歌v8基准测试_

Google Gemini 2.0 Flash对原生用户界面操作实现了诸多改进，如多模态推理、长上下文理解、复杂指令跟随和规划、组合函数调用、原生工具使用等，并进一步优化了延迟问题。

谷歌表示：AI代理的实际应用是一个令人兴奋且充满可能性的研究领域。我们正在通过一系列原型来探索这一新领域，帮助人们完成任务并把事情做好，包括 Astra 项目的更新，我们的研究原型探索通用人工智能 (AGI) 的未来能力；新的 Project Mariner 将从您的浏览器开始探索人机交互的未来； Jules，一个可以帮助开发者的人工智能代码代理。

从今天开始，开发者可以在 AI Studio 和 Vertex AI 中尝试 Gemini2.0 Flash 的实验版本（文本转语音和原生图像生成仅对早期访问合作伙伴开放，但多模态输入对所有开发者和文本开放）输出，预计1月份全面上线），并且该版本也已在Gemini Advanced的网页版中开放试用，稍后将推出移动版。

为了帮助开发者开发动态和交互式应用程序，谷歌还发布了新的多模式实时API，具有实时音频和视频输入功能，以及使用多种组合工具的能力。

广告声明：文章中包含的外部跳转链接（包括但不限于超链接、二维码、密码等）用于传达更多信息，节省选择时间。结果仅供参考。所有 IT House 文章均包含此声明。

标签： 模型性能智能体应用 API功能

举报收藏打赏 评论 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

谷歌发布最强AI模型Gemini 2.0：性能翻倍，支持多模态输入输出

常见问题

VIP服务

关于我们

服务热线:

扫码关注有惊喜