您好,欢迎来到二手物资网!

谷歌发布最强AI模型Gemini 2.0:性能翻倍,支持多模态输入输出

   2024-12-12 网络整理佚名1110
核心提示:谷歌正式发布Gemini 2.0,号称迄今为止为智能体时代最有能力的AI模型,带来了增强的性能、更多的多模态性和新的原生工具使用。

感谢IT之家网友冯建惠仪的线索提交!

IT之家 12 月 11 日报道,谷歌正式发布 Gemini 2.0,号称是谷歌迄今为止最强大的 AI 模型,带来更强的性能和更多的多模态性能(如原生图像和音频输出)以及新的原生工具应用。

如图所示,Gemini 2.0在关键基准测试中比Gemini 1.5 Pro实现了显着的性能提升和更低的延迟。谷歌官方的说法是“它在关键基准测试中超越了1.5 Pro,并且速度快了一倍”。

据介绍,Gemini2.0还带来了多种新功能。除了支持图像、视频和音频等多模态输入外,现在还支持本地文本图形与文本混合等多模态输出,以及可定制的文本转语音(TTS)多语言音频内容。此外,还支持谷歌搜索、代码执行、第三方用户自定义函数等原生调用工具。

谷歌基础套件下载_谷歌v8基准测试_

Google Gemini 2.0 Flash对原生用户界面操作实现了诸多改进,如多模态推理、长上下文理解、复杂指令跟随和规划、组合函数调用、原生工具使用等,并进一步优化了延迟问题。

谷歌表示:AI代理的实际应用是一个令人兴奋且充满可能性的研究领域。我们正在通过一系列原型来探索这一新领域,帮助人们完成任务并把事情做好,包括 Astra 项目的更新,我们的研究原型探索通用人工智能 (AGI) 的未来能力;新的 Project Mariner 将从您的浏览器开始探索人机交互的未来; Jules,一个可以帮助开发者的人工智能代码代理。

从今天开始,开发者可以在 AI Studio 和 Vertex AI 中尝试 Gemini2.0 Flash 的实验版本(文本转语音和原生图像生成仅对早期访问合作伙伴开放,但多模态输入对所有开发者和文本开放)输出,预计1月份全面上线),并且该版本也已在Gemini Advanced的网页版中开放试用,稍后将推出移动版。

为了帮助开发者开发动态和交互式应用程序,谷歌还发布了新的多模式实时API,具有实时音频和视频输入功能,以及使用多种组合工具的能力。

广告声明:文章中包含的外部跳转链接(包括但不限于超链接、二维码、密码等)用于传达更多信息,节省选择时间。结果仅供参考。所有 IT House 文章均包含此声明。

 
举报 收藏 打赏 评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行