英伟达老黄成圣诞老人，AI芯片大礼包GB300 NVL72曝光，助力OpenAI推理大模型

2024-12-27 网络整理佚名2260

核心提示：英伟达老黄，成了今年的圣诞老黄。AI芯片大礼包刚刚曝光：△GrokAI绘图包含72块GB300的“新一代计算单元”GB300 NVL72

NVIDIA 成为了今年的圣诞老人。

AI芯片礼包刚刚曝光：

△GrokAI绘图

包含72个GB300的“新一代计算单元”GB300 NVL72被评价为“唯一让OpenAI o1/o3在高batch size下推断大型模型思维链长度达到10万个token的解决方案”。 ‍

这距离今年3月份“AI春晚”上发布的B200系列仅有几个月的时间。

据SemiAnalysis报道，从第三季度开始，多家AI巨头纷纷将订单从B200转移到B300（只有微软在第四季度继续采购部分B200）。

很多网友感叹更新速度太快了！

不仅解决了此前传闻的B200因设计缺陷而被迫推迟的问题，也是对隔壁AMD MI300系列后续产品将在2025年加大显存容量这一事实的回应。。

又一颗AI核弹

既然都是Blackwell架构，没有跨代，那么B300的算力提升从何而来呢？

根据这个启示，主要分为三个部分：

除了更高的FLOPS之外，B300系列的显存也得到了升级：

此外，在产品交付层面也有较大变化：

GB200系列提供了整个Bianca Board，其中包括集成在一块PCB板上的两个GPU、一个CPU、CPU内存和其他组件。

△GB200概念图

GB300系列仅提供一块参考板，包括两颗B300 GPU、一颗Grace CPU、HMC（Hybrid Memory Cube）、LPCAMM内存模块以及其他组件将由客户自行购买。

这给供应链上的OEM和ODM制造商带来了新的机遇。

专为大型模型推理而构建

显存的升级对于OpenAI o1/o3等大型推理模型至关重要，因为推理思维链的长度会增加KVCache，影响batch size和latency。

从GB300 NVL72“计算单元”的角度考虑时，它可以让72个GPU以极低的延迟处理相同的问题并共享视频内存。

在此基础上，从GB200升级到GB300还可以带来很多好处：

为了解释这些改进，SemiAnalysis 给出了一个更直观的例子。

下图显示了 Llama 3.1 405B 在 FP8 精度下使用 H100 和 H200 GPU 处理不同批量大小下的长序列时的处理速度。

输入设置为1,000个代币，输出为19,000个代币，从而模拟OpenAI o1和o3模型中的思维链。

从H100升级到H200，有两个显着的改进。

首先，在所有可比较的批量大小中，H200具有更大的内存带宽（H200 4.8TB/s，H100 3.35TB/s），这通常可以将处理效率提高43%。

其次，H200 可以运行更大的批量大小，这将每秒生成的代币数量增加了三倍。相应地，成本也降低了三倍左右。

增加记忆力的好处超出了人们的想象。

据了解，推理模型响应时间普遍较长，大幅缩短推理时间可以提高用户体验和使用频率。

此外，内存升级实现了 3 倍的性能提升和 3 倍的成本降低。这个提升速度远远超过了摩尔定律。

此外，SemiAnalysis还观察到，能力更强、差异化明显的车型可以收取更高的保费——

尖端机型毛利率超过70%，而仍在与开源机型竞争的次线机型毛利率不足20%。

当然，Nvidia并不是唯一一家可以增加内存的芯片公司，但Nvidia也有它的杀手锏NVlink。

还有一件事

NVIDIA消费级显卡方面，RTX5090的PCB板也首次曝光~

就在昨天，一张RTX 5090 PCB的照片在网上疯传。

特点就是超级超级大。

结合之前的报道，5090可能会配备32GB大显存，有望支持8K超高清游戏，实现流畅的60fps游戏体验。

网友们都坐不住了。

关于5090的发布时间，大家猜测是1月6日黄仁勋在CES演讲时。

参考链接：

[1]

[2]

[3]

标签： NVL72 OpenAI推理大模型英伟达老黄

举报收藏打赏 评论 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

英伟达老黄成圣诞老人，AI芯片大礼包GB300 NVL72曝光，助力OpenAI推理大模型

常见问题

VIP服务

关于我们

服务热线:

扫码关注有惊喜