NVIDIA 成为了今年的圣诞老人。
AI芯片礼包刚刚曝光:
△GrokAI绘图
包含72个GB300的“新一代计算单元”GB300 NVL72被评价为“唯一让OpenAI o1/o3在高batch size下推断大型模型思维链长度达到10万个token的解决方案”。
这距离今年3月份“AI春晚”上发布的B200系列仅有几个月的时间。
据SemiAnalysis报道,从第三季度开始,多家AI巨头纷纷将订单从B200转移到B300(只有微软在第四季度继续采购部分B200)。
很多网友感叹更新速度太快了!
不仅解决了此前传闻的B200因设计缺陷而被迫推迟的问题,也是对隔壁AMD MI300系列后续产品将在2025年加大显存容量这一事实的回应。 。
又一颗AI核弹
既然都是Blackwell架构,没有跨代,那么B300的算力提升从何而来呢?
根据这个启示,主要分为三个部分:
除了更高的FLOPS之外,B300系列的显存也得到了升级:
此外,在产品交付层面也有较大变化:
GB200系列提供了整个Bianca Board,其中包括集成在一块PCB板上的两个GPU、一个CPU、CPU内存和其他组件。
△GB200概念图
GB300系列仅提供一块参考板,包括两颗B300 GPU、一颗Grace CPU、HMC(Hybrid Memory Cube)、LPCAMM内存模块以及其他组件将由客户自行购买。
这给供应链上的OEM和ODM制造商带来了新的机遇。
专为大型模型推理而构建
显存的升级对于OpenAI o1/o3等大型推理模型至关重要,因为推理思维链的长度会增加KVCache,影响batch size和latency。
从GB300 NVL72“计算单元”的角度考虑时,它可以让72个GPU以极低的延迟处理相同的问题并共享视频内存。
在此基础上,从GB200升级到GB300还可以带来很多好处:
为了解释这些改进,SemiAnalysis 给出了一个更直观的例子。
下图显示了 Llama 3.1 405B 在 FP8 精度下使用 H100 和 H200 GPU 处理不同批量大小下的长序列时的处理速度。
输入设置为1,000个代币,输出为19,000个代币,从而模拟OpenAI o1和o3模型中的思维链。
从H100升级到H200,有两个显着的改进。
首先,在所有可比较的批量大小中,H200具有更大的内存带宽(H200 4.8TB/s,H100 3.35TB/s),这通常可以将处理效率提高43%。
其次,H200 可以运行更大的批量大小,这将每秒生成的代币数量增加了三倍。相应地,成本也降低了三倍左右。
增加记忆力的好处超出了人们的想象。
据了解,推理模型响应时间普遍较长,大幅缩短推理时间可以提高用户体验和使用频率。
此外,内存升级实现了 3 倍的性能提升和 3 倍的成本降低。这个提升速度远远超过了摩尔定律。
此外,SemiAnalysis还观察到,能力更强、差异化明显的车型可以收取更高的保费——
尖端机型毛利率超过70%,而仍在与开源机型竞争的次线机型毛利率不足20%。
当然,Nvidia并不是唯一一家可以增加内存的芯片公司,但Nvidia也有它的杀手锏NVlink。
还有一件事
NVIDIA消费级显卡方面,RTX5090的PCB板也首次曝光~
就在昨天,一张RTX 5090 PCB的照片在网上疯传。
特点就是超级超级大。
结合之前的报道,5090可能会配备32GB大显存,有望支持8K超高清游戏,实现流畅的60fps游戏体验。
网友们都坐不住了。
关于5090的发布时间,大家猜测是1月6日黄仁勋在CES演讲时。
参考链接:
[1]
[2]
[3]

微信客服
微信公众号