您好,欢迎来到二手物资网!

中国科技巨头加速AI算力建设:从千卡到十万卡,字节跳动领跑算力军备竞赛

   2025-01-24 网络整理佚名2830
核心提示:要想富,先修路。想要AI大模型能够持续迭代升级,离不开底层算力基础设施的搭建。自2022年ChatGPT爆发以来,算力市场也迎来了爆发式增长。一方面,中国的科技巨头们

要想富,先修路。

想要大型AI模型不断迭代升级,离不开底层计算基础设施的建立。自2022年ChatGPT爆发以来,算力市场也经历了爆发式增长。

一方面,中国科技巨头为了抢占未来AGI时代的入场券,正在进行一场持续不断的算力“军备竞赛”。他们在疯狂囤积显卡资源的同时,也在将算力从千卡提升到万卡再到十万卡的过程中。电力集群建设。

研究机构 Omdia 的报告显示,字节跳动在 2024 年订购了约 23 万颗 Nvidia 芯片,成为 Nvidia 采购量第二大客户。

有报道称,字节跳动2025年的资本支出将达到1600亿元,其中900亿将用于购买AI算力。与字节跳动同等规模的各大厂商,包括阿里巴巴、百度、中国电信等公司,也在推动十万卡级算力集群的建设。

科技巨头疯狂的算力基础设施建设活动无疑正在将中国AI算力市场推向高潮。

但在巨头疯狂扩张算力的另一面,中国算力市场大量算力资源闲置,甚至开始出现“中国整体算力资源供过于求”的声音。

“2023年算力市场会很热,做性能比较低的A100的人会赚钱。但是2024年市场会冷很多,很多卡都打不开了。不过,由于各种因素叠加,4090对于游戏和消费市场仍将处于需求较多的状态。”ZStack科技CTO王伟告诉广果智能。

近两年来,算力业务是大机型浪潮中的首个采金赛道。除了NVIDIA之外,还有无数的云厂商、PaaS层算力优化服务商,甚至芯片经纪商都在介入。这一轮算力需求的激增主要是由大型AI模型的快速发展推动的。

人工智能的需求就像水泵一样,激活了稳定多年的算力市场,再次激起汹涌的波涛。

但现在,这种动力来源发生了变化。大型AI模型的发展正在逐渐从预训练转向推理应用,越来越多的玩家开始选择放弃超大型模型的预训练。例如,近日,01Wan创始人兼CEO李开复公开表示,01Wan不会停止预训练,但不会再追求超大型模型。

在李开复看来,如果我们想要追求AGI,持续训练非常大的模型,也意味着我们需要投入更多的GPU和资源。 “仍然是我之前的判断——当预训练结果不再不如开源模型时,每个公司都不应该沉迷于预训练。”

也正是因为如此,作为中国大型模型初创公司六小虎之一的零一万武已经开始改变阵型,随后将押注AI大模型推理应用市场。

在这样一个需求和供给都快速变化的阶段,市场天平不断倾斜。

2024年,算力市场供需将出现结构性失衡。算力基础设施未来是否继续,算力资源该卖到哪里,新玩家如何与巨头竞争,成为关键命题。

围绕智能算力市场的一个隐秘世界正在慢慢展开。

1、供需错配:低质量扩张满足高质量需求

1997年,还很年轻的刘淼加入了当时正蓬勃发展的IBM,这也让他进入了计算行业。

20世纪中叶,IBM开发的大型机被誉为“蓝色巨人”,几乎垄断了全球企业计算市场。

“当时IBM的几台主机就能够支撑全国一家银行核心业务系统的运行,这也让我看到了计算在加速业务系统方面的价值。”刘淼告诉光锥情报。

正是在IBM的经历,为刘淼投身新一代智能计算铺平了道路。

在经历了以CPU为代表的主机时代和云计算时代之后,当前的计算能力已经进入了以GPU为主导的智能计算时代,其整个计算范式也发生了根本性的变化。毕竟,如果延续旧的架构方案,大量的数据需要绕过CPU,然后发送到GPU,这会导致GPU大量的计算能力和带宽被浪费。 GPU训练和推理场景也对高速互联、在线存储、隐私安全提出了更高的要求。

这也带动了我国智能计算产业链上下游的发展,特别是以智能计算中心为核心的基础设施建设。

2022年底,ChatGPT的发布正式开启了AI大模型时代,中国也进入了“百模型之战”阶段。

当时大家都希望能够为大模型预训练提供算力,但业界也存在一种情况,就是不清楚最终的算力需求在哪里、谁会使用。 “现阶段,大家都会优先考虑买卡、做一些工作。图灵新智能计算研究院联合创始人兼所长洪锐表示,这也是智能计算1.0时代。

随着大型模型的训练参数越来越大,最终发现计算资源的真正消耗集中在做预训练的玩家身上。

“在这一轮人工智能产业爆发的初期,我们希望通过不断扩大基础模型预训练的算力消耗,探索通向AGI(通用人工智能)之路。”洪锐表示。

公开数据显示,ChatGPT 已达到 1750 亿个训练参数、45TB 训练数据,每天生成 45 亿字内容。要支撑其算力,至少需要数万块NVIDIA GPU A100,单个模型训练的成本超过1200万美元。

此外,2024年多模态大模型将如众神厮杀,视频、图片、语音等数据的训练将对计算能力提出更高的要求。

公开数据显示,OpenAI的Sora视频生成大模型训练和推理所需的算力分别是GPT-4的4.5倍和近400倍。中国银河证券研究所的一份报告也显示,Sora对算力的需求呈指数级增长。

因此,从2023年开始,除了各方势力囤积显卡资源之外,为了满足更多算力的需求,中国算力市场将迎来爆发式增长,尤其是智能计算中心。

赛迪顾问人工智能与大数据研究中心高级分析师白润轩此前表示:“从2023年开始,地方政府将加大对智能计算中心的投入,促进基础设施的发展。”

在市场和政策的双重影响下,我国智能计算中心在短短一两年内如雨后春笋般涌现。

其中有政府主导建设项目,也有阿里云、百度智能云、商汤科技等企业投资建设的智能计算中心。也有一些跨境公司看到了机遇,进入了这个赛道。 。

与此同时,也有图灵新智能计算、趋势科技、硅基移动等初创公司进入计算行业。

相关数据显示,截至2024年上半年,我国已建成或在建智能计算中心超过250个。 2024年上半年,智能计算中心招标相关事件791起,同比增长407.1%。

然而,智能计算中心的建设并不是简单的架桥铺路。首先,它需要高技术和专业精神。其次,建设与需求之间往往存在不匹配。三是持续规划不够。

在刘淼看来,智能计算中心实际上是中国独有的产品。某种程度上,它承担了部分支持地方产业发展的社会使命。然而,要么是纯粹的市场化行为带来了大问题,要么是12年24个月的建设期之后,“建成后就会闲置,因为不再被使用”。能够在两年内满足业界对算力的需求。”

从目前的情况来看,我国算力市场资源确实在部分领域处于闲置状态。 “当前中国算力市场存在问题的根源在于过于粗放。”刘淼说道。

但市场不能简单地用供需过剩或供需不足来表征。实际上是算力供给与需求的不匹配。即高质量算力的需求远远不够,而低质量算力的供应又找不到太多的市场需求。毕竟预训练大型模型的玩家往往需要万卡以上的算力资源池。

然而,中国算力市场初期一些智能计算中心的规模“可能只有几十到一两百台,对于目前基础模型的预训练来说远远不够,但设备选型匹配“预训练需求。”洪锐表示,从预训练的角度来看,算力确实稀缺,但因为达不到规模而无法使用的算力就变得闲置了。

2、大模型赛道差异化,算力需求悄然变化。

大模型市场发展变化太快。

本来,在大模型预训练阶段,业内玩家希望通过持续训练来提升大模型的效果。如果这一代失败了,他们将花费更多的计算能力和更多的资金来训练下一代大型模型。

“之前大模型赛道的发展逻辑是这样的,但到了2024年6月左右,业界可以明显感觉到大模型预训练已经到了投入产出的临界点,投入了大量的资源在预训练中,可能达不到预期的回报。”洪锐说道。

这背后的重要原因是“OpenAI技术演进的问题。GPT-3.5的能力非常震撼,GPT-4的能力有所提升。但是从2023年中期到2024年,整体基础模型能力不会升级。”到 2023 年,影响将集中在 CoT 和 Agent 双方。”王伟说道。

在基础模型能力升级放缓的同时,预训练的成本也非常高。

此前,01王创始人兼CEO李开复表示,一次预培训的费用约为三四百万美元。这对于大多数中小企业来说无疑是一笔高昂的成本投入。 “初创公司的生存之道是考虑如何用好每一美元,而不是烧掉更多的GPU。”

因此,随着大型模型的参数越来越大,越来越多的企业无法承担训练大型模型的成本,只能基于已经训练好的模型进行应用或微调。 “甚至可以说,当大模型参数达到一定程度时,大多数企业连微调的能力都没有。”洪锐说道。

据相关统计,2024年下半年,已通过注册的大型模型中,近50%将转向AI应用。

大型模型从预训练向推理应用的转变,无疑带来了算力市场需求的分化。洪锐认为:“大模型预训练的计算中心和算力需求,以及推理应用的算力需求,实际上是两个轨道。”

从大模型预训练的角度来看,所需的计算能力与模型参数和训练数据量成正比。算力集群规模总体要求为:百亿参数为100卡,千亿参数为千卡,千万参数为1万卡。 1亿个参数使用10,000张卡。

另外,大模型预训练的一个重要特点是不可中断。一旦中断,所有训练都需要从 CheckPoint 重新开始。

“去年以来,国内引进了大量智能计算设备,但平均故障率在10%到20%左右。如此高的故障率导致大型模型训练每三个小时就要中断一次。”刘淼说道:“一千个卡簇基本上每二十天就会断线一次。”

同时,为了支持人工智能走向Agent时代乃至未来通用人工智能,需要不断扩展算力集群,从kilo-ka集群走向10000ka集群甚至一个 100,000-ka 的集群。 “马斯克是一个伟大的人,在孟菲斯规划了一个10万卡集群,第一个19000卡项目从安装到点亮仅用了19天,其复杂程度远远高于现有项目。”刘淼说。

(马斯克此前宣布在X上推出10万卡孟菲斯超集群)

目前,为了满足训练更高参数的大型模型的需求,国内企业正在积极投资万卡算力池的建设。然而,“你会发现,算力供应商的客户其实都集中在前几名公司,他们会要求这些公司签署长期算力租赁协议,不管你是否真的需要算力。”刘说。钱静,中国电信大模型首席专家、大模型团队负责人。

不过,洪锐认为,“未来世界上真正能做预训练的玩家不会超过50个,而智能计算集群规模达到万卡、十万卡之后,有能力的人集群运维故障排除和性能调优的玩家会越来越少。”

现阶段,大量中小企业已从大型模型的预训练转向AI推理应用,而“大量的AI推理应用往往是短时间内的潮汐应用”。刘景谦说道。但部署在实际终端场景时,会需要大量服务器进行并行网络计算,推理成本会突然增加。

“原因是延迟比较高,一个大模型需要经过深度推理才能回答一个问题,这段时间大模型一直在进行计算,这也意味着这台机器的计算资源被垄断在内部。”如果扩展到几百秒,没有一台服务器,推理的成本就很难覆盖。”趋势镜科技CEO艾志远表示。

因此,与需要大规模算力的AI(大模型)训练场景相比,AI推理对算力性能的要求没有AI训练那么严格,主要是满足低功耗和实时处理的需求。 “训练集中在电力高地,而推理则必须贴近用户。”华为副总裁、ISP与互联网系统部总裁岳坤表示,推理算力的延迟应该在5-10毫秒范围内,需要高冗余设计。 ,实现“两地三中心”建设。

以中国电信为例,已在北京、上海、广州、宁夏等地建立了万卡资源池。为支持产业模式发展,还在浙江、江苏等七地建立了千卡资源池。同时,为保证AI推理应用在10毫秒圈内的低时延,中国电信还在多个地区建设边缘端推理算力,逐步形成全国“2+3+7”算力布局。

2024年被称为AI应用元年,但事实上,AI推理应用市场并没有像预期那样爆发。主要原因是“目前行业内还没有可以在企业大规模铺开的应用。毕竟大模型本身的技术能力还存在缺陷,基础模型还不够强大,而且存在诸如幻觉和随机性等问题。”洪锐说道。

由于人工智能应用普遍尚未爆发,推理计算能力的增长也陷入停滞。不过,不少从业者仍持乐观态度——他们判断智能算力仍将出现“长期短缺”。随着AI应用的逐步渗透,推理算力需求的增长是必然趋势。

一位芯片公司人士告诉Lightcone Intelligence,AI推理其实就是不断尝试追求最佳方案。 Agent(代理)比普通LLM(大语言模型)消耗更多的代币,因为它不断地尝试寻找最佳解决方案。观察、计划、执行,“o1是模型内部的尝试,Agent是模型外部的尝试”。

因此,“预计明年AI推理算力会有大量需求”。刘景干表示,“我们还建立了大量的轻量级智能计算集群解决方案和整个边端推理解决方案。”

王伟还表示:“如果算力池的卡数量不多,就很难租用集群算力进行预训练。推理市场所需的训练卡数量并不大,整个市场仍在稳步增长,中小企业互联网公司的需求持续增加。”

但现阶段,训练算力仍然占据主流。 IDC与浪潮信息联合发布的《2023-2024年中国人工智能算力发展评估报告》显示,2023年国内AI服务器工作负载中训练:推理的比例约为6:4。

2024年8月,NVIDIA管理层在2024年第二季度财报电话会议上表示,过去四个季度推理计算能力约占NVIDIA数据中心收入的40%。未来,推理算力的收入将会不断增加。 12月25日,Nvidia宣布推出GB300和B300两款GPU,以满足大型推理模型的性能需求。

无疑,大型模型从预训练向推理应用的转变导致了算力市场需求的分化。从整个算力市场来看,目前智能计算中心还处于发展初期,基础设施建设还不完善。因此,大型预训玩家或者大型企业会更倾向于自己囤积显卡。对于AI推理应用赛道,智能计算中心提供设备租赁时,大多数中小客户会更倾向于零售租赁,更注重性价比。

未来,随着AI应用渗透率不断提高,推理算力的消耗将持续增加。据IDC预测,2027年推理算力将占据智能算力市场的70%以上。

如何通过提高计算效率来降低推理部署成本,成为AI推理应用算力市场发展的关键。

3、如何在不盲目推卡的情况下提高算力利用率?

总体来看,自2021年“东数西算”建设正式启动以来,中国市场并不缺乏底层算力资源。即使随着大模型技术的发展和算力需求的增加,算力市场也进行了大量的基础设施采购。这种热潮还将持续一两年。

但这些底层算力资源有一个共同点,那就是分布各处,算力规模较小。刘景干表示:“每个地方可能只有100、200台左右的算力,远远不能满足大型模型的算力需求。”

另外,更重要的是,目前算力的计算效率并不高。

消息显示,即便是OpenAI在GPT-4训练时的算力利用率也只有32%-36%,对于大模型训练的算力有效利用率还不到50%。 “我国算力利用率只有30%。”中国工程院院士邬贺铨坦言。

原因是在大模型的训练周期中,GPU卡无法随时实现高资源利用率。在训练任务相对较小的某些阶段,资源会处于闲置状态。在模型部署阶段,由于业务波动和需求预测不准确,很多服务器经常处于待机或低负载状态。

“云计算时代CPU服务器整体发展已经非常成熟,通用计算的云服务可用性要求是99.5%~99.9%,但大规模GPU集群很难实现。”洪锐说道。

这背后是GPU整体硬件发展以及整个软件生态的不足。软件定义硬件正逐渐成为智能算力时代发展的关键。

因此,在智能算力赛场上,围绕智能算力基础设施建设,整合社会闲置算力资源,通过软件算法等方式提高算力计算效率,各玩家凭借各自的核心优势入局,展开角逐。为了领土。 。

这些玩家大致可以分为三类:

一类是大型国有央企,比如中国电信,基于央企的身份,能够更好地满足国企、央企的算力需求。

一方面,中国电信建设了自己的1000KA、10000KA、100000KA的算力资源池。另一方面,中国电信还通过信浪·智能计算综合平台积极整合社会闲置算力资源,可以实现跨服务商、跨地区、跨架构的统一管理、统一调度,提升整体算力资源。利用。

“我们首先打造的是国有央企智能计算调度平台。通过将社会上400多种不同的闲置计算资源整合到同一个平台上,然后连接国有央企的算力需求,我们可以解决算力供需不平衡的问题。”刘景谦说道。

第一类是基于互联网公司的云厂商,包括阿里云、百度智能云、火山引擎等,这些云厂商在底层基础设施架构上正在积极从CPU云向GPU云转型,并形成了云加GPU的格局。以云为核心。全栈技术能力。

“未来十年,计算范式将从云原生走向AI云原生新时代。”火山引擎总裁谭戴此前表示,AI云原生将以GPU为核心,重新优化计算、存储和网络架构。 GPU可以直接访问存储和数据库,显着降低IO延迟。

从底层基础设施的角度来看,智能计算中心的建设往往不是基于单一品牌的GPU显卡。更有可能是NVIDIA+国产GPU显卡,甚至通过CPU、GPU、FPGA(可编程芯片)、ASIC(针对特定场景设计的芯片)等异构计算单元协同工作,满足不同场景的计算需求,最大化计算效率。

因此,云厂商也对“多核混训”能力进行了重点升级。例如,今年9月,百度智能云全面升级百格AI异构计算平台至4.0版本,在万卡规模集群上实现了95%的多核混合训练性能。

在底层基础设施之上,影响大模型训练和推理应用部署的除了GPU显卡性能外,还与网络、存储产品、数据库等软件工具链平台密切相关。处理速度的提升往往需要多个产品共同加速完成。

当然,除了各大云厂商之外,还有一批中小型云厂商以各自差异化的视角进入算力行业,比如云轴科技,它基于云计算来调度和管理算力资源。关于平台能力。

王伟坦言,“GPU之前只是业务系统架构中的一个配件,后来逐渐成为一个单独的品类。”

今年8月,云轴科技发布了新一代AI基础设施ZStack AIOS平台智能塔。该平台主要聚焦AI企业级应用,从“算力调度、AI大模型训练推广、AI应用服务开发”三个方向帮助企业客户部署新的大模型应用。

“我们会通过平台来统计算力的具体使用情况,并对算力进行运维。同时,在GPU显卡受限的场景下,如果我们想提高算力的利用率,我们也会为客户划分算力。”王伟说道。

另外,在运营商场景中,算力的资源池有很多。 “我们也会配合客户,帮助他们进行资源池的运营、计算、统一运营和管理。”王伟表示。

另一类玩家是基于算法提升计算效率的初创公司,如图灵新智、趋势镜科技、硅基流等,这些新玩家的综合实力远弱于各大云厂商,但他们通过单点技术的突破,逐渐在行业中占据一席之地。

“一开始我们是智能计算集群制造服务商,连接阶段我们成为算力运营服务商,未来我们将成为智能数据和应用服务商。这三个角色不断演化”。刘淼表示,“所以我们的定位是新一代算力运营服务商。”

未来,图灵新智能计算希望打造一个整合闲置算力资源,可以调度、租用和服务算力的独立平台。 “我们搭建一个资源平台,将闲置算力连接到平台上,类似于早期的淘宝平台。”刘淼表示,闲置算力主要接入区域智能计算中心。

相比之下,趋势科技、Silicon Mobile等公司更专注于AI推理应用市场,更加注重算法能力,以提高算力的效率,降低大型模型推理应用的成本。然而,每个家庭计划的切入点并不相同。

例如,为了解决大模型的不可能三角以及效果、效率和成本之间的平衡,趋势晶科技针对AI推理应用提出了全系统异构协同推理和RAG(搜索增强)场景,以“存款转换”作为以释放存储能力作为计算能力补充的方式,两项创新技术策略将推理成本降低10倍,响应延迟降低20倍。

面对未来,除了继续优化连接基础计算资源和高层应用程序的中间AI Infra层,“我们希望模型是我们建造一个架子,并且每个人都开发了这些应用程序, 。

不难看到潮流技术不仅希望成为算法优化解决方案提供商,而且还希望成为AI大型模型降落应用程序服务提供商。

此外,在当前用于大型计算能力的行业优化解决方案中,通常对改善GPU利用率有优先级。 Ai Zhiyuan说,在此阶段,GPU的利用率已达到50%以上,并且很难提高GPU的利用率。

“ GPU利用率仍然有很大的改进空间,但这非常困难。它涉及芯片,视频记忆,纸牌间互连,多机器通信和软件调度等技术。这不能由一家公司解决或一项技术,但要求整个产业链的上游和下游将共同推广它。”

洪瑞认为,该行业目前缺乏在技术操作和维护超大级智能计算集群网络的能力,并且软件层尚未成熟。 “计算能力就在这里,但是如果软件优化做得不好,或者推断引擎和负载平衡不能做得不好,这也会对计算性能产生巨大影响。 ”

看看这三种主要类型的参与者,无论他们是中国电信,云供应商还是新玩家等运营商,他们都有不同的方式来进入计算机电源市场,但他们都希望能在这个全球计算机电源市场中竞争。获得盛宴。

实际上,与此阶段的大型模型服务相比,这确实是一项更确定的业务。

4。计算能力租赁,精制和专业运营服务的均质化是国王

就赚钱的稳定而言,黄金挖掘机很难与水卖家进行比较。

AI大型模型已经疯狂了两年,但是在整个产业链中,只有由NVIDIA领导的计算电力服务提供商才真正赚钱,在收入和股票市场方面既有名望和财富。

在2024年,计算能力的股息将逐渐从NVIDIA延伸到一般计算功率轨道。服务器制造商,云制造商,甚至转售和租用各种卡的玩家也将获得某些利润收益。当然,利润比NVIDIA小得多。

“总的来说,我们不会在2024年亏钱,但我们也不会赚很多钱。” Wang Wei坦率地说:“ AI(应用程序)在此阶段尚未开始。与AI相关的最大音量是计算功率层,计算功率应用收入相对较好。”

关于2025年的发展期望,王魏也直言不讳地说,他尚未做出完整的预测。 “明年真的很难说,但是从长远来看,AI应用程序将在未来三年内取得巨大的进步。”

但是,从各个地方的智能计算中心的发展来看,它们很少能够获得收入。基本目标是支付运营成本。

根据Zhibol Technology的首席执行官Yue Yuanhang的说法,经过计算,发现即使智能计算中心的设备租赁率提高到60%,也至少需要七年才能收回成本。

目前,智能计算中心主要提供计算能力租赁作为其主要收入方法,但“设备租赁非常均匀。真正缺少的是端到端的服务能力。”洪鲁告诉LightCone Intelligence。

所谓的端到端服务能力意味着,除了硬件外,智能计算中心还必须能够支持从大型应用程序开发到迭代升级大型模型的企业,以及随后的全栈服务大型模型部署。目前,相对较少的制造商可以真正实施这种端到端服务。

但是,从总体数据来看,中国智能计算服务市场的发展前景越来越乐观。根据IDC发布的最新报告“中国智能计算服务市场(2024年上半年)跟踪”,在2024年上半年,中国的整体智能计算服务市场同比增长79.6%,市场规模增长了79.6%达到146.1亿元人民币。 “智能计算服务市场的增长速度远远超出了预期。从智能计算服务的增长趋势来看,智能计算服务市场将在未来五年内继续以高速增长。” IDC中国企业研究部Express研究经理Yang Yang。

Hong Rui还说,在经历了智能计算1.0的时代之后,卡卡资源疯狂地ho积了,以及智能计算2.0的时代,随着智能计算中心的广泛扩展和供求的不平衡,智能计算时代的最终游戏3.0必须使用专业和精致操作进行计算。力量服务。

毕竟,当将预训练和推理分为两条轨道时,AI推理应用程序市场将逐渐发展,技术堆栈将逐渐成熟,服务能力将逐渐提高,并且该市场将进一步整合零散的闲置计算资源,以使其整合到零散的闲置计算资源到实现计算功率利用率。最大化费率。

但是,中国的计算电力市场仍面临巨大的挑战。虽然缺乏高端GPU芯片,但“国内GPU市场现在太分散了,每个GPU都有一个独立的生态系统,整体生态系统被分散了。” Wang Wei说,这也导致了整个国内GPU生态系统的适应。分销成本很高。

但是,正如刘miao所说,智能计算的20年长周期刚刚开始,现在可能只是第一年。意识到AGI的道路也充满了不确定性,这无疑对许多球员带来了更多的机会和挑战。

 
举报 收藏 打赏 评论 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行