
发布日期:2024-12-28 01:02 点击次数:173
新智元报谈村上里沙作品及图片
裁剪:裁剪部 HYZ
【新智元导读】的圣诞大礼包曝光,最强B300、GB300算力和显存平直提高50%,模子推理闇练性能史诗级擢升,同期还破损了利润率下跌的魔咒。
多亏了老黄,圣诞节按期而至。
尽管Blackwell GPU屡次因硅片、封装和底板问题而推迟发布,但这并不成抵抗他们前进的脚步。
距离GB200和B200的发布才刚刚以前几个月,英伟达便推出了全新一代的AI GPU——GB300和B300。
更为真谛的是,此次看似闲居的更新背后,实则内含奥秘。其中最为杰出的,等于模子的推理和闇练性能得到了大幅增强。
而跟着B300的推出,通盘供应链正在进行重组和转型,赢家将从中获益(赢得礼物),而输家则处境不妙(收到煤炭)。
这恰是英伟达送给悉数超大范围云揣测供应商、特定供应链合营伙伴、内存供应商以及投资者的相等「圣诞礼物」
不外就在上周,天风外洋分析师郭明錤却在研报中曝出,B300/GB300的DrMOS存在严重的过热问题!
而这,很可能会影响B300/GB300的量产历程。
具体分析如下——
这依然不是Blackwell第一次被曝出存在遐想问题了
B300和GB300:毫不仅是一次小升级
把柄SemiAnalysis的最新爆料,B300 GPU对揣测芯片的遐想进行了优化,并继承了全新的TSMC 4NP工艺节点进行流片。
比较于B200,其性能的擢升主要在以下两个方面:
1. 算力
FLOPS性能擢升50%
功耗加多200W(GB300和B300 HGX的TDP差别达到1.4KW和1.2KW;前代则为1.2KW和1KW)
架构矫正和系统级增强,举例CPU和GPU之间的动态功率分拨(power sloshing)
2. 内存
HBM容量加多50%,从192GB擢升至288GB
堆叠有策动从8层HBM3E升级为12层
针脚速率保合手不变,带宽仍为8TB/s
中国人体艺术专为「推理模子」优化
序列长度的加多,导致KV Cache也随之扩大,从而适度了要津批处理大小和蔓延。
因此,显存的矫正关于OpenAI o3这类大模子的闇练和推理至关蹙迫。
下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效率擢升,这与OpenAI的o1和o3模子中的想维链(CoT)模式通常。
H100和H200的Roofline模拟,通过FP8精度的Llama 405B模子完成
H100到H200的升级,主要在于更大、更快的显存:
更高的带宽使交互性能广泛擢升了43%(H200为4.8TB/s,而H100为3.35TB/s)
更大的批处理范围,使每秒token生成量擢升了3倍,进而使资本也镌汰了约3倍
而对运营商而言,这H100和H200之间的性能与经济相反,远远越过技能参数的数字那么浅陋。
最初,此前的推理模子往往因恳求响适时间长而影响体验,而目下有了更快的推理速率后,用户的使宅心愿和付费倾向王人将显耀提高。
其次,资本镌汰3倍的效益,然而极为可不雅的。仅通过中期显存升级,硬件就能终了3倍性能擢升,这种突破性发扬远远越过了摩尔定律、黄氏定律或任何已知的硬件越过速率。
终末,性能最顶尖、具有显耀相反化上风的模子,能因此赢得更高溢价。
SOTA模子的毛利率依然越过70%,而面对开源竞争的次级模子利润率仅有20%以下。推理模子可突破单一想维链适度,通过推广搜索功能擢升性能(如o1 Pro和o3),从而使模子更智能地措置问题,提高GPU收益。
天然,英伟达并非唯独能提供大容量显存的厂商。
ASIC和AMD王人具备这么的智力。而AMD更是凭借更大的显存容量(MI300X:192GB、MI325X:256GB、MI350X:288GB)占据了上风地位。
不外,老黄手里还有一张「十足王牌」——NVLink。
NVL72在推理范围的中枢上风在于,它能让72个GPU以超低蔓延协同责任、分享显存。
而这亦然宇宙唯独具备全继续交换(all-to-all switched connectivity)和全规约运算(all reduce)智力的加快器系统。
英伟达的GB200 NVL72和GB300 NVL72,对以下这些要津智力的终了极其蹙迫——
更高交互性,终了更低想维链蔓延
72个GPU散布KV Cache,维持更长想维链,擢升智能水平
比较传统8 GPU干事器,具备更优批处理推广性
维持更各种本并行搜索,擢升准确性和模子性能
总体而言,NVL72不错在经济效益上终了10倍以上擢升,尤其是在长推理链场景中。
何况,NVL72如故目下唯独能在高批处理下,将推理长度推广至10万以上token的措置有策动。
供应链重构
此前GB200时间,英伟达提供齐备的Bianca主板(包含Blackwell GPU、Grace CPU、512GB LPDDR5X内存以及集成在合并PCB上的电压调遣模块VRM),同期还提供交换机托盘和铜质背板。
但跟着GB300的推出,供应链的结构和居品本体,将发生首要调理。
在新有策动GB300中行,英伟达只提供三个中枢组件的供应:
搭载在「SXM Puck」模块上的B300
BGA封装的Grace CPU
由好意思国初创企业Axiado提供的基板照拂抵制器(HMC),取代了原有的Aspeed有策动
末端客户将需要平直采购揣测板上的其他组件。同期,第二级内存有策动,从焊合式LPDDR5X改为可更换的LPCAMM模块,主要由好意思光供应。交换机托盘和铜质背板仍由英伟达全权精采。
比较此前仅有纬创和富士康工业互联网(FII)大概制造Bianca揣测板的地点,SXM Puck有策动破损了原有的阛阓形态。
它的继承为更多OEM和ODM厂商参与揣测托盘制造创造了契机:
纬创在ODM范围受影响最大,Bianca主板份额显耀下跌
富士康工业互联网通过独家坐褥SXM Puck过火插座,对消了Bianca主板业务的亏本
英伟达正在寻求Puck和插座的其他供应商,但目下尚未细目新订单
其次,是VRM供应链。
尽管SXM Puck上仍保留部分VRM组件,但主要的板载VRM将由超大范围数据中心运营商和OEM平直从供应商采购:
Monolithic Power Systems的阛阓份额将因买卖模式出动而下跌
阛阓形态重塑为新供应商创造了更多的契机
第三,英伟达在互联技能也取得了突破。
GB300平台搭载了800G ConnectX-8收集接口卡,可在InfiniBand和以太网上提供双倍的推广带宽。
相较于上一代ConnectX-7,ConnectX-8具有多项显耀上风:
带宽擢升100%
PCIe通谈数从32增至48,维持空冷MGX B300A等革命性架构遐想
原生维持SpectrumX,无需借助效果较低的Bluefield 3 DPU(此前400G居品的有策动)
对超算中心的影响
在2024年第三季度,受GB200和GB300发布蔓延影响,无数订单转向了英伟达价钱更高的新一代GPU。
物化上周,悉数超算中心均已决定继承GB300有策动。这一决策基于两个要素:
GB300提供更高的FLOPS算力和更大的显存容量
客户领有更多系统定制自主权
此前,由于上市时间压力以及机架、散热和供电密度的首要调理,超算中心此前难以对GB200干事器进行深度定制。
这迫使Meta完全烧毁了同期向博通和英伟达采购收集接口卡的野心,转而完全依赖英伟达。雷同地,谷歌也烧毁了自研收集接口卡有策动,转而继承英伟达的措置有策动。
关于那些一向精于优化从处理器到收集栽植,以至到螺丝和钣金等各个活动资本的超算中心数千东谈主研发团队来说,为其带去了极大的困扰。
另外,亚马逊的案例最具代表性。他们遴荐了一个次优树立,导致总领有资本(TCO)越过了参考遐想。
由于使用PCIe交换机和需要风冷的低效200G弹性收集适配器,亚马逊无法像Meta、谷歌、微软、甲骨文、xAI和Coreweave那样部署NVL72机架。
受限于其里面网卡有策动,亚马逊被动继承NVL36架构,却因更高的背板和交换机资本推高了每个GPU的开销。
总体而言,因定制化受限,导致亚马逊的树立有策动并不睬想。
GB300的推出,为超算中提供了更大自主权,比如不错自主定制主板、散热系统等。
这使得亚马逊大概设备我方的定制主板,将此前需要风冷的组件(如Astera Labs PCIe交换机)整合进水冷系统。
跟着更多组件继承水冷遐想,加上K2V6 400G网卡将在2025年第三季度终了范围化量产,亚马逊有望重返NVL72架构,显耀擢升TCO效果。
关系词这也带来了一个显耀挑战:超算中心需要插足更多资源进行遐想、考证和说明责任。
这无疑是超算中心面对的最复杂系统遐想样式(除谷歌TPU外)。部分超算中心大概快速完成遐想,但遐想团队较慢的机构则彰着过时。
尽管阛阓神话有公司取消订单,但SemiAnalysis不雅察到由于遐想历程较慢,微软可能是最晚部署GB300的机构之一,他们在第四季度仍在采购GB200。
跟着部分组件从英伟达转动到原始遐想制造商(ODM),客户的总采购资本出现较大相反。
这不仅影响了ODM的收入,更蹙迫的是导致英伟达全年的毛利率产生波动。底下将更翔实分析这些变动对英伟达利润产生的影响。
值得一提的是,三星在异日至少9个月内,王人无法进入GB200或GB300的供应链。
对英伟达利润的影响
怀着「圣诞精神」的英伟达,在新的订价计谋上也颇有看点——这将平直影响Blackwell系列的利润。
跟着显存有策动从SK海力士和好意思光的8层HBM3E堆栈升级至12层HBM3E堆栈,显存容量赢得了显耀擢升。
这一升级,平直导致英伟达芯片级物料清单(BOM)资本加多约2,500好意思元。
资本的加多主要来自——
更高的容量
堆栈层数加多带来的每GB显存溢价
封装良率下跌带来的稀零资本
第三点也反馈出高带宽显存(HBM)在物料资本中的主导地位(跟着推理模子对显存容量和带宽需求加多,这一趋势将合手续加强)。
总体而言,GB300的平均售价较GB200提高约4,000好意思元,其中HBM资本加多约2,500好意思元,而增量利润率不及40%,而GB200全体的利润率防守在70%的中低水平。
关系词,由于前述本体变化,英伟达减少了全体供应本体,转由超算中心自行采购,由此,英伟达终显着资本均衡。
最初,英伟达不再提供每个Grace CPU配套的512GB LPDDR5X内存,这对消了大部分稀零的HBM资本开销。
其次,PCB的资本检朴最为显耀。
概括各项要素,在平均销售价钱擢升4,000好意思元的同期,英伟达的物料资本仅加多略超1,000好意思元。
GB300相干于GB200的增量毛利率达到73%,这意味着在良率保合手安稳的情况下,该居品的利润水平基本合手平。
这一结束诚然看似平庸,但值得翔实的是,HBM升级周期时常会导致利润率下跌(举例H200、MI325X的情况),而此次这一成例被破损了。
此外,跟着各项工程技能问题的慢慢措置,良率将会擢升,在渡过Blackwell初期的产能爬升期后,利润率预测会在年内慢慢改善。
参考云尔:
https://semianalysis.com/2024/12/25/nvidias-christmas-present-gb300-b300-reasoning-inference-amazon-memory-supply-chain/#hyperscaler-impacts-with-gb300