NVIDIA垄断下的CUDA生态 · ASIC定制浪潮 · GPU vs ASIC技术路线对比
GPU(图形处理器)的大规模并行计算架构天然适合AI工作负载(矩阵乘法、卷积运算)。NVIDIA H100/H200使用Hopper架构,B200使用Blackwell架构(双芯片设计,2080亿晶体管,192GB HBM3e,8TB/s带宽)。
CUDA生态是NVIDIA的核心护城河:全球500万+开发者使用CUDA,NVIDIA官方预计未来可达5000万开发者。AMD ROCm生态远落后,Intel oneAPI几乎无人用。
GB200 NVL72是NVIDIA推荐的旗舰AI服务器配置:包含72颗B200 + 36颗Grace CPU + 72个NVLink Switch,FP8算力720 PFLOPS,单rack功耗约120kW,必须液冷。
AMD MI300X(192GB HBM3e,FP8约7 PFLOPS)提供差异化性价比,推理市场接受度提升。Intel Gaudi3定位对标H100性价比替代,但软件生态远弱于CUDA,实际市占极低。
| 型号 | 架构 | 晶体管 | 内存 | 带宽 | FP8算力 | NVLink | TDP | 制程 | 供应状态 |
|---|---|---|---|---|---|---|---|---|---|
| H100 SXM | Hopper | 80B | 80GB HBM3 | 3.35 TB/s | 4.7 PF | 900 GB/s | 700W | TSMC 4N | 成熟供应 |
| H200 SXM | Hopper | 80B | 141GB HBM3e | 4.8 TB/s | 4.7 PF | 900 GB/s | 700W | TSMC 4N | 量产出货 |
| B200 SXM | Blackwell | 208B | 192GB HBM3e | 8 TB/s | 9 PF | 1.8 TB/s | 1000W | TSMC 4NP | 限量2025 |
| GB200 NVL72 | Blackwell | — | 13.4TB HBM3e/机架 | 576 TB/s | 720 PF | 130 TB/s | ~120kW/机架 | TSMC | 2025末起量 |
| AMD MI300X | CDNA 3 | 153B | 192GB HBM3e | 5.3 TB/s | ~7 PF | — | 700W | TSMC | 已出货 |
ASIC(专用集成电路)针对特定AI任务定制优化,单位算力成本和功耗低于通用GPU。Google TPU(自研至TPU v5pex)用于搜索排名、翻译等大规模推理;Amazon Trainium/Triton服务于AWS客户;Microsoft MT雅典娜自研芯片。
Broadcom是最大AI ASIC代工方:为Google定制Titanium系列TPU芯片、为Meta定制AI ASIC。FY2024 AI相关收入超过$40B,AI ASIC业务已超过传统网络芯片。Marvell通过$5.5B收购Celestial AI(2025年12月完成)押注光学互联将成为AI加速器标准配置。
Cerebras专注超大模型训练,Wafer Scale Engine在单个晶圆级芯片上集成85.9万个AI核心,内存带宽20PB/s,专为GPT-4级别超大模型设计。Groq专注推理,Tensor Streaming Processor(LPU架构)提供超低延迟推理。
| 芯片类型 | 代表企业 | 架构特点 | 主要用途 | 生态壁垒 | HBM支持 | 竞争优势 |
|---|---|---|---|---|---|---|
| NVIDIA GPU | NVDA | 通用并行计算GPU | AI训练+推理 | CUDA垄断 | HBM3e 192GB | 生态+性能双重护城河 |
| AMD GPU | AMD | 通用并行计算GPU | AI推理为主 | ROCm弱 | HBM3e 192GB | 性价比差异化 |
| Intel Gaudi | INTC | 异构计算GPU | AI推理 | oneAPI弱 | HBM3e 128GB | Xeon CPU协同 |
| Google TPU | GOOGL | 定制ASICASIC | 推理+训练 | TPU生态封闭 | HBM3e 256GB | Google内部生态 |
| Amazon Trainium | AMZN | 定制ASICASIC | 推理+训练 | Neuron弱 | HBM | AWS成本优势 |
| Broadcom AI ASIC | AVGO | 大厂定制ASICASIC | 推理为主 | 封闭 | 定制HBM | 大客户定制优化 |
| Cerebras WSE | CEREBRAS | 晶圆级ASIC专用 | 超大模型训练 | 封闭 | 晶圆级带宽 | 超大模型训练唯一方案 |
| Groq LPU | GROQ | 推理专用ASIC专用 | 超低延迟推理 | 封闭 | SRAM(无HBM) | 推理延迟极低 |
1. NVIDIA短期垄断难撼动:CUDA生态+CoWoS产能+品牌优势构成三重护城河,AI算力需求爆发直接受益。数据中心业务FY2025 Q4收入$35.6B,持续超预期。
2. AMD MI300X差异化空间:在推理市场有成本优势,ROCm生态逐步改善,但软件生态差距短期难以弥合。
3. 定制ASIC浪潮加速:Broadcom AI ASIC收入超$40B,Marvell通过Celestial AI收购强化光学互联,ASIC代工模式是长期趋势。
4. Cerebras/Groq细分市场:超大模型训练(GPT-5+)和超低延迟推理各有差异化空间,但规模较小。
1. 产能瓶颈:CoWoS封装和HBM内存是所有AI芯片扩张的共同瓶颈,TSMC产能扩张速度决定出货量天花板。
2. 技术路线风险:ASIC在推理市场渗透率提升,但训练市场仍以NVIDIA为主;3nm→2nm→1.6nm制程演进带来不确定性。
3. 地缘政治:美国对华芯片出口限制持续,影响NVIDIA高端GPU在中国市场的销售,同时推动中国自研芯片加速。
4. 估值风险:NVDA市值~$5T+,对应FY2026预期PE约30-40倍,估值较高。
从 Pre-training 转向 Test-Time Compute:传统 LLM 性能提升依赖于训练阶段(堆叠万卡 GPU 进行预训练)。而推理模型通过强化学习(RL)和思维链(CoT),在推理时进行多轮思考,使得推理阶段消耗的算力呈指数级增长。
对芯片需求的改变:推理侧算力的爆发对芯片提出了不同于训练的硬性要求:
① 极高的显存带宽与容量:推理模型由于多轮思考需要常驻海量上下文,对 HBM3e/HBM4 显存容量及带宽是绝对刚需。
② ASIC 优势放大:在长序列、大批次的推理场景下,定制 ASIC(如 Google TPU、博通代工的自研 ASIC)拥有远低于通用 GPU 的运行能耗与 Token 成本,将加速其在推理端的替代率。
1. 推理芯片放量:大模型应用落地(如 AI Agent)爆发导致推理 Token 需求呈指数增长,定制 ASIC 设计与代工大厂(Broadcom AVGO、Marvell MRVL)是直接受益方向。
2. 显存池化与高速互联:推理集群的扩展更需要高带宽的芯片间通信(NVLink、以太网 UEC),对光模块(1.6T)和先进封装(CoWoS/玻璃基板)的依赖不降反升。
3. 算力结构分化:英伟达在训练侧的绝对垄断在推理侧面临更多定制化 ASIC 的分流,但英伟达借由 TensorRT-LLM 软件栈和液冷整机柜(GB200)依然保持了强大的商业闭环能力。