CH05 · AI Chips

AI芯片格局
GPU/ASIC/CPU全解析

NVIDIA垄断下的CUDA生态 · ASIC定制浪潮 · GPU vs ASIC技术路线对比

~$5T+NVIDIA市值
>80%AI GPU市占
5M+CUDA开发者
2080亿B200晶体管
720 PFLOPSGB200 NVL72算力
01

AI芯片供应链传导路径

从芯片设计到AI服务器
🏛️
芯片设计
NVIDIA/AMD/Broadcom
⚙️
晶圆制造
TSMC N3/N4/N5制程
🔬
CoWoS封装
TSMC先进封装
💾
HBM内存
SK hynix/Samsung
🖥️
GPU模组
SXM/PCIe模组
🗄️
AI服务器
NVL72/ODM组装
02

GPU加速器 — AI训练与推理的核心算力

NVIDIA主导 · AMD差异化竞争 · Intel追赶
🎮
GPU加速器 — NVIDIA / AMD / Intel
GPU凭借大规模并行计算架构成为AI训练和推理的主流硬件,NVIDIA凭借CUDA生态占据绝对垄断地位。
AI芯片

板块概念解析

GPU(图形处理器)的大规模并行计算架构天然适合AI工作负载(矩阵乘法、卷积运算)。NVIDIA H100/H200使用Hopper架构,B200使用Blackwell架构(双芯片设计,2080亿晶体管,192GB HBM3e,8TB/s带宽)。

CUDA生态是NVIDIA的核心护城河:全球500万+开发者使用CUDA,NVIDIA官方预计未来可达5000万开发者。AMD ROCm生态远落后,Intel oneAPI几乎无人用。

GB200 NVL72是NVIDIA推荐的旗舰AI服务器配置:包含72颗B200 + 36颗Grace CPU + 72个NVLink Switch,FP8算力720 PFLOPS,单rack功耗约120kW,必须液冷。

AMD MI300X(192GB HBM3e,FP8约7 PFLOPS)提供差异化性价比,推理市场接受度提升。Intel Gaudi3定位对标H100性价比替代,但软件生态远弱于CUDA,实际市占极低。

Blackwell架构为双芯片封装,通过NVLink-C2C实现芯片间900GB/s互联;AMD MI300X为APU设计(CPU+GPU集成)

关键数据

NVIDIA AI GPU市占
>80%
B200 HBM3e带宽
8 TB/s
GB200 NVL72 FP8算力
720 PFLOPS
B200 TDP
1000W/颗
NVIDIA Q4 FY2025数据中心
$35.6B
CUDA开发者
5M+

投资标的

NVDA NVIDIA 美股 垄断+CUDA生态
AMD AMD 美股 MI300X差异化
INTC Intel 美股 Gaudi3追赶中
风险提示
CUDA生态壁垒使竞争者软件支持严重落后,市场短期难以撼动
中国出口限制影响部分高端GPU市场
定制ASIC分流需求(长期影响)
CoWoS/HBM瓶颈制约NVIDIA GPU出货量
02.5

AI芯片核心参数对比

Report 整合补充 · 来源:NVIDIA官方 · Jarvis Labs · 各公司官网 (2025)
型号架构晶体管内存带宽 FP8算力NVLinkTDP制程供应状态
H100 SXMHopper80B80GB HBM33.35 TB/s 4.7 PF900 GB/s700WTSMC 4N成熟供应
H200 SXMHopper80B141GB HBM3e4.8 TB/s 4.7 PF900 GB/s700WTSMC 4N量产出货
B200 SXMBlackwell208B192GB HBM3e 8 TB/s 9 PF1.8 TB/s 1000WTSMC 4NP限量2025
GB200 NVL72Blackwell13.4TB HBM3e/机架 576 TB/s 720 PF 130 TB/s~120kW/机架TSMC 2025末起量
AMD MI300XCDNA 3153B192GB HBM3e5.3 TB/s ~7 PF700WTSMC已出货
关键洞察:HBM容量从H100的80GB到GB200 NVL72的13.4TB/机架,约6年增长约168倍。内存带宽从3.35 TB/s到8 TB/s(B200),NVLink从900 GB/s到1.8 TB/s——互联带宽的扩张速度是本轮AI基础设施最重要的技术趋势之一。
03

ASIC定制芯片 — 大厂自研与专业化趋势

Broadcom/Marvell/Cerebras · 定制化能效优势
🔧
ASIC定制AI芯片 — Broadcom / Marvell / Cerebras / Groq
ASIC针对特定AI任务定制优化,单位算力成本和功耗低于通用GPU,是大厂降本的核心路径。
AI芯片

板块概念解析

ASIC(专用集成电路)针对特定AI任务定制优化,单位算力成本和功耗低于通用GPU。Google TPU(自研至TPU v5pex)用于搜索排名、翻译等大规模推理;Amazon Trainium/Triton服务于AWS客户;Microsoft MT雅典娜自研芯片。

Broadcom是最大AI ASIC代工方:为Google定制Titanium系列TPU芯片、为Meta定制AI ASIC。FY2024 AI相关收入超过$40B,AI ASIC业务已超过传统网络芯片。Marvell通过$5.5B收购Celestial AI(2025年12月完成)押注光学互联将成为AI加速器标准配置。

Cerebras专注超大模型训练,Wafer Scale Engine在单个晶圆级芯片上集成85.9万个AI核心,内存带宽20PB/s,专为GPT-4级别超大模型设计。Groq专注推理,Tensor Streaming Processor(LPU架构)提供超低延迟推理。

ASIC开发周期18-36个月,前期投入巨大;Celestial AI收购强化Marvell光学互联能力

关键数据

Broadcom AI ASIC定位
大厂定制
Marvell/Celestial AI收购
$5.5B
Google TPU v5训练性能
vs H100 ~1.7x
Cerebras WSE核心数
85.9万个
ASIC开发周期
18-36个月

投资标的

AVGO Broadcom 美股 ASIC代工+网络
MRVL Marvell 美股 定制AI芯片+光学互联
GOOGL Alphabet/Google 美股 TPU自研
风险提示
ASIC开发周期长,前期投入巨大,需大客户支撑
CUDA生态壁垒使开发者难以迁移,应用生态不足
大厂自研可能减少对商业芯片依赖(长期影响NVIDIA)
Cerebras/Groq规模较小,盈利能力和持续性存疑
04

AI芯片格局全面对比

GPU vs ASIC · 生态 vs 定制 · 短期 vs 长期
芯片类型 代表企业 架构特点 主要用途 生态壁垒 HBM支持 竞争优势
NVIDIA GPU NVDA 通用并行计算GPU AI训练+推理 CUDA垄断 HBM3e 192GB 生态+性能双重护城河
AMD GPU AMD 通用并行计算GPU AI推理为主 ROCm弱 HBM3e 192GB 性价比差异化
Intel Gaudi INTC 异构计算GPU AI推理 oneAPI弱 HBM3e 128GB Xeon CPU协同
Google TPU GOOGL 定制ASICASIC 推理+训练 TPU生态封闭 HBM3e 256GB Google内部生态
Amazon Trainium AMZN 定制ASICASIC 推理+训练 Neuron弱 HBM AWS成本优势
Broadcom AI ASIC AVGO 大厂定制ASICASIC 推理为主 封闭 定制HBM 大客户定制优化
Cerebras WSE CEREBRAS 晶圆级ASIC专用 超大模型训练 封闭 晶圆级带宽 超大模型训练唯一方案
Groq LPU GROQ 推理专用ASIC专用 超低延迟推理 封闭 SRAM(无HBM) 推理延迟极低

投资逻辑总结

1. NVIDIA短期垄断难撼动:CUDA生态+CoWoS产能+品牌优势构成三重护城河,AI算力需求爆发直接受益。数据中心业务FY2025 Q4收入$35.6B,持续超预期。

2. AMD MI300X差异化空间:在推理市场有成本优势,ROCm生态逐步改善,但软件生态差距短期难以弥合。

3. 定制ASIC浪潮加速:Broadcom AI ASIC收入超$40B,Marvell通过Celestial AI收购强化光学互联,ASIC代工模式是长期趋势。

4. Cerebras/Groq细分市场:超大模型训练(GPT-5+)和超低延迟推理各有差异化空间,但规模较小。

关键风险

1. 产能瓶颈:CoWoS封装和HBM内存是所有AI芯片扩张的共同瓶颈,TSMC产能扩张速度决定出货量天花板。

2. 技术路线风险:ASIC在推理市场渗透率提升,但训练市场仍以NVIDIA为主;3nm→2nm→1.6nm制程演进带来不确定性。

3. 地缘政治:美国对华芯片出口限制持续,影响NVIDIA高端GPU在中国市场的销售,同时推动中国自研芯片加速。

4. 估值风险:NVDA市值~$5T+,对应FY2026预期PE约30-40倍,估值较高。

04.5

推理模型范式转移(Reasoning Models)对芯片格局的重塑

新趋势分析 · 2026年最新技术范式
🧠
推理时算力(Test-Time Compute)时代的芯片需求
以 OpenAI o1/o3 及 DeepSeek V3/R1 为代表的“思考型”模型将算力重心向推理端偏移。
前沿趋势

技术范式转移

从 Pre-training 转向 Test-Time Compute:传统 LLM 性能提升依赖于训练阶段(堆叠万卡 GPU 进行预训练)。而推理模型通过强化学习(RL)和思维链(CoT),在推理时进行多轮思考,使得推理阶段消耗的算力呈指数级增长

对芯片需求的改变:推理侧算力的爆发对芯片提出了不同于训练的硬性要求:
极高的显存带宽与容量:推理模型由于多轮思考需要常驻海量上下文,对 HBM3e/HBM4 显存容量及带宽是绝对刚需。
ASIC 优势放大:在长序列、大批次的推理场景下,定制 ASIC(如 Google TPU、博通代工的自研 ASIC)拥有远低于通用 GPU 的运行能耗与 Token 成本,将加速其在推理端的替代率。

投资启示

1. 推理芯片放量:大模型应用落地(如 AI Agent)爆发导致推理 Token 需求呈指数增长,定制 ASIC 设计与代工大厂(Broadcom AVGO、Marvell MRVL)是直接受益方向。

2. 显存池化与高速互联:推理集群的扩展更需要高带宽的芯片间通信(NVLink、以太网 UEC),对光模块(1.6T)和先进封装(CoWoS/玻璃基板)的依赖不降反升。

3. 算力结构分化:英伟达在训练侧的绝对垄断在推理侧面临更多定制化 ASIC 的分流,但英伟达借由 TensorRT-LLM 软件栈和液冷整机柜(GB200)依然保持了强大的商业闭环能力。

05

投资要点

本章核心投资逻辑 · 仅供参考
核心驱动因素
大模型训练与推理算力呈指数级增长;NVIDIA CUDA生态护城河极深;ASIC定制化芯片在特定领域兴起
关键风险
CoWoS与HBM供应紧张制约出货;AMD及各大云厂商自研芯片(ASIC)的分流竞争;物理极限瓶颈
受益方向
NVDA(绝对主导)AMD(次选弹性)AVGO(ASIC龙头)
风险暴露
高估值消化压力;单一芯片架构技术路径迭代过快风险;地缘限制导致高成长市场销售受阻
近期催化剂
NVIDIA Blackwell芯片出货与业绩指引;AMD MI325X/MI350X量产进程
06

章节导航

章节导航:共17章完整产业链 · 返回总览