AIinfra Map · CH05

01

AI芯片供应链传导路径

从芯片设计到AI服务器

🏛️

芯片设计

NVIDIA/AMD/Broadcom

→

⚙️

晶圆制造

TSMC N3/N4/N5制程

→

🔬

CoWoS封装

TSMC先进封装

→

💾

HBM内存

SK hynix/Samsung

→

🖥️

GPU模组

SXM/PCIe模组

→

🗄️

AI服务器

NVL72/ODM组装

02

GPU加速器 — AI训练与推理的核心算力

NVIDIA主导 · AMD差异化竞争 · Intel追赶

🎮

GPU加速器 — NVIDIA / AMD / Intel

GPU凭借大规模并行计算架构成为AI训练和推理的主流硬件，NVIDIA凭借CUDA生态占据绝对垄断地位。

AI芯片

板块概念解析

GPU（图形处理器）的大规模并行计算架构天然适合AI工作负载（矩阵乘法、卷积运算）。NVIDIA H100/H200使用Hopper架构，B200使用Blackwell架构（双芯片设计，2080亿晶体管，192GB HBM3e，8TB/s带宽）。

CUDA生态是NVIDIA的核心护城河：全球500万+开发者使用CUDA，NVIDIA官方预计未来可达5000万开发者。AMD ROCm生态远落后，Intel oneAPI几乎无人用。

GB200 NVL72是NVIDIA推荐的旗舰AI服务器配置：包含72颗B200 + 36颗Grace CPU + 72个NVLink Switch，FP8算力720 PFLOPS，单rack功耗约120kW，必须液冷。

AMD MI300X（192GB HBM3e，FP8约7 PFLOPS）提供差异化性价比，推理市场接受度提升。Intel Gaudi3定位对标H100性价比替代，但软件生态远弱于CUDA，实际市占极低。

Blackwell架构为双芯片封装，通过NVLink-C2C实现芯片间900GB/s互联；AMD MI300X为APU设计（CPU+GPU集成）

关键数据

NVIDIA AI GPU市占

>80%

B200 HBM3e带宽

8 TB/s

GB200 NVL72 FP8算力

720 PFLOPS

B200 TDP

1000W/颗

NVIDIA Q4 FY2025数据中心

$35.6B

CUDA开发者

5M+

投资标的

NVDA NVIDIA 美股垄断+CUDA生态

AMD AMD 美股 MI300X差异化

INTC Intel 美股 Gaudi3追赶中

风险提示

CUDA生态壁垒使竞争者软件支持严重落后，市场短期难以撼动

中国出口限制影响部分高端GPU市场

定制ASIC分流需求（长期影响）

CoWoS/HBM瓶颈制约NVIDIA GPU出货量

02.5

AI芯片核心参数对比

Report 整合补充 · 来源：NVIDIA官方 · Jarvis Labs · 各公司官网 (2025)

型号	架构	晶体管	内存	带宽	FP8算力	NVLink	TDP	制程	供应状态
H100 SXM	Hopper	80B	80GB HBM3	3.35 TB/s	4.7 PF	900 GB/s	700W	TSMC 4N	成熟供应
H200 SXM	Hopper	80B	141GB HBM3e	4.8 TB/s	4.7 PF	900 GB/s	700W	TSMC 4N	量产出货
B200 SXM	Blackwell	208B	192GB HBM3e	8 TB/s	9 PF	1.8 TB/s	1000W	TSMC 4NP	限量2025
GB200 NVL72	Blackwell	—	13.4TB HBM3e/机架	576 TB/s	720 PF	130 TB/s	~120kW/机架	TSMC	2025末起量
AMD MI300X	CDNA 3	153B	192GB HBM3e	5.3 TB/s	~7 PF	—	700W	TSMC	已出货

关键洞察：HBM容量从H100的80GB到GB200 NVL72的13.4TB/机架，约6年增长约168倍。内存带宽从3.35 TB/s到8 TB/s（B200），NVLink从900 GB/s到1.8 TB/s——互联带宽的扩张速度是本轮AI基础设施最重要的技术趋势之一。

03

ASIC定制芯片 — 大厂自研与专业化趋势

Broadcom/Marvell/Cerebras · 定制化能效优势

🔧

ASIC定制AI芯片 — Broadcom / Marvell / Cerebras / Groq

ASIC针对特定AI任务定制优化，单位算力成本和功耗低于通用GPU，是大厂降本的核心路径。

AI芯片

板块概念解析

ASIC（专用集成电路）针对特定AI任务定制优化，单位算力成本和功耗低于通用GPU。Google TPU（自研至TPU v5pex）用于搜索排名、翻译等大规模推理；Amazon Trainium/Triton服务于AWS客户；Microsoft MT雅典娜自研芯片。

Broadcom是最大AI ASIC代工方：为Google定制Titanium系列TPU芯片、为Meta定制AI ASIC。FY2024 AI相关收入超过$40B，AI ASIC业务已超过传统网络芯片。Marvell通过$5.5B收购Celestial AI（2025年12月完成）押注光学互联将成为AI加速器标准配置。

Cerebras专注超大模型训练，Wafer Scale Engine在单个晶圆级芯片上集成85.9万个AI核心，内存带宽20PB/s，专为GPT-4级别超大模型设计。Groq专注推理，Tensor Streaming Processor（LPU架构）提供超低延迟推理。

ASIC开发周期18-36个月，前期投入巨大；Celestial AI收购强化Marvell光学互联能力

关键数据

Broadcom AI ASIC定位

大厂定制

Marvell/Celestial AI收购

$5.5B

Google TPU v5训练性能

vs H100 ~1.7x

Cerebras WSE核心数

85.9万个

ASIC开发周期

18-36个月

投资标的

AVGO Broadcom 美股 ASIC代工+网络

MRVL Marvell 美股定制AI芯片+光学互联

GOOGL Alphabet/Google 美股 TPU自研

风险提示

ASIC开发周期长，前期投入巨大，需大客户支撑

CUDA生态壁垒使开发者难以迁移，应用生态不足

大厂自研可能减少对商业芯片依赖（长期影响NVIDIA）

Cerebras/Groq规模较小，盈利能力和持续性存疑

04

AI芯片格局全面对比

GPU vs ASIC · 生态 vs 定制 · 短期 vs 长期

芯片类型	代表企业	架构特点	主要用途	生态壁垒	HBM支持	竞争优势
NVIDIA GPU	NVDA	通用并行计算GPU	AI训练+推理	CUDA垄断	HBM3e 192GB	生态+性能双重护城河
AMD GPU	AMD	通用并行计算GPU	AI推理为主	ROCm弱	HBM3e 192GB	性价比差异化
Intel Gaudi	INTC	异构计算GPU	AI推理	oneAPI弱	HBM3e 128GB	Xeon CPU协同
Google TPU	GOOGL	定制ASICASIC	推理+训练	TPU生态封闭	HBM3e 256GB	Google内部生态
Amazon Trainium	AMZN	定制ASICASIC	推理+训练	Neuron弱	HBM	AWS成本优势
Broadcom AI ASIC	AVGO	大厂定制ASICASIC	推理为主	封闭	定制HBM	大客户定制优化
Cerebras WSE	CEREBRAS	晶圆级ASIC专用	超大模型训练	封闭	晶圆级带宽	超大模型训练唯一方案
Groq LPU	GROQ	推理专用ASIC专用	超低延迟推理	封闭	SRAM（无HBM）	推理延迟极低

投资逻辑总结

1. NVIDIA短期垄断难撼动：CUDA生态+CoWoS产能+品牌优势构成三重护城河，AI算力需求爆发直接受益。数据中心业务FY2025 Q4收入$35.6B，持续超预期。

2. AMD MI300X差异化空间：在推理市场有成本优势，ROCm生态逐步改善，但软件生态差距短期难以弥合。

3. 定制ASIC浪潮加速：Broadcom AI ASIC收入超$40B，Marvell通过Celestial AI收购强化光学互联，ASIC代工模式是长期趋势。

4. Cerebras/Groq细分市场：超大模型训练（GPT-5+）和超低延迟推理各有差异化空间，但规模较小。

关键风险

1. 产能瓶颈：CoWoS封装和HBM内存是所有AI芯片扩张的共同瓶颈，TSMC产能扩张速度决定出货量天花板。

2. 技术路线风险：ASIC在推理市场渗透率提升，但训练市场仍以NVIDIA为主；3nm→2nm→1.6nm制程演进带来不确定性。

3. 地缘政治：美国对华芯片出口限制持续，影响NVIDIA高端GPU在中国市场的销售，同时推动中国自研芯片加速。

4. 估值风险：NVDA市值~$5T+，对应FY2026预期PE约30-40倍，估值较高。

04.5

推理模型范式转移（Reasoning Models）对芯片格局的重塑

新趋势分析 · 2026年最新技术范式

🧠

推理时算力（Test-Time Compute）时代的芯片需求

以 OpenAI o1/o3 及 DeepSeek V3/R1 为代表的“思考型”模型将算力重心向推理端偏移。

前沿趋势

技术范式转移

从 Pre-training 转向 Test-Time Compute：传统 LLM 性能提升依赖于训练阶段（堆叠万卡 GPU 进行预训练）。而推理模型通过强化学习（RL）和思维链（CoT），在推理时进行多轮思考，使得推理阶段消耗的算力呈指数级增长。

对芯片需求的改变：推理侧算力的爆发对芯片提出了不同于训练的硬性要求：
① 极高的显存带宽与容量：推理模型由于多轮思考需要常驻海量上下文，对 HBM3e/HBM4 显存容量及带宽是绝对刚需。
② ASIC 优势放大：在长序列、大批次的推理场景下，定制 ASIC（如 Google TPU、博通代工的自研 ASIC）拥有远低于通用 GPU 的运行能耗与 Token 成本，将加速其在推理端的替代率。

投资启示

1. 推理芯片放量：大模型应用落地（如 AI Agent）爆发导致推理 Token 需求呈指数增长，定制 ASIC 设计与代工大厂（Broadcom AVGO、Marvell MRVL）是直接受益方向。

2. 显存池化与高速互联：推理集群的扩展更需要高带宽的芯片间通信（NVLink、以太网 UEC），对光模块（1.6T）和先进封装（CoWoS/玻璃基板）的依赖不降反升。

3. 算力结构分化：英伟达在训练侧的绝对垄断在推理侧面临更多定制化 ASIC 的分流，但英伟达借由 TensorRT-LLM 软件栈和液冷整机柜（GB200）依然保持了强大的商业闭环能力。

05

投资要点

本章核心投资逻辑 · 仅供参考

核心驱动因素

大模型训练与推理算力呈指数级增长；NVIDIA CUDA生态护城河极深；ASIC定制化芯片在特定领域兴起

关键风险

CoWoS与HBM供应紧张制约出货；AMD及各大云厂商自研芯片（ASIC）的分流竞争；物理极限瓶颈

受益方向

NVDA（绝对主导）AMD（次选弹性）AVGO（ASIC龙头）

风险暴露

高估值消化压力；单一芯片架构技术路径迭代过快风险；地缘限制导致高成长市场销售受阻

近期催化剂

NVIDIA Blackwell芯片出货与业绩指引；AMD MI325X/MI350X量产进程

06

章节导航

章节导航：共17章完整产业链 · 返回总览

AI芯片格局GPU/ASIC/CPU全解析

AI芯片供应链传导路径

GPU加速器 — AI训练与推理的核心算力

板块概念解析

关键数据

投资标的

AI芯片核心参数对比

ASIC定制芯片 — 大厂自研与专业化趋势

板块概念解析

关键数据

投资标的

AI芯片格局全面对比

投资逻辑总结

关键风险

推理模型范式转移（Reasoning Models）对芯片格局的重塑

技术范式转移

投资启示

投资要点

章节导航

AI芯片格局
GPU/ASIC/CPU全解析