五大半导体厂商鏖战UMA，统一内存架构正迅速崛起！-AET-电子技术应用

五大半导体厂商鏖战UMA，统一内存架构正迅速崛起！

日期： 2026-06-08

来源：电子技术应用

关键词： 内存架构 UMA CPU GPU NPU

统一内存架构（Unified Memory Architecture, UMA）是当前半导体行业最关键的技术方向之一，其核心在于让CPU、GPU、NPU等异构计算单元共享同一物理内存地址空间，消除传统PCIe总线带来的数据搬运瓶颈。

UMA正从"可选特性"变为"AI时代必需"。NVIDIA和Apple在硬件级UMA上领先，AMD通过APU架构紧追，Intel转向CXL开放标准寻求差异化，Qualcomm则在AI PC市场快速跟进。未来2-3年，随着CXL 3.0普及和chiplet技术进步，UMA有望成为跨厂商的默认架构选择。

近日，AMD高级副总裁兼客户业务总经理David McAfee在媒体圆桌采访时表示，未来几年，统一内存架构将成为行业关注重点，公司也将大力投入。

AMD此番言论再次将关注度带到UMA，以下是各大半导体厂商在这一领域的最新态度和计划：

1. NVIDIA：通过NVLink-C2C实现硬件级缓存一致性UMA

NVIDIA是目前在数据中心UMA领域走得最远的厂商。其Grace Hopper Superchip（GH200/GB200）代表了业界最成熟的异构统一内存实现：

架构核心：通过NVLink-C2C（Chip-to-Chip）互联技术，提供高达900GB/s双向带宽和亚微秒级延迟，将Grace ARM CPU与Hopper GPU紧密耦合

统一内存空间：CPU与GPU共享统一的64位虚拟地址空间，支持硬件强制缓存一致性（Hardware Cache Coherence），无需显式的cudaMemcpy操作即可实现数据共享

双域设计：系统暴露两个NUMA域——CPU本地的LPDDR5X和GPU本地的HBM3，但两者在统一地址空间下透明访问，GPU可直接访问CPU内存，反之亦然

演进路线：从Blackwell架构开始强调多dielet设计和统一内存管理，未来Rubin架构（2026-2027）预计将进一步扩展到3+ die的光学互联方案

NVIDIA的策略是将UMA作为其"AI工厂"全栈解决方案的硬件基础，与CUDA生态深度绑定，形成极高的切换成本。

2. Apple：消费级UMA的标杆

Apple在M系列SoC中实施的UMA是消费级市场最成熟的方案：

架构特点：M1/M2/M3/M4全系采用统一内存架构，CPU、GPU、Neural Engine共享同一LPDDR内存池，不存在独立的VRAM概念，彻底消除了PCIe瓶颈

性能优势：由于无需数据在CPU内存和GPU显存之间搬运，内存带宽可达100GB/s以上（M4），且CPU和GPU可获得 comparable 的内存访问带宽，在LLM推理等场景中，GPU可直接访问高达512GB的系统内存，避免了"VRAM墙"问题

演进路线：M4系列继续沿用UMA，Mac Pro最高支持512GB统一内存，Neural Engine性能持续增强，深度整合Core ML和Metal框架

Apple的UMA策略与其封闭生态高度协同，通过软硬件一体化实现最优效率，但仅限于自有设备。

3. AMD：从hUMA到数据中心APU

AMD是UMA概念的早期推动者，其策略经历了从消费级APU到数据中心级APU的演进：

历史基础：早在2013年Kaveri APU中就推出了hUMA（heterogeneous Unified Memory Access），让CPU和GPU共享同一内存地址空间，支持双向一致性和页错误处理，为HSA（异构系统架构）奠定基础

数据中心突破：MI300A是业界首款数据中心级APU，将Zen 4 CPU与CDNA 3 GPU集成到同一封装，通过UMAA（Unified Memory Architecture APU）和第四代Infinity Fabric共享HBM3内存池，消除了冗余内存拷贝

MI350系列：继续采用chiplet架构，配备288GB HBM3E，提供NPS1（统一NUMA域）和NPS2（双域分区）模式，支持计算分区（SPX/DPX/QPX/OPX），在虚拟化环境中实现多租户内存隔离

互联技术：通过Infinity Fabric实现APU间高速互联，在多APU节点（如El Capitan超算）中构建缓存一致性NUMA系统

AMD的策略是同时提供独立GPU（MI300X/MI350X）和APU（MI300A）产品线，满足不同场景需求。

4. Intel：从XPU转向CXL内存池化

Intel的UMA策略经历了重大调整：

XPU计划搁置：原本计划通过Falcon Shores XPU将x86 CPU和Xe GPU整合到单一芯片中实现统一内存，但于2023年宣布搁置该计划，认为"将CPU和GPU做成XPU为时尚早"，改为推出纯GPU的Falcon Shores

CXL路线：Intel将CXL（Compute Express Link）作为关键差异化技术，通过CXL 2.0/3.0实现GPU、AI加速器对大型内存池的共享访问，支持内存扩展和池化，避免将用户锁定在特定的CPU-GPU配比中

软件层面UMA：通过oneAPI和USM（Unified Shared Memory）在OpenCL/SYCL层面提供统一内存抽象，支持Host、Device和Shared三种分配类型，实现跨设备的指针等价性。

Intel的策略更偏向开放标准和灵活性，通过CXL实现解耦式内存共享，而非NVIDIA式的紧耦合UMA。

5. Qualcomm：AI PC领域的UMA追随者

Qualcomm在Snapdragon X Elite中采用了类似Apple的UMA策略：

架构设计：采用LPDDR5x统一内存，最高64GB，CPU、Adreno GPU和Hexagon NPU共享内存池，NPU提供45 TOPS AI算力

与Apple对比：虽然同样宣称UMA，但X Elite的NPU与CPU/GPU之间仍存在可测量的延迟惩罚，内存控制器在动态工作负载下的效率不如Apple M系列，且Windows on ARM的软件生态尚未完全优化统一内存访问

演进方向：下一代Snapdragon X2 Elite（SC8480XP）计划支持192-bit内存总线，带宽进一步提升，向Apple M4 Max看齐

Qualcomm的UMA策略仍处于追赶阶段，依赖Windows生态的软件优化。

6. 行业趋势：CXL作为开放UMA标准

除厂商专有方案外，CXL正在成为跨厂商的统一内存互联标准：

CXL 2.0/3.0：支持内存池化（Pooling）和共享（Sharing），通过交换机实现多主机对内存资源的动态访问，延迟仅比本地DRAM高10-30纳秒

生态进展：截至2025年Q4，CXL联盟已验证超过45种设备组合，但硬件生态仍待成熟，大规模部署需要硬件更新周期

应用场景：在LLM推理的KV Cache管理、数据库和云平台上展现出优势，可实现细粒度的跨设备内存共享

无标题.png

原创声明：此内容为AET网站原创，未经授权禁止转载。

五大半导体厂商鏖战UMA，统一内存架构正迅速崛起！

日期： 2026-06-08

来源：电子技术应用

相关内容