五大半导体厂商鏖战UMA,统一内存架构正迅速崛起!
2026-06-08
来源:电子技术应用
统一内存架构(Unified Memory Architecture, UMA)是当前半导体行业最关键的技术方向之一,其核心在于让CPU、GPU、NPU等异构计算单元共享同一物理内存地址空间,消除传统PCIe总线带来的数据搬运瓶颈。
UMA正从"可选特性"变为"AI时代必需"。NVIDIA和Apple在硬件级UMA上领先,AMD通过APU架构紧追,Intel转向CXL开放标准寻求差异化,Qualcomm则在AI PC市场快速跟进。未来2-3年,随着CXL 3.0普及和chiplet技术进步,UMA有望成为跨厂商的默认架构选择。
近日,AMD高级副总裁兼客户业务总经理David McAfee在媒体圆桌采访时表示,未来几年,统一内存架构将成为行业关注重点,公司也将大力投入。
AMD此番言论再次将关注度带到UMA,以下是各大半导体厂商在这一领域的最新态度和计划:
1. NVIDIA:通过NVLink-C2C实现硬件级缓存一致性UMA
NVIDIA是目前在数据中心UMA领域走得最远的厂商。其Grace Hopper Superchip(GH200/GB200)代表了业界最成熟的异构统一内存实现:
架构核心:通过NVLink-C2C(Chip-to-Chip)互联技术,提供高达900GB/s双向带宽和亚微秒级延迟,将Grace ARM CPU与Hopper GPU紧密耦合
统一内存空间:CPU与GPU共享统一的64位虚拟地址空间,支持硬件强制缓存一致性(Hardware Cache Coherence),无需显式的cudaMemcpy操作即可实现数据共享
双域设计:系统暴露两个NUMA域——CPU本地的LPDDR5X和GPU本地的HBM3,但两者在统一地址空间下透明访问,GPU可直接访问CPU内存,反之亦然
演进路线:从Blackwell架构开始强调多dielet设计和统一内存管理,未来Rubin架构(2026-2027)预计将进一步扩展到3+ die的光学互联方案
NVIDIA的策略是将UMA作为其"AI工厂"全栈解决方案的硬件基础,与CUDA生态深度绑定,形成极高的切换成本。
2. Apple:消费级UMA的标杆
Apple在M系列SoC中实施的UMA是消费级市场最成熟的方案:
架构特点:M1/M2/M3/M4全系采用统一内存架构,CPU、GPU、Neural Engine共享同一LPDDR内存池,不存在独立的VRAM概念,彻底消除了PCIe瓶颈
性能优势:由于无需数据在CPU内存和GPU显存之间搬运,内存带宽可达100GB/s以上(M4),且CPU和GPU可获得 comparable 的内存访问带宽,在LLM推理等场景中,GPU可直接访问高达512GB的系统内存,避免了"VRAM墙"问题
演进路线:M4系列继续沿用UMA,Mac Pro最高支持512GB统一内存,Neural Engine性能持续增强,深度整合Core ML和Metal框架
Apple的UMA策略与其封闭生态高度协同,通过软硬件一体化实现最优效率,但仅限于自有设备。
3. AMD:从hUMA到数据中心APU
AMD是UMA概念的早期推动者,其策略经历了从消费级APU到数据中心级APU的演进:
历史基础:早在2013年Kaveri APU中就推出了hUMA(heterogeneous Unified Memory Access),让CPU和GPU共享同一内存地址空间,支持双向一致性和页错误处理,为HSA(异构系统架构)奠定基础
数据中心突破:MI300A是业界首款数据中心级APU,将Zen 4 CPU与CDNA 3 GPU集成到同一封装,通过UMAA(Unified Memory Architecture APU)和第四代Infinity Fabric共享HBM3内存池,消除了冗余内存拷贝
MI350系列:继续采用chiplet架构,配备288GB HBM3E,提供NPS1(统一NUMA域)和NPS2(双域分区)模式,支持计算分区(SPX/DPX/QPX/OPX),在虚拟化环境中实现多租户内存隔离
互联技术:通过Infinity Fabric实现APU间高速互联,在多APU节点(如El Capitan超算)中构建缓存一致性NUMA系统
AMD的策略是同时提供独立GPU(MI300X/MI350X)和APU(MI300A)产品线,满足不同场景需求。
4. Intel:从XPU转向CXL内存池化
Intel的UMA策略经历了重大调整:
XPU计划搁置:原本计划通过Falcon Shores XPU将x86 CPU和Xe GPU整合到单一芯片中实现统一内存,但于2023年宣布搁置该计划,认为"将CPU和GPU做成XPU为时尚早",改为推出纯GPU的Falcon Shores
CXL路线:Intel将CXL(Compute Express Link)作为关键差异化技术,通过CXL 2.0/3.0实现GPU、AI加速器对大型内存池的共享访问,支持内存扩展和池化,避免将用户锁定在特定的CPU-GPU配比中
软件层面UMA:通过oneAPI和USM(Unified Shared Memory)在OpenCL/SYCL层面提供统一内存抽象,支持Host、Device和Shared三种分配类型,实现跨设备的指针等价性。
Intel的策略更偏向开放标准和灵活性,通过CXL实现解耦式内存共享,而非NVIDIA式的紧耦合UMA。
5. Qualcomm:AI PC领域的UMA追随者
Qualcomm在Snapdragon X Elite中采用了类似Apple的UMA策略:
架构设计:采用LPDDR5x统一内存,最高64GB,CPU、Adreno GPU和Hexagon NPU共享内存池,NPU提供45 TOPS AI算力
与Apple对比:虽然同样宣称UMA,但X Elite的NPU与CPU/GPU之间仍存在可测量的延迟惩罚,内存控制器在动态工作负载下的效率不如Apple M系列,且Windows on ARM的软件生态尚未完全优化统一内存访问
演进方向:下一代Snapdragon X2 Elite(SC8480XP)计划支持192-bit内存总线,带宽进一步提升,向Apple M4 Max看齐
Qualcomm的UMA策略仍处于追赶阶段,依赖Windows生态的软件优化。
6. 行业趋势:CXL作为开放UMA标准
除厂商专有方案外,CXL正在成为跨厂商的统一内存互联标准:
CXL 2.0/3.0:支持内存池化(Pooling)和共享(Sharing),通过交换机实现多主机对内存资源的动态访问,延迟仅比本地DRAM高10-30纳秒
生态进展:截至2025年Q4,CXL联盟已验证超过45种设备组合,但硬件生态仍待成熟,大规模部署需要硬件更新周期
应用场景:在LLM推理的KV Cache管理、数据库和云平台上展现出优势,可实现细粒度的跨设备内存共享


