美国超微公司(AMD)联合IBM与人工智能初创公司Zyphra,共同推出了ZAYA1大模型,这是全球首个完全基于AMD硬件生态系统训练的混合专家(MoE)基础模型。该模型在预训练阶段使用了14万亿(14T)tokens数据,其综合性能被评估为与业界领先的Qwen3系列模型持平或更优,尤其在数学和科学、技术、工程、数学(STEM)推理方面,即使未经指令微调也接近Qwen3专业版的表现。
据AMD公司于11月24日发布的公告,ZAYA1的训练集群部署在IBM Cloud上,由128个节点组成,每个节点配备8张AMD Instinct MI300X GPU,总计使用了1024张MI300X显卡。该集群通过AMD InfinityFabric高速互联,实际训练性能峰值超过750 PFLOPs(每秒75亿亿次浮点运算)。AMD Instinct MI300X GPU的192GB高带宽内存(HBM)容量,使得Zyphra在训练过程中能够采用更简化的并行策略,并实现了超过10倍的模型保存速度提升。
ZAYA1模型在架构上实现了多项创新。其中之一是采用了CCA(Compressive Convolutional Attention)注意力机制,该机制通过在注意力模块内部引入卷积操作和压缩嵌入,显著降低了32%的显存占用,并提升了18%的长上下文吞吐量。此外,模型还改进了混合专家(MoE)中常用的线性路由机制,通过细化专家粒度和负载均衡正则化,将Top-2路由精度提高了2.3个百分点,并确保在稀疏度高达70%时仍能保持高利用率。
基准测试结果显示,ZAYA1-Base(非指令版)在MMLU-Redux、GSM-8K、MATH和ScienceQA等多个基准测试中与Qwen3-Base模型表现相当,并在CMATH和OCW-Math测试中显著超越,验证了其在STEM领域的潜力。
Zyphra公司透露,计划于2026年第一季度推出经过指令微调和强化学习人类反馈(RLHF)的ZAYA1版本,届时也将开放API接口和模型权重下载。AMD方面表示,此次合作验证了MI300X GPU结合ROCm开放软件堆栈在大规模MoE模型训练中的可行性。未来,AMD将致力于与更多云服务提供商合作,推广“纯AMD”集群方案,目标是在2026年训练超过1000亿参数的MoE模型时,实现与NVIDIA解决方案相当的总拥有成本(TCO)。