1. xAI的Colossus 1集群混合H100/H200/GB200三代NVIDIA GPU,分布式训练中因异构架构产生严重拖后腿效应,模型浮点利用率仅11%。
2. 属于AI芯片集群架构与数据中心环节,直接暴露异构方案在大规模训练中的瓶颈。
3. 租给Anthropic专注推理后,由于推理对同步通信要求低,集群利用率大幅提升,年化收入约60亿美元,几乎对冲xAI年亏损。
4. 该案例表明同构集群是超大模型训练的王道,推理则能让异构GPU资产焕发新生,影响未来数据中心芯片采购决策。
[1] [2]