月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用
2025-03-06
算力需求比 AdamW 直降 48%,OpenAI 技术人员提出的训练优化算法 Muon,被月之暗面团队又推进了一步! 团队发现了 Muon 方法的 Scaling Law,做出改进并证明了 Muon 对更大的模型同样适用。 在参数量最高 1.5B 的不同 Llama 架构模型上,改进后的 Muon 算力需求仅为 AdamW 的 52%。 同时团队还基于 DeepSeek 架构训练出了一个 16B...