Omni-Infer v0.5.0 已经发布,超大规模 MoE 模型推理加速技术。 v0.5.0 核心特性 支持VeRL 其它优化 基于5P8-1D32@A3,2K+2K,Deepseek R1性能达到QPM500,TTFT<2s,TPOT<50ms 基于1P16-1D32@A2,2K+2K,Deepseek R1单卡Decode峰值性能达到400 TPS,TPOT<50ms 支持模型列表 模型 硬件 精度类型 部署形态 DeepSeek-R1 A3... Omni-Infer v0.5.0 发布,超大规模 MoE 模型推理加速技术下载地址