Model FLOPs Utilization(MFU), Token per Second(TPS) Model FLOPs Utilization(MFU)과 Token per Second(TPS)는 대규모 언어 모델(LLM)과 같은 AI 모델의 성능을 측정하는 핵심 지표이다. MFU는 모델이 이론적으로 낼 수 있는 최대 연산 능력인 FLOPs(Floating-point Operations Per Second) 대비 실제로 얼마나 효율적으로 연산을 수행하고 있는지를 나타내는 비율이다. FLOPs 자체는 모델 크기나 하드웨어의 연산 능력을 나타내지만, MFU는 그 하드웨어를 얼마나 잘 활용하고 있는지를 보여주는 효율성 지표인 것이다. 예를 들어, 100 FLOPs의 연산 능력을 가진 하드웨어에서 모델이 70 FLOP..