Benchmark

A standardized test or set of tasks used to measure and compare AI model performance across specific capabilities like reasoning, coding, or language understanding.

Related terms