Agents' Last Exam Benchmark Scores

Full / Overall pass rates from Agents' Last Exam. Color = provider.

Full / Overall pass rates from Agents' Last Exam. Color = provider.

How To Read This Chart

This benchmark chart uses source-backed benchmark rows mapped to public AI IQ model profiles.

Rank	Model	Provider	Score
1	gpt-5.5	OpenAI	24
2	gpt-5.4	OpenAI	20.5
3	opus-4.7	Anthropic	18.4
4	gemini-3.1-pro	Google	15.8
5	opus-4.8	Anthropic	15.8
6	opus-4.6	Anthropic	14.1
7	deepseek-v4-pro	DeepSeek	12.4
8	qwen3.7-max	Alibaba	11.8
9	glm-5.1	Z.ai	11.5
10	kimi-k2.6	Kimi	9.2
11	mimo-v2.5	Xiaomi	8.6
12	qwen3.6-plus	Alibaba	8.6