Coding benchmarks

Code generation and completion tasks from Code Arena (Elo) and LiveBench.

Code Arena

#	Model	Score	Input $/M	Output $/M	Context	Votes
1	Claude Fable 5Anthropic	1649Elo	$10	$50	1M	2.2K
2	gpt-5.6-sol-xhigh (codex-harness)OpenAI	1636Elo	—	—	—	624
3	glm-5.2 (max)Z.AI	1580Elo	$1.40	$4.40	1M	4.3K
4	Grok 4.5SpaceXAI	1566Elo	$2.00	$6.00	500K	1.6K
5	Claude Opus 4 8 ThinkingAnthropic	1560Elo	$5.00	$25	1M	6.7K
6	Claude Opus 4 7 ThinkingAnthropic	1557Elo	$5.00	$25	1M	9.9K
7	Claude Opus 4 7Anthropic	1557Elo	$5.00	$25	1M	9.4K
8	Claude Sonnet 5 HighAnthropic	1543Elo	$2.00	$10	1M	2.4K
9	Claude Opus 4.6 ThinkingAnthropic	1543Elo	$5.00	$25	1M	12.3K
10	Muse Spark 1.1Meta	1540Elo	$1.25	$4.25	—	1.3K
11	Seed 2.1 Pro PreviewBytedance	1539Elo	—	—	—	3.4K
12	Claude Opus 4.6Anthropic	1536Elo	$5.00	$25	1M	13.5K
13	Claude Opus 4 8Anthropic	1534Elo	$5.00	$25	1M	5.4K
14	Glm 5.1Z.AI	1527Elo	$1.40	$4.40	203K	5.3K
15	Claude Sonnet 4.6Anthropic	1521Elo	$3.00	$15	1M	15.7K
16	Qwen3.7 Max 20260517Alibaba	1521Elo	$1.25	$3.75	1M	5.9K
17	Kimi K2.6Moonshot AI	1513Elo	$0.95	$4.00	262K	8.9K
18	gpt-5.5-xhigh (codex-harness)OpenAI	1502Elo	—	—	—	8.6K
19	Gemini 3.5 Flash MediumGoogle	1500Elo	$1.50	$9.00	1M	5.1K
20	Minimax M3MiniMax	1496Elo	$0.60	$2.40	—	5.7K
21	Claude Opus 4.5 ThinkingAnthropic	1490Elo	$5.00	$25	200K	13.1K
22	gpt-5.5-high (codex-harness)OpenAI	1481Elo	—	—	—	10.5K
23	Qwen3.6 Max PreviewAlibaba	1480Elo	$1.04	$6.24	262K	2.5K
24	Mimo v2.5 ProXiaomi	1473Elo	$0.43	$0.87	1M	8.9K
25	Kimi K2.7 CodeMoonshot AI	1469Elo	$0.72	$3.49	262K	4.1K
26	Claude Opus 4.5Anthropic	1466Elo	$5.00	$25	200K	15.3K
27	Qwen3.6 PlusAlibaba	1458Elo	$0.33	$1.95	1M	11.4K
28	gpt-5.4-high (codex-harness)OpenAI	1457Elo	$2.50	$15	1M	1.5K
29	Deepseek v4 Pro ThinkingDeepSeek	1457Elo	$0.43	$0.87	1M	8.4K
30	gpt-5.5 (codex-harness)OpenAI	1450Elo	—	—	—	8.7K
31	Deepseek v4 ProDeepSeek	1446Elo	$0.43	$0.87	1M	9.1K
32	Gemini 3.1 ProGoogle	1445Elo	$2.00	$12	1M	16.7K
33	GLM-4.7Z.AI	1440Elo	$0.40	$1.75	203K	4.9K
34	Gemini 3 ProGoogle	1439Elo	$2.00	$12	1M	17.2K
35	Gemini 3 FlashGoogle	1437Elo	$0.50	$3.00	1M	13.3K
36	gpt-5.4-medium (codex-harness)OpenAI	1437Elo	$2.50	$15	1M	1.4K
37	Kimi K2.5 ThinkingMoonshot AI	1433Elo	$0.60	$3.00	—	14.7K
38	MiMo V2 ProXiaomi	1431Elo	$1.00	$3.00	1M	6.9K
39	GLM-5Z.AI	1430Elo	$1.00	$3.20	203K	7.5K
40	Mimo v2.5Xiaomi	1429Elo	$0.10	$0.28	1M	8.1K
41	Kimi K2.5 InstantMoonshot AI	1408Elo	$0.38	$2.02	262K	3.6K
42	gpt-5.3-codex (codex-harness)OpenAI	1406Elo	$1.75	$14	400K	3.0K
43	GPT-5.2OpenAI	1405Elo	$1.75	$14	400K	1.5K
44	Glm 5v TurboZ.AI	1402Elo	$1.20	$4.00	203K	550
45	GPT-5.4 MiniOpenAI	1397Elo	$0.75	$4.50	400K	9.6K
46	Qwen 3.5 397BAlibaba	1396Elo	$0.39	$2.45	256K	14.1K
47	MiniMax M2.7MiniMax	1395Elo	$0.24	$0.96	205K	10.1K
48	GPT-5 MediumOpenAI	1394Elo	$1.25	$10	400K	3.8K
49	Gpt 5.4OpenAI	1392Elo	$2.50	$15	1M	826
50	MiniMax M2.1MiniMax	1392Elo	$0.30	$1.20	205K	9.3K
51	GPT-5.1 MediumOpenAI	1391Elo	$1.25	$10	400K	6.1K
52	Claude Sonnet 4.5 ThinkingAnthropic	1388Elo	$3.00	$15	200K	15.8K
53	gemini-3-flash (thinking-minimal)Google	1387Elo	$0.50	$3.00	1M	20.9K
54	Claude Sonnet 4.5Anthropic	1386Elo	$3.00	$15	200K	18.4K
55	Claude Opus 4.1Anthropic	1386Elo	$15	$75	200K	8.6K
56	Grok 4.20 ReasoningSpaceXAI	1382Elo	$2.00	$6.00	2M	12.6K
57	MiniMax M2.5MiniMax	1382Elo	$0.15	$0.90	205K	7.9K
58	gpt-5.3-codex (codex-harness)OpenAI	1371Elo	$1.75	$14	400K	3.6K
59	Gemma 4 31bGoogle	1370Elo	$0.14	$0.40	262K	6.1K
60	DeepSeek V3.2 ThinkingDeepSeek	1368Elo	$0.21	$0.32	131K	7.9K
61	Qwen 3.5 122BAlibaba	1364Elo	$0.26	$2.08	262K	8.2K
62	Grok 4.3SpaceXAI	1362Elo	$1.25	$2.50	1M	7.8K
63	Hunyuan Hy3 PreviewTencent	1361Elo	—	—	—	1.4K
64	Gemma 4 26b A4bGoogle	1361Elo	—	—	—	1.5K
65	Qwen 3.5 27BAlibaba	1357Elo	$0.20	$1.56	262K	7.7K
66	GLM-4.6Z.AI	1355Elo	$0.43	$1.74	203K	8.3K
67	Laguna M.1Poolside	1354Elo	$0.20	$0.40	262K	3.4K
68	GPT-5.1OpenAI	1340Elo	$1.25	$10	400K	12.9K
69	mimo-v2-flash (non-thinking)Xiaomi	1337Elo	$0.10	$0.30	262K	6.7K
70	GPT-5.2 CodexOpenAI	1334Elo	$1.75	$14	400K	7.8K
71	DeepSeek V3.2DeepSeek	1332Elo	$0.21	$0.32	131K	10.5K
72	Gpt 5.1 CodexOpenAI	1330Elo	$1.25	$10	400K	6.2K
73	Kimi K2 TurboMoonshot AI	1330Elo	$1.15	$8.00	262K	15.4K
74	Claude Haiku 4.5Anthropic	1327Elo	$1.00	$5.00	200K	25.4K
75	MiniMax M2MiniMax	1305Elo	$0.26	$1.02	205K	8.4K
76	Laguna Xs.2Poolside	1303Elo	$0.10	$0.20	262K	3.9K
77	mimo-v2-flash (thinking)Xiaomi	1301Elo	$0.10	$0.30	262K	2.1K
78	Deepseek v3.2 ExpDeepSeek	1288Elo	$0.27	$0.41	164K	4.9K
79	Qwen 3 CoderAlibaba	1281Elo	$0.40	$1.60	262K	15.2K
80	Mistral Medium 3.5Mistral	1267Elo	$1.50	$7.50	262K	2.2K
81	KAT Coder Pro v1Kwai	1259Elo	$0.21	$0.83	256K	1.9K
82	Gemini 3.1 Flash LiteGoogle	1253Elo	$0.25	$1.50	1M	13.6K
83	Qwen3.5 35b A3bAlibaba	1250Elo	$0.14	$1.00	262K	1.8K
84	Trinity Large ThinkingArcee AI	1243Elo	$0.25	$0.80	262K	1.3K
85	Gpt 5.1 Codex MiniOpenAI	1240Elo	$0.25	$2.00	400K	1.4K
86	Qwen3.5 FlashAlibaba	1237Elo	—	—	—	1.6K
87	Grok 4.1 FastSpaceXAI	1234Elo	$0.20	$0.50	2M	6.9K
88	Mistral Large 3Mistral	1224Elo	$0.50	$1.50	—	1.0K
89	Grok 4.1 ThinkingSpaceXAI	1209Elo	—	—	—	1.2K
90	Gemini 2.5 ProGoogle	1204Elo	$1.25	$10	1M	3.3K
91	Devstral 2Mistral	1200Elo	—	—	—	1.6K
92	Granite 4.1 8bIBM	1200Elo	$0.05	$0.10	131K	1.8K
93	Mercury 2Inception AI	1164Elo	$0.25	$0.75	128K	947
94	Grok 4 Fast ReasoningSpaceXAI	1150Elo	$0.20	$0.50	2M	934
95	Grok Code Fast 1SpaceXAI	1140Elo	$0.20	$1.50	—	981
96	Devstral Medium 2507Mistral	1092Elo	$0.40	$2.00	128K	992

LiveBench Coding

View original source →

#	Model	Score	Input $/M	Output $/M	Context	CI
1	GPT-5.2 CodexOpenAI	83.6%	—	—	—	—
2	GPT-5.5 Thinking xHigh EffortOpenAI	82.5%	—	—	—	—
3	Claude 4.7 Opus Thinking xHigh EffortAnthropic	82.1%	—	—	—	—
4	Claude 4 SonnetAnthropic	80.7%	—	—	—	—
5	GPT-5.1 Codex Max HighOpenAI	80.7%	—	—	—	—
6	Claude Sonnet 4.5 ThinkingAnthropic	80.4%	—	—	—	—
7	GLM 5.2Z.AI	79.7%	—	—	—	—
8	Claude 4.5 Opus Thinking High EffortAnthropic	79.7%	—	—	—	—
9	Claude 4.8 Opus Thinking xHigh EffortAnthropic	79.3%	—	—	—	—
10	Claude 4.6 Sonnet Thinking Medium EffortAnthropic	79.3%	—	—	—	—
11	GPT-5.3 InstantOpenAI	78.6%	—	—	—	—
12	Claude Fable 5 Thinking xHigh Effort*losing out due to stricter content moderationAnthropic	78.6%	—	—	—	—
13	Claude Sonnet 5 xHigh EffortAnthropic	78.6%	—	—	—	—
14	Kimi K2.6 ThinkingMoonshot AI	78.6%	—	—	—	—
15	Claude 4.5 Opus Medium EffortAnthropic	78.5%	—	—	—	—
16	Claude 4.6 Opus Thinking High EffortAnthropic	78.2%	—	—	—	—
17	Gemini 3.5 Flash HighGoogle	78.2%	—	—	—	—
18	GPT-5.3 Codex HighOpenAI	78.2%	—	—	—	—
19	Qwen 3.6 PlusAlibaba	78.2%	—	—	—	—
20	Kimi K2.5 ThinkingMoonshot AI	77.9%	—	—	—	—
21	GPT-5.4 Thinking xHigh EffortOpenAI	77.5%	—	—	—	—
22	Claude 4 Sonnet ThinkingAnthropic	77.5%	—	—	—	—
23	GPT-5.1 No ThinkingOpenAI	77.5%	—	—	—	—
24	Gemini 3.1 Pro Preview HighGoogle	76.5%	—	—	—	—
25	GPT-5.2 No ThinkingOpenAI	76.5%	—	—	—	—
26	GPT-5.2 HighOpenAI	76.1%	—	—	—	—
27	Claude 4.1 OpusAnthropic	76.1%	—	—	—	—
28	Claude Sonnet 4.5Anthropic	76.1%	—	—	—	—
29	Gemini 2.5 Pro (Max Thinking)Google	75.7%	—	—	—	—
30	DeepSeek V3.2DeepSeek	75.7%	—	—	—	—
31	GLM 5.1Z.AI	75.4%	—	—	—	—
32	Claude 4.1 Opus ThinkingAnthropic	74.7%	—	—	—	—
33	Gemini 3 Pro Preview HighGoogle	74.6%	—	—	—	—
34	Kimi K2 InstructMoonshot AI	74.3%	—	—	—	—
35	Qwen 3.7 MaxAlibaba	74.2%	—	—	—	—
36	Kimi K2.7 CodeMoonshot AI	74.0%	—	—	—	—
37	Gemini 3 Flash Preview HighGoogle	73.9%	—	—	—	—
38	GLM 5V TurboZ.AI	73.9%	—	—	—	—
39	GLM 5Z.AI	73.6%	—	—	—	—
40	DeepSeek V3.2 ExpDeepSeek	73.2%	—	—	—	—
41	Grok 4xAI	73.1%	—	—	—	—
42	GLM 4.7Z.AI	73.1%	—	—	—	—
43	Claude Haiku 4.5 ThinkingAnthropic	72.8%	—	—	—	—
44	GPT-5.1 HighOpenAI	72.5%	—	—	—	—
45	Claude Haiku 4.5Anthropic	72.2%	—	—	—	—
46	GPT-5.4 Nano xHighOpenAI	72.1%	—	—	—	—
47	GPT-5 ProOpenAI	72.1%	—	—	—	—
48	GPT-5.1 CodexOpenAI	71.8%	—	—	—	—
49	Qwen 3.6 27BAlibaba	71.8%	—	—	—	—
50	GPT-5.4 Mini xHighOpenAI	71.6%	—	—	—	—
51	Nemotron 3 Ultra 550B A55BNVIDIA	71.3%	—	—	—	—
52	GLM 4.6Z.AI	71.0%	—	—	—	—
53	Minimax M2.5MiniMax	70.7%	—	—	—	—
54	DeepSeek V3.2 Exp ThinkingDeepSeek	70.1%	—	—	—	—
55	DeepSeek V4 ProDeepSeek	70.0%	—	—	—	—
56	Grok 4.3xAI	69.9%	—	—	—	—
57	GPT-5.1 Codex MiniOpenAI	69.9%	—	—	—	—
58	Grok 4.1 FastxAI	69.6%	—	—	—	—
59	Qwen 3 235B A22B Instruct 2507Alibaba	69.6%	—	—	—	—
60	DeepSeek V4 FlashDeepSeek	69.2%	—	—	—	—
61	Qwen 3 235B A22B Thinking 2507Alibaba	69.0%	—	—	—	—
62	MiMo V2 ProXiaomi	68.8%	—	—	—	—
63	Gemini 3.1 Flash Lite Preview HighGoogle	68.5%	—	—	—	—
64	Minimax M3MiniMax	68.2%	—	—	—	—
65	GPT-5 Mini HighOpenAI	68.2%	—	—	—	—
66	Qwen 3 Next 80B A3B InstructAlibaba	68.2%	—	—	—	—
67	Gemini 2.5 Flash (Max Thinking) (2025-09-25)Google	67.5%	—	—	—	—
68	Kimi K2 ThinkingMoonshot AI	67.4%	—	—	—	—
69	Devstral 2Mistral	66.8%	—	—	—	—
70	Gemini 2.5 Flash Lite (Max Thinking) (2025-06-17)Google	66.4%	—	—	—	—
71	Grok 4.20 BetaxAI	66.1%	—	—	—	—
72	Gemini 2.5 Flash (Max Thinking) (2025-06-05)Google	66.0%	—	—	—	—
73	Qwen 3 32BAlibaba	66.0%	—	—	—	—
74	Trinity Large PreviewArcee AI	65.7%	—	—	—	—
75	Grok Build 0.1xAI	65.4%	—	—	—	—
76	Gemini 2.5 Flash Lite (Max Thinking) (2025-09-25)Google	65.4%	—	—	—	—
77	Qwen 3.6 FlashAlibaba	64.9%	—	—	—	—
78	DeepSeek V3.2 ThinkingDeepSeek	64.6%	—	—	—	—
79	Grok Code FastxAI	64.4%	—	—	—	—
80	GLM 4.6VZ.AI	64.2%	—	—	—	—
81	GPT-5 Nano HighOpenAI	62.4%	—	—	—	—
82	Qwen 3 Next 80B A3B ThinkingAlibaba	60.7%	—	—	—	—
83	Gemma 4 31BGoogle	60.3%	—	—	—	—
84	GPT OSS 120bOpenAI	60.2%	—	—	—	—
85	Grok 4.20 Beta (Non-Reasoning)xAI	58.5%	—	—	—	—
86	Elephant AlphaOpenRouter	56.7%	—	—	—	—
87	Minimax M2.7MiniMax	54.9%	—	—	—	—
88	Grok 4.1 Fast (Non-Reasoning)xAI	54.3%	—	—	—	—
89	Nemotron 3 Super 120B A12BNVIDIA	54.1%	—	—	—	—
90	Qwen 3 30B A3BAlibaba	48.9%	—	—	—	—

/ Live Benchmarks

Need help choosing the right AI model for your business?

Benchmarks are a starting point, not an answer. The right model depends on your workload, budget, and integration constraints — let's figure it out together.

Get in touch →