2025 年 12 月大模型排行榜

| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gemini-3-pro | 1490 |
| 2 | gemini-3-flash | 1478 |
| 3 | grok-4.1-thinking | 1477 |
| 4 | claude-opus-4-5-thinking-32k | 1469 |
| 5 | claude-opus-4-5 | 1467 |
| 6 | grok-4.1 | 1464 |
| 7 | gemini-3-flash (thinking-minimal) | 1463 |
| 8 | gpt-5.1-high | 1455 |
| 9 | gemini-2.5-pro | 1451 |
| 10 | claude-sonnet-4-5-thinking-32k | 1450 |
| 11 | claude-opus-4-1-thinking-16k | 1448 |
| 12 | claude-sonnet-4-5 | 1447 |
| 13 | ernie-5.0 | 1446 |
| 14 | gpt-5.2 | 1443 |
| 15 | gpt-4.5 | 1443 |
| 16 | claude-opus-4-1 | 1441 |
| 17 | chatgpt-4o-latest | 1440 |
| 18 | gpt-5.2-high | 1440 |
| 19 | gpt-5.1 | 1438 |
| 20 | gpt-5-high | 1436 |
| 排名 | 模型 | 分数 | 机构 |
|---|---|---|---|
| 1 | gemini-3-pro | 1490 | |
| 2 | gemini-3-flash | 1478 | |
| 3 | grok-4.1-thinking | 1477 | xAI |
| 4 | claude-opus-4-5-thinking-32k | 1469 | Anthropic |
| 5 | claude-opus-4-5 | 1467 | Anthropic |
| 6 | grok-4.1 | 1464 | xAI |
| 7 | gemini-3-flash (thinking-minimal) | 1463 | |
| 8 | gpt-5.1-high | 1455 | OpenAI |
| 9 | gemini-2.5-pro | 1451 | |
| 10 | claude-sonnet-4-5-thinking-32k | 1450 | Anthropic |
| 11 | claude-opus-4-1-thinking-16k | 1448 | Anthropic |
| 12 | claude-sonnet-4-5 | 1447 | Anthropic |
| 13 | ernie-5.0 | 1446 | Baidu |
| 14 | gpt-5.2 | 1443 | OpenAI |
| 15 | gpt-4.5 | 1443 | OpenAI |
| 16 | claude-opus-4-1 | 1441 | Anthropic |
| 17 | chatgpt-4o-latest | 1440 | OpenAI |
| 18 | gpt-5.2-high | 1440 | OpenAI |
| 19 | gpt-5.1 | 1438 | OpenAI |
| 20 | gpt-5-high | 1436 | OpenAI |
「LMArena 排名」是基于众包用户投票的大语言模型排行榜。通过让用户与两个匿名模型对话并选择更好的回答,使用 Elo 评分系统计算模型的相对实力。该排行榜覆盖文本、视觉、代码等多个能力维度,是目前最权威的 LLM 评测榜单之一,基于此榜单我们做了模型名称聚合和清理工作。