2025 年 12 月大模型排行榜

| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gemini-3-pro | 1491 |
| 2 | grok-4.1-thinking | 1481 |
| 3 | claude-opus-4-5-thinking-32k | 1471 |
| 4 | grok-4.1 | 1463 |
| 5 | claude-opus-4-5 | 1462 |
| 6 | gpt-5.1-high | 1457 |
| 7 | gemini-2.5-pro | 1451 |
| 8 | claude-sonnet-4-5-thinking-32k | 1448 |
| 9 | claude-opus-4-1-thinking-16k | 1448 |
| 10 | claude-sonnet-4-5 | 1445 |
| 11 | gpt-4.5 | 1443 |
| 12 | claude-opus-4-1 | 1441 |
| 13 | chatgpt-4o-latest | 1440 |
| 14 | gpt-5-high | 1437 |
| 15 | gpt-5.1 | 1436 |
| 16 | o3 | 1434 |
| 17 | qwen3-max | 1433 |
| 18 | kimi-k2-thinking-turbo | 1428 |
| 19 | grok-4-1-fast-reasoning | 1427 |
| 20 | glm-4.6 | 1426 |
| 排名 | 模型 | 分数 | 机构 |
|---|---|---|---|
| 1 | gemini-3-pro | 1491 | |
| 2 | grok-4.1-thinking | 1481 | xAI |
| 3 | claude-opus-4-5-thinking-32k | 1471 | Anthropic |
| 4 | grok-4.1 | 1463 | xAI |
| 5 | claude-opus-4-5 | 1462 | Anthropic |
| 6 | gpt-5.1-high | 1457 | OpenAI |
| 7 | gemini-2.5-pro | 1451 | |
| 8 | claude-sonnet-4-5-thinking-32k | 1448 | Anthropic |
| 9 | claude-opus-4-1-thinking-16k | 1448 | Anthropic |
| 10 | claude-sonnet-4-5 | 1445 | Anthropic |
| 11 | gpt-4.5 | 1443 | OpenAI |
| 12 | claude-opus-4-1 | 1441 | Anthropic |
| 13 | chatgpt-4o-latest | 1440 | OpenAI |
| 14 | gpt-5-high | 1437 | OpenAI |
| 15 | gpt-5.1 | 1436 | OpenAI |
| 16 | o3 | 1434 | OpenAI |
| 17 | qwen3-max | 1433 | Alibaba |
| 18 | kimi-k2-thinking-turbo | 1428 | Moonshot |
| 19 | grok-4-1-fast-reasoning | 1427 | xAI |
| 20 | glm-4.6 | 1426 | Z.ai |
「LMArena 排名」是基于众包用户投票的大语言模型排行榜。通过让用户与两个匿名模型对话并选择更好的回答,使用 Elo 评分系统计算模型的相对实力。该排行榜覆盖文本、视觉、代码等多个能力维度,是目前最权威的 LLM 评测榜单之一,基于此榜单我们做了模型名称聚合和清理工作。