2026 年 1 月大模型排行榜

| 排名 | 模型 | 分数 |
|---|---|---|
| 1 | gemini-3-pro | 1489 |
| 2 | grok-4.1-thinking | 1477 |
| 3 | gemini-3-flash | 1471 |
| 4 | claude-opus-4-5-thinking-32k | 1468 |
| 5 | claude-opus-4-5 | 1467 |
| 6 | grok-4.1 | 1466 |
| 7 | gemini-3-flash (thinking-minimal) | 1464 |
| 8 | gpt-5.1-high | 1460 |
| 9 | claude-sonnet-4-5-thinking-32k | 1452 |
| 10 | gemini-2.5-pro | 1450 |
| 11 | claude-sonnet-4-5 | 1450 |
| 12 | claude-opus-4-1-thinking-16k | 1449 |
| 13 | ernie-5.0 | 1447 |
| 14 | claude-opus-4-1 | 1445 |
| 15 | gpt-4.5 | 1444 |
| 16 | gpt-5.2-high | 1444 |
| 17 | glm-4.7 | 1443 |
| 18 | chatgpt-4o-latest | 1442 |
| 19 | gpt-5.2 | 1441 |
| 20 | gpt-5.1 | 1436 |
| 排名 | 模型 | 分数 | 机构 |
|---|---|---|---|
| 1 | gemini-3-pro | 1489 | |
| 2 | grok-4.1-thinking | 1477 | xAI |
| 3 | gemini-3-flash | 1471 | |
| 4 | claude-opus-4-5-thinking-32k | 1468 | Anthropic |
| 5 | claude-opus-4-5 | 1467 | Anthropic |
| 6 | grok-4.1 | 1466 | xAI |
| 7 | gemini-3-flash (thinking-minimal) | 1464 | |
| 8 | gpt-5.1-high | 1460 | OpenAI |
| 9 | claude-sonnet-4-5-thinking-32k | 1452 | Anthropic |
| 10 | gemini-2.5-pro | 1450 | |
| 11 | claude-sonnet-4-5 | 1450 | Anthropic |
| 12 | claude-opus-4-1-thinking-16k | 1449 | Anthropic |
| 13 | ernie-5.0 | 1447 | Baidu |
| 14 | claude-opus-4-1 | 1445 | Anthropic |
| 15 | gpt-4.5 | 1444 | OpenAI |
| 16 | gpt-5.2-high | 1444 | OpenAI |
| 17 | glm-4.7 | 1443 | Z.ai |
| 18 | chatgpt-4o-latest | 1442 | OpenAI |
| 19 | gpt-5.2 | 1441 | OpenAI |
| 20 | gpt-5.1 | 1436 | OpenAI |
「LMArena 排名」是基于众包用户投票的大语言模型排行榜。通过让用户与两个匿名模型对话并选择更好的回答,使用 Elo 评分系统计算模型的相对实力。该排行榜覆盖文本、视觉、代码等多个能力维度,是目前最权威的 LLM 评测榜单之一,基于此榜单我们做了模型名称聚合和清理工作。