项目详情
由
分享


HelloGitHub 评分
10.0
5 人评分
开源•MIT
认领
讨论
收藏
分享
87.2k
星数
是
中文
Python
主语言
是
活跃
18
贡献者
128
Issues
是
组织
无
最新版本
1w
Forks
MIT
协议
更多

这是一个基于混合专家(MoE)和多头潜在注意力(MLA)架构的开源大语言模型,在数学推理、代码生成等复杂任务中表现优秀。该模型总规模达 671B 参数,但每个 token 只激活其中的 37B 参数。即在处理输入时,并非所有“专家”都参与计算,而是选择一部分专家进行处理。通过激活部分参数(37B)完成计算,从而降低了训练和推理的成本。
评论
评分:
暂无精选评论