下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
基于 Hopper GPU 的 MLA 内核优化
开源MIT
认领
收藏
分享
11.4k
星数
中文
C++
主语言
活跃
8
贡献者
41
Issues
组织
最新版本
812
Forks
MIT
协议
更多
这是一款专为 Hopper 架构 GPU 设计的高效 MLA 解码内核,旨在提升大规模语言模型(LLM)的推理效率。它采用 C++ 和 CUDA 开发,通过 NVIDIA 的 CUTLASS 库和分页缓存技术,解决了传统方法在处理变长序列时的性能瓶颈,并显著提升了内存带宽和计算效率。

评论

评分:
暂无精选评论