FlashMLA—基于 Hopper GPU 的 MLA 内核优化这是一款专为 Hopper 架构 GPU 设计的高效 MLA 解码内核,旨在提升大规模语言模型(LLM)的推理效率。它采用 C++ 和 CUDA 开发,通过 Ndeepseek-ai·C++·1 个月前466
vllm—更高效的 LLMs 推理和服务引擎这是一个高效易用的大型语言模型推理引擎,专为解决推理速度慢、资源利用率低等问题而设计。它基于 PyTorch 和 CUDA,并结合内存优化算法(PagedAttvllm-project·Python·3 个月前1.1k
alien—强大的人工生命模拟工具该项目是基于 CUDA 的 2D 粒子引擎构建的人工生命模拟工具。它提供了图形化用户界面和粒子编辑器,能够轻松模拟软体、流体、数字生物体、遗传和进化等过程。生物chrxh·C++·6 个月前3.5k
cupy—GPU 版的 NumPy 和 SciPy1这是一个利用 GPU 加速数值计算的 Python 库,与 NumPy 和 SciPy 兼容。你可以轻松地将现有的 NumPy/SciPy 代码,迁移到 NVIcupy·Python·6 个月前994
GPU-Puzzles—学习 GPU 并行编程的互动式教程1该项目提供了 14 道题,帮助学习 GPU 编程。你需要编写代码来解决这些问题。尽管代码看起来像 Python,但实际上是使用 numba 库编写 CUDA 代srush·Jupyter·6 个月前948