下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
从零开始构建的轻量级 vLLM
开源MIT
认领
收藏
分享
13.4k
星数
中文
Python
主语言
活跃
15
贡献者
67
Issues
组织
最新版本
2k
Forks
MIT
协议
更多
该项目是用 Python 实现的轻量级 vLLM(大语言模型推理引擎)项目,核心代码仅 1000 多行。它结构清晰、易于阅读,推理速度媲美 vLLM 原版,并集成了前缀缓存(Prefix Caching)、张量并行(Tensor Parallelism)和 Torch 编译等推理优化技术。
收录于:
第 111 期
标签:
推理框架
AI
Python

评论

评分:
暂无精选评论