下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
从零开始构建的轻量级 vLLM
开源MIT
认领
收藏
分享
6.1k
星数
中文
Python
主语言
活跃
8
贡献者
32
Issues
组织
最新版本
745
Forks
MIT
协议
更多
该项目是用 Python 实现的轻量级 vLLM(大语言模型推理引擎)项目,核心代码仅 1000 多行。它结构清晰、易于阅读,推理速度媲美 vLLM 原版,并集成了前缀缓存(Prefix Caching)、张量并行(Tensor Parallelism)和 Torch 编译等推理优化技术。
收录于:
第 111 期
标签:
推理框架
AI
Python

评论

评分:
暂无精选评论