下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
更高效的 LLMs 推理和服务引擎
开源Apache-2.0
认领
收藏
分享
33.1k
星数
中文
Python
主语言
活跃
762
贡献者
2k
Issues
组织
0.6.6.post1
最新版本
5k
Forks
Apache-2.0
协议
更多
vllm image
这是一个高效易用的大型语言模型推理引擎,专为解决推理速度慢、资源利用率低等问题而设计。它基于 PyTorch 和 CUDA,并结合内存优化算法(PagedAttention)、计算图优化和模型并行技术,大幅降低 GPU 内存占用,并充分利用多 GPU 资源提升推理性能。同时,vLLM 与 HF 模型无缝兼容。支持在 GPU、CPU、TPU 等多种硬件平台上高效运行,适用于实时问答、文本生成和推荐系统等场景。
收录于:
第 105 期
标签:
AI
CUDA
LLM
Python

评论

评分:
暂无精选评论