DeepSeek-V3—DeepSeek 开源的混合专家模型2这是一个基于混合专家(MoE)和多头潜在注意力(MLA)架构的开源大语言模型,在数学推理、代码生成等复杂任务中表现优秀。该模型总规模达 671B 参数,但每个 deepseek-ai·Python·16 天前2.1k
vllm—更高效的 LLMs 推理和服务引擎这是一个高效易用的大型语言模型推理引擎,专为解决推理速度慢、资源利用率低等问题而设计。它基于 PyTorch 和 CUDA,并结合内存优化算法(PagedAttvllm-project·Python·1 个月前543
garak—开源的 LLMs 漏洞扫描工具该项目是 NVIDIA 开源的用于扫描 LLMs 漏洞的工具,支持检测 LLM 可能存在的安全问题和不良行为,包括幻觉、数据泄漏、提示注入、错误信息、有毒内容生NVIDIA·Python·1 个月前280
llm-universe—《动手学大模型应用开发》该项目是专为小白开发者设计的大模型应用开发教程。内容涵盖了大模型的概念介绍、如何调用大模型API、知识库的搭建、构建 RAG(Retrieval-Augmentdatawhalechina·Jupyter·9 个月前2.5k
llama3-from-scratch—从头开始实现 Llama 3 的教程该项目通过逐层构建 Llama 3 的方式,帮助人们深入理解 LLM 是如何工作的。作者使用 PyTorch 框架,实现了加载模型权重、文本的分词处理、模型配置naklecha·Jupyter·8 个月前1.9k
ollama—本地运行各种 LLM 的工具这是一个用 Go 语言写的工具,用于在本地一条命令安装、启动和管理大型语言模型,支持 Llama 3、Gemma、Mistral 等大模型,适用于 Windowollama·Go·10 个月前2.1k
langchain—构建基于 LLM 应用的框架LLM 是基于大数据预先训练好的大型深度学习模型,该项目可让 LLM 无需再训练就能访问新的数据集。它提供了开发 LLM 应用所需的各种模块,包括连接上下文来源langchain-ai·Jupyter·9 个月前1.5k
LLaMA-Factory—专门针对 LLM 做微调的框架这是一个让微调大型语言模型变得轻松的开源项目,它支持 LLaMA、Mistral、ChatGLM 等多种模型,以及增量预训练、奖励模型训练和精度等级等功能。引入hiyouga·Python·9 个月前882
llm-course—免费开源的大语言模型课程这是个免费的 LLM 课程,内容包含面向新手入门 LLM 的基础知识,面向程序员和科学家的 LLMs 产品和部署 LLM 应用的知识和笔记。mlabonne·Jupyter·1 年前2.5k
FastChat—用于训练和评估大型语言模型的开放平台这是一个用于训练、部署和评估大型语言模型的平台,你可以用它在本地部署和评估各种大模型。除此之外,它还提供了一个在线评估大模型的平台,用户可以向两个不同的大模型,lm-sys·Python·10 个月前746
ml-ferret—苹果开源的多模态语言大模型雪貂(Ferret)是苹果公司开源的多模态 LLM 模型,它可以分析和识别图像上的信息,并绘制边界框,当查询时可以做出响应。即提供一张图片,询问关于图像上信息的apple·Python·1 年前3.2k
ml-engineering—机器学习:LLM/VLM 训练与工程该项目是作者训练开源 BLOOM-176B 大模型和 IDEFICS-80B 多模态模型的经验总结,还提供了大量可以直接拿来用的代码和脚本,希望能够帮助你成功训stas00·Python·1 年前3.2k
llama3—Meta Llama 3 官方仓库Meta 开源的新一代大模型 Llama 3,虽然目前只放出了 8B 和 70B 两个版本,但是在评估结果上已经优于 Claude 3 Sonnet、Mistrmeta-llama·Python·9 个月前1.3k
DeepSpeed—微软开源的深度学习训练优化库众所周知训练大模型(LLM)是一件“费时费钱”的事情,该项目通过 ZeRO++ 技术,在训练时将模型状态分割到每个 GPU 上,通过提高吞吐量的方式,降低训练所microsoft·Python·1 年前1.6k