HivisionIDPhotos—轻量级的 AI 证件照制作工具11这是一款简单易用的 AI 证件照制作工具,能够生成标准证件照和六寸排版照。它提供了简洁的 Web 界面和 API 服务,即使在没有 GPU 的电脑上也能够运行,Zeyi-Lin·Python·2 个月前5.7k
screenpipe—全天候录制屏幕的 AI 助手4这是一款开箱即用、可离线的桌面 AI 应用。它可以录制屏幕内容、捕获截图和音频,并将数据存储至本地数据库,结合 LLMs 的能力,实现自动记录、上下文感知的 Amediar-ai·Rust·1 个月前1.9k
moondream—小型的视觉语言模型这是一个可在资源受限的设备上运行的小型视觉语言模型,它能够理解并生成与图像相关的自然语言描述,支持图像识别、生成描述和问答等功能。vikhyat·Jupyter·20 天前609
udlbook—《Understanding Deep Learning》理解深度学习1该书是由 Simon J.D. Prince 编写的一本关于深度学习的专业书籍,内容涵盖深度学习的理论基础、性能评估、卷积网络、Transformers、图神经udlbook·Jupyter·20 天前413
spaCy—强大的自然语言处理 Python 库这是一个工业级的自然语言处理(NLP)库,支持 70 多种语言的分词和训练。它采用 Python 编写,可实现标注、解析和文本分类等功能,并支持模型打包与部署。explosion·Python·20 天前499
ultralytics—先进的对象检测和跟踪模型该项目是基于之前的 YOLO 版本,增加了新功能并改进了模型,在对象检测、跟踪、实例分割和图像分类等任务中表现出色。ultralytics·Python·20 天前248
Deep-Live-Cam—实时换脸与深度伪造技术1该项目利用 AI 技术实现了视频和图片的实时人脸替换。用户仅需提供一张图片,即可将选定的人脸替换到目标视频或图片上,生成栩栩如生的深度伪造效果。它采用 Pythhacksider·Python·3 个月前2.9k
moshi—可实时对话的语音模型该项目利用先进的流式神经音频编码器 Mimi,实现了一个能够进行实时、同时听和说(全双工)、自然对话的语音系统。它不仅能听懂你说的话,还可以像正常对话一样回答你kyutai-labs·Python·2 个月前1.5k
video2x—视频和图像无损放大工具该项目集成了多种超分辨率算法(如 Waifu2x、Anime4K、Real-ESRGAN),能够有效提高视频和图像的分辨率,并提供了图形界面(GUI)、Dockk4yt3x·C++·3 个月前2.2k
kotaemon—干净可定制的 RAG WebUI1该项目可以快速构建一个简洁、易于定制、拥有 Web 界面的 RAG 应用,让用户可以通过聊天的方式与本地文档交互。它不仅使用方便且功能丰富,支持多用户、文档预览Cinnamon·Python·2 个月前2.5k
Retrieval-based-Voice-Conversion-WebUI—开箱即用的 AI 变声器该项目是基于 VITS 的变声框架,仅需少量语音数据和普通的显卡,就能快速训练出高质量的语音转换模型。它提供了简单易用的 Web 和 GUI 界面,支持实时变声RVC-Project·Python·4 个月前2.2k
gpt-computer-assistant—极简的 GPT-4o 客户端2该项目是适用于 Windows、macOS 和 Ubuntu 的 GPT-4o 客户端,它拥有极简的用户界面,支持执行多种任务,包括读取屏幕、打开应用、系统音频Upsonic·Python·4 个月前4.3k
miniMNIST-c—C 语言实现的极简神经网络该项目展示了如何用 C 语言从头实现一个最小的神经网络。它用不到 200 行代码和 C 标准库,实现了一个极简的神经网络,能够对 MNIST 数据集中的手写数字konrad-gajdus·C·2 个月前770
fish-speech—所有人都能用的开源语音合成模型1该项目是由 Fish Audio 开发的基于 VQGAN+Llama 的文本转语音模型,它仅需 4GB 显存即可在个人设备上轻松运行和微调(16GB),支持中英fishaudio·Python·4 个月前2.9k
hallo—让静态图片开口“说话”这是一个音频驱动的视觉合成系统,可以根据输入的音频和图像生成肖像动画。它可以让静态的肖像图像,根据音频中的声音变化动起来,就像真人说话一样。fudan-generative-vision·Python·5 个月前3.4k