下拉刷新
机器学习
分类

这里是按照「分类」阅读往期的 HelloGitHub 月刊内容, 您目前在查看 HelloGitHub 机器学习 集合。

深度学习论文的实现集合。这是一个关于神经网络和相关算法 PyTorch 实现的集合,代码里还包含逐行的注释。

annotated_deep_learning_paper_implementations
Star 886
Fork 144

OpenAI CLIP 模型中文预训练版本。该项目使用了大规模的中文数据进行训练(~2亿图文数据),提供了多个规模的预训练模型和技术报告,让使用者仅通过几行代码就能完成中文图文特征提取和图文检索。

import torch from PIL import Image import cn_clip.clip as clip from cn_clip.clip import load_from_name, available_models print("Available models:", available_models()) # Available models: ['ViT-B-16', 'ViT-L-14', 'ViT-L-14-336', 'ViT-H-14', 'RN50'] device = "cuda" if torch.cuda.is_available() else "cpu" model, preprocess = load_from_name("ViT-B-16", device=device, download_root='./') model.eval() image = preprocess(Image.open("examples/pokemon.jpeg")).unsqueeze(0).to(device) text = clip.tokenize(["杰尼龟", "妙蛙种子", "小火龙", "皮卡丘"]).to(device) with torch.no_grad(): image_features = model.encode_image(image) text_features = model.encode_text(text) # 对特征进行归一化,请使用归一化后的图文特征用于下游任务 image_features /= image_features.norm(dim=-1, keepdim=True) text_features /= text_features.norm(dim=-1, keepdim=True) logits_per_image, logits_per_text = model.get_similarity(image, text) probs = logits_per_image.softmax(dim=-1).cpu().numpy() print("Label probs:", probs) # 图文匹配概率 [[1.268734e-03 5.436878e-02 6.795761e-04 9.436829e-01]]
Chinese-CLIP
Star 474
Fork 30

从零编写深度学习推理框架的教程。手把手教你用 C++ 写出一个深度学习推理框架,项目整体风格和结构借鉴了Caffe。初学者通过该教程不仅可以了解深度学习框架背后的知识,还能够学会如何上手一个中等规模的 C++ 项目。

KuiperInfer
Star 1.6w
Fork 2.3k

一款可以给老旧照片上色的项目。该项目基于深度学习实现了对黑白图像和视频进行着色的功能。

DeOldify
5
wandb
Star 5.4k
Fork 417

一款轻量级的机器学习可视化工具。该项目是用于可视化和跟踪机器学习实验的工具,通过几行代码就可以实现跟踪、比较和可视化机器学习实验。

import wandb # 1. Start a W&B run wandb.init(project="gpt3") # 2. Save model inputs and hyperparameters config = wandb.config config.learning_rate = 0.01 # Model training code here ... # 3. Log metrics over time to visualize performance for i in range(10): wandb.log({"loss": loss})
wandb
Star 2.1k
Fork 330

快速上手 AI 理论及应用实战。该教程包含学习 AI 必备的数学基础,机器学习实战小项目、深度学习入门、自然语言通用框架 BERT 实战,以及大量数据集。

7
vmaf
Star 3.4k
Fork 672

Netflix 开源的视频质量评估算法。一种将人类视觉模型与机器学习结合的评估视频质量的方法,目的是改善观众们的观看体验。

vmaf
Star 1.7k
Fork 167

根据文本生成 3D 人体运动的模型。论文《Human Motion Diffusion Model》第一作者开源的 PyTorch 实现。

motion-diffusion-model
Star 2.3w
Fork 2.3k

OpenAI 开源的多语言识别系统。该项目是强大的自动语音识别系统,支持包括中文在内的多种语言识别。尤其是在快语速、口音、背景噪音等场景,依旧表现出色,能够达到极高的准确率。

import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"]) # 命令行使用 # $ whisper --language Chinese --model large audio.wav # [00:00.000 --> 00:08.000] 如果他们使用航空的方式运输货物在某些航线上可能要花几天的时间才能卸货和通关
whisper
Star 4.1w
Fork 6.4k

可以根据文字生成图片的模型。只要输入一段文字描述,就能得到一张由 AI 生成的图片,除此之外该项目还支持将粗糙的草图转化成精致的艺术图片。

# make sure you're logged in with `huggingface-cli login` from torch import autocast from diffusers import StableDiffusionPipeline pipe = StableDiffusionPipeline.from_pretrained( "CompVis/stable-diffusion-v1-4", use_auth_token=True ).to("cuda") prompt = "a photo of an astronaut riding a horse on mars" with autocast("cuda"): image = pipe(prompt)["sample"][0] image.save("astronaut_rides_horse.png")
stable-diffusion