开源工具集

探索创意AI工具，体验无限可能

推荐开源工具

开源工具

AutoStudio

AutoStudio：在多轮交互式图像生成中制作一致的主题 AutoStudio: Craf...

image-generation multi-turn-dialogue text-to-image-generation

Medical-SAM2

● 医疗 SAM 2：通过 Segment Anything Model 2 将医疗图像分割为...

deep-learning medical medical-imaging

MiniCPM-V

MiniCPM-V 2.6：GPT-4V 级别 MLLM，适用于手机上的单图像、多图像和视频 ...

multi-modal minicpm minicpm-v

ml-mdm

以数据和计算高效的方式训练高质量的文本到图像扩散模型 Train high-quality ...

machine-learning deep-learning pytorch

HivisionIDPhotos

一个轻量级的AI证件照制作算法。 HivisionIDPhotos: a lightweig...

docker demo machine-learningdemo

ultralytics

目标检测跟踪模型快速准确识别和定位图像中多个对象

machine-learning tracking deep-learning

visual-try-on

一款 Chrome 扩展，可轻松对任何电子商务商店的服装进行视觉试用。填写下面的表格以获得有关...

chrome-extension tryon ecommerce

RapidLayoutRecover

针对文档类图像，整合版面分析、文字识别、表格识别和公式识别结果，还原版面布局信息。

layout-analysis layout-recover

hallo

Hallo：用于人像图像动画的分层音频驱动视觉合成 Hallo: Hierarchical ...

image-animation face-animation video-animation

EvTexture

[ICML 2024] EvTexture：事件驱动的视频超分辨率纹理增强 [ICML 20...

video-super-resolution video-restoration event-camera

sports

计算机视觉和体育 computer vision and sports

visualization tutorial deep-neural-networks

Deep-Live-Cam

实时换脸和一键视频深度伪造，仅使用单个图像（未经审查） real time face swa...

artificial-intelligence faceswap webcam

CogVideo

文本到视频生成：CogVideoX (2024) 和 CogVideo (ICLR 2023)...

video-generation sora llm

MIMO

《MIMO：空间分解建模的可控字符视频合成》正式实现。MIMO是一种可推广的可控视频合成模型，...

character-animation diffusion-models video-synthesis

VALL-E-X

微软的VALL-E X零触发TTS模型的开源实现。演示可在https://plachtaa.g...

text-to-speech tts gpt

Amphion

Amphion（/æm fa n/）是一个音频、音乐和语音生成工具包。其目的是支持可重复的研究...

text-to-speech audit vall-e

clone-voice

一个带web界面的声音克隆工具，使用你的音色或任意声音来录制音频 A sound cloni...

sts tts voice-assistant

TTS

一款面向文本到语音转换的深度学习工具包，经过了研发和生产的实战测试 a deep learn...

Python text-to-speech deep-learning

FunASR

基本的端到端语音识别工具包和开源SOTA预训练模型。 A Fundamental End-t...

pytorch speech-recognition punctuation

OpenVoice

通过MyShell进行即时语音克隆。 Instant voice cloning by My...

text-to-speech ttsvoice-clone zero-shot-tts

5
6
7
8
9