Nunchaku nunchaku

🧩 软硬件结合 已发布
nunchaku-ai 1024 Stars 未知 BOM 完整度: 3/5 教程完整度: 3/5

项目简介

[ICLR2025 Spotlight] SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models


Nunchaku 是一个专为 4 位量化神经网络设计的高性能推理引擎,源自 MIT 团队提出的 SVDQuant 技术(论文发表于 arXiv:2411.05007)。该项目旨在解决大模型在消费级 GPU 上部署时显存占用高、推理速度慢的核心痛点,通过创新的低比特量化与高效算子融合,让原本需要高端显卡的生成式 AI 模型能够在普通硬件上流畅运行。

标签

项目特点

**SVDQuant量化方法**:通过低秩分解吸收异常值,实现高质量的4位权值和激活值量化(W4A4)。
**显著性能提升**:在多种模型上实现2-3倍加速,显存占用降低3-4倍。
**广泛模型支持**:支持FLUX.1系列、SANA、Qwen-Image、PixArt-∑等多种主流扩散模型。
**低显存推理**:支持逐层CPU卸载,最低仅需4 GiB显存即可运行FLUX模型。
**丰富的功能集成**:支持LoRA、ControlNet、PuLID、多批次推理等高级功能。
**ComfyUI集成**:提供原生ComfyUI节点,方便在ComfyUI工作流中使用。
**多平台支持**:支持NVIDIA RTX 20系列及以上GPU,包括RTX 5090的NVFP4精度。
**Python后端**:提供Pythonic的模型实现,便于理解和扩展。

技术规格

量化精度 W4A4 (INT4/NVFP4)
量化方法 SVDQuant (后训练量化)
支持模型 FLUX.1-dev, FLUX.1-schnell, FLUX.1-tools, SANA, Qwen-Image, PixArt-∑, Z-Image-Turbo等
显存需求 最低4 GiB (支持CPU卸载)
加速比 相比BF16: 2-8.7倍; 相比NF4 W4A16: 3倍
GPU支持 NVIDIA RTX 20系列及以上 (支持NVFP4的RTX 5090)
框架集成 ComfyUI, Gradio
额外功能 LoRA, ControlNet, PuLID, 多批次推理, CPU卸载

项目资源

资源名称 说明 链接
2411.05007 打开
nunchaku.tech 打开
hanlab.mit.edu 打开
hanlab.mit.edu 打开
demo.nunchaku.tech 打开
huggingface.co 打开
modelscope.cn 打开
GitHub 仓库: nunchaku-ai/ComfyUI-nunchaku 打开
GitHub 仓库: nunchaku-ai/deepcompressor 打开
Discord 社区 打开
GitHub 仓库: nunchaku-ai/nunchaku 打开
GitHub 仓库: nunchaku-ai/nunchaku 打开
GitHub 仓库: nunchaku-ai/nunchaku 打开

物料清单 (BOM)

物料名称 数量 参考价格 备注
Python 3.8+ 1 运行环境
PyTorch 1 深度学习框架
CUDA Toolkit 1 GPU计算支持
NVIDIA GPU (RTX 20系列及以上) 1 推荐16GB+显存
预训练扩散模型 (如FLUX.1-dev) 1 从Hugging Face下载
4位量化模型权重 1 从Hugging Face/ModelScope下载

所需工具

工具用途是否必需
Python开发环境 运行和调试代码 ✅ 是
GPU (推荐) 加速深度学习模型推理和训练 ▢ 推荐
Git 克隆和管理代码仓库 ✅ 是

能力画像

⚪ 记忆与知识检索: 1/5
🔵 逻辑推演: 4/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 1/5
🔵 数理与计算: 5/5
⚪ 动手与操作: 1/5
🔵 狂热与坚持: 3/5
🔵 创造与创新: 4/5

视频

YHAVe-oM7U8

fdd4ab68-6489-4c65-8768-259bd866e8f8

所需技能

🔧 **动手能力**:需要能够配置Python环境和安装依赖,熟悉Git操作,能够运行命令行脚本。 💻 **编程能力**:需要具备Python编程基础,了解PyTorch框架,能够阅读和修改示例脚本。 ⚡ **电子电路**:不涉及硬件电路。

适用场景

**学术研究**:研究低比特量化技术(W4A4)在扩散模型中的应用和效果。
**AI应用开发**:在资源受限的环境(如笔记本电脑)中部署和运行大型扩散模型。
**图像生成**:使用FLUX、SANA等模型进行高效的文生图、图生图、深度图生成等任务。
**ComfyUI工作流**:将4位量化模型集成到ComfyUI工作流中,实现高效的图像生成管线。
**模型部署**:将大型扩散模型量化后部署到边缘设备或云端,降低推理成本和延迟。