Nunchaku
nunchaku
🧩 软硬件结合
已发布
项目简介
[ICLR2025 Spotlight] SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models
Nunchaku 是一个专为 4 位量化神经网络设计的高性能推理引擎,源自 MIT 团队提出的 SVDQuant 技术(论文发表于 arXiv:2411.05007)。该项目旨在解决大模型在消费级 GPU 上部署时显存占用高、推理速度慢的核心痛点,通过创新的低比特量化与高效算子融合,让原本需要高端显卡的生成式 AI 模型能够在普通硬件上流畅运行。
标签
项目特点
**SVDQuant量化方法**:通过低秩分解吸收异常值,实现高质量的4位权值和激活值量化(W4A4)。
**显著性能提升**:在多种模型上实现2-3倍加速,显存占用降低3-4倍。
**广泛模型支持**:支持FLUX.1系列、SANA、Qwen-Image、PixArt-∑等多种主流扩散模型。
**低显存推理**:支持逐层CPU卸载,最低仅需4 GiB显存即可运行FLUX模型。
**丰富的功能集成**:支持LoRA、ControlNet、PuLID、多批次推理等高级功能。
**ComfyUI集成**:提供原生ComfyUI节点,方便在ComfyUI工作流中使用。
**多平台支持**:支持NVIDIA RTX 20系列及以上GPU,包括RTX 5090的NVFP4精度。
**Python后端**:提供Pythonic的模型实现,便于理解和扩展。
技术规格
| 量化精度 | W4A4 (INT4/NVFP4) |
|---|---|
| 量化方法 | SVDQuant (后训练量化) |
| 支持模型 | FLUX.1-dev, FLUX.1-schnell, FLUX.1-tools, SANA, Qwen-Image, PixArt-∑, Z-Image-Turbo等 |
| 显存需求 | 最低4 GiB (支持CPU卸载) |
| 加速比 | 相比BF16: 2-8.7倍; 相比NF4 W4A16: 3倍 |
| GPU支持 | NVIDIA RTX 20系列及以上 (支持NVFP4的RTX 5090) |
| 框架集成 | ComfyUI, Gradio |
| 额外功能 | LoRA, ControlNet, PuLID, 多批次推理, CPU卸载 |
项目资源
| 资源名称 | 说明 | 链接 |
|---|---|---|
| 2411.05007 | 打开 | |
| nunchaku.tech | 打开 | |
| hanlab.mit.edu | 打开 | |
| hanlab.mit.edu | 打开 | |
| demo.nunchaku.tech | 打开 | |
| huggingface.co | 打开 | |
| modelscope.cn | 打开 | |
| GitHub 仓库: nunchaku-ai/ComfyUI-nunchaku | 打开 | |
| GitHub 仓库: nunchaku-ai/deepcompressor | 打开 | |
| Discord 社区 | 打开 | |
| GitHub 仓库: nunchaku-ai/nunchaku | 打开 | |
| GitHub 仓库: nunchaku-ai/nunchaku | 打开 | |
| GitHub 仓库: nunchaku-ai/nunchaku | 打开 |
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Python 3.8+ | 1 | — | 运行环境 |
| PyTorch | 1 | — | 深度学习框架 |
| CUDA Toolkit | 1 | — | GPU计算支持 |
| NVIDIA GPU (RTX 20系列及以上) | 1 | — | 推荐16GB+显存 |
| 预训练扩散模型 (如FLUX.1-dev) | 1 | — | 从Hugging Face下载 |
| 4位量化模型权重 | 1 | — | 从Hugging Face/ModelScope下载 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| Python开发环境 | 运行和调试代码 | ✅ 是 |
| GPU (推荐) | 加速深度学习模型推理和训练 | ▢ 推荐 |
| Git | 克隆和管理代码仓库 | ✅ 是 |
能力画像
⚪ 记忆与知识检索: 1/5
🔵 逻辑推演: 4/5
⚪ 表达与交流: 1/5
⚪ 感知与观察: 1/5
🔵 数理与计算: 5/5
⚪ 动手与操作: 1/5
🔵 狂热与坚持: 3/5
🔵 创造与创新: 4/5
项目图库
视频
YHAVe-oM7U8
fdd4ab68-6489-4c65-8768-259bd866e8f8
所需技能
🔧 **动手能力**:需要能够配置Python环境和安装依赖,熟悉Git操作,能够运行命令行脚本。
💻 **编程能力**:需要具备Python编程基础,了解PyTorch框架,能够阅读和修改示例脚本。
⚡ **电子电路**:不涉及硬件电路。
适用场景
**学术研究**:研究低比特量化技术(W4A4)在扩散模型中的应用和效果。
**AI应用开发**:在资源受限的环境(如笔记本电脑)中部署和运行大型扩散模型。
**图像生成**:使用FLUX、SANA等模型进行高效的文生图、图生图、深度图生成等任务。
**ComfyUI工作流**:将4位量化模型集成到ComfyUI工作流中,实现高效的图像生成管线。
**模型部署**:将大型扩散模型量化后部署到边缘设备或云端,降低推理成本和延迟。