Shimmy shimmy

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
Michael-A-Kuykendall 1980 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

⚡ Python-free Rust inference server — OpenAI-API compatible. GGUF + SafeTensors, hot model swap, auto-discovery, single


Shimmy 是一个轻量级的开源 API 服务器,旨在作为 OpenAI API 的本地替代方案。它以一个单一二进制文件的形式,提供了 100% 兼容 OpenAI 的接口,让用户能够在本地运行 GGUF 格式的大语言模型,无需依赖任何外部服务或复杂的 C++ 工具链。其核心价值在于让用户完全掌控自己的数据和推理过程,实现真正的本地化、私有化且免费的大模型部署。

标签

项目特点

**纯 Rust 实现**:无需 Python、C++ 工具链或其他外部依赖,单一二进制文件即可运行。
**OpenAI API 兼容**:提供 100% 兼容的 `/v1/chat/completions` 等端点,可无缝替换现有 OpenAI 客户端和工具。
**Airframe 引擎**:自研的纯 Rust WebGPU (WGSL) 推理引擎,提供 F32 精度推理,支持多种模型架构。
**TurboShimmy INT4 KV**:创新的 INT4 KV 缓存压缩技术,可将 KV 缓存显存占用降低约 7 倍,且无明显质量损失。
**热模型切换**:支持在运行时动态切换模型,无需重启服务器。
**自动模型发现**:自动扫描 HuggingFace 缓存、Ollama 目录、LM Studio 缓存等位置,注册并服务模型。
**扩展上下文支持**:通过 `SHIMMY_MAX_CTX` 环境变量支持 YaRN RoPE 缩放,实现扩展上下文窗口。
**跨平台支持**:提供 Windows、Linux、macOS 的预编译二进制文件。

技术规格

编程语言
推理引擎
支持的模型格式
支持的量化类型
已验证模型架构
KV 缓存压缩
API 兼容性
默认端口
许可证

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
操作系统 1 Windows, Linux, macOS
显卡驱动 (支持 WebGPU) 1 用于 GPU 推理
GGUF 格式模型文件 1 如 TinyLlama, Llama-3.2 等

所需工具

工具用途是否必需
终端/命令行 运行 Shimmy 服务器和发送 API 请求 ✅ 是
curl 或类似工具 测试 OpenAI API 端点 ▢ 推荐
jq 格式化 JSON 输出 ▢ 推荐

能力画像

记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
1/5
动手与操作
1/5
狂热与坚持
1/5
创造与创新
1/5

所需技能

🔧 **动手能力**:能够下载并运行预编译的二进制文件,配置环境变量。 💻 **编程能力**:了解基本的命令行操作和 API 调用(如 curl)。 ⚡ **电子电路**:不适用。

适用场景

**本地 AI 推理**:在个人电脑上运行 LLM,无需联网,保护数据隐私。
**开发与测试**:作为 OpenAI API 的本地替代品,用于开发和测试 AI 应用。
**低配硬件推理**:利用 TurboShimmy 技术,在 4GB 或更低显存的 GPU 上运行 3B 甚至 7B 参数的模型。
**集成到现有工具链**:无缝替换任何使用 OpenAI API 的客户端、框架或工具(如 LangChain, AutoGPT)。