Shimmy
shimmy
⭐⭐⭐☆☆ (3/5)
🧩 软硬件结合
已发布
项目简介
⚡ Python-free Rust inference server — OpenAI-API compatible. GGUF + SafeTensors, hot model swap, auto-discovery, single
Shimmy 是一个轻量级的开源 API 服务器,旨在作为 OpenAI API 的本地替代方案。它以一个单一二进制文件的形式,提供了 100% 兼容 OpenAI 的接口,让用户能够在本地运行 GGUF 格式的大语言模型,无需依赖任何外部服务或复杂的 C++ 工具链。其核心价值在于让用户完全掌控自己的数据和推理过程,实现真正的本地化、私有化且免费的大模型部署。
标签
项目特点
**纯 Rust 实现**:无需 Python、C++ 工具链或其他外部依赖,单一二进制文件即可运行。
**OpenAI API 兼容**:提供 100% 兼容的 `/v1/chat/completions` 等端点,可无缝替换现有 OpenAI 客户端和工具。
**Airframe 引擎**:自研的纯 Rust WebGPU (WGSL) 推理引擎,提供 F32 精度推理,支持多种模型架构。
**TurboShimmy INT4 KV**:创新的 INT4 KV 缓存压缩技术,可将 KV 缓存显存占用降低约 7 倍,且无明显质量损失。
**热模型切换**:支持在运行时动态切换模型,无需重启服务器。
**自动模型发现**:自动扫描 HuggingFace 缓存、Ollama 目录、LM Studio 缓存等位置,注册并服务模型。
**扩展上下文支持**:通过 `SHIMMY_MAX_CTX` 环境变量支持 YaRN RoPE 缩放,实现扩展上下文窗口。
**跨平台支持**:提供 Windows、Linux、macOS 的预编译二进制文件。
技术规格
| 编程语言 | |
|---|---|
| 推理引擎 | |
| 支持的模型格式 | |
| 支持的量化类型 | |
| 已验证模型架构 | |
| KV 缓存压缩 | |
| API 兼容性 | |
| 默认端口 | |
| 许可证 |
项目资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| 操作系统 | 1 | — | Windows, Linux, macOS |
| 显卡驱动 (支持 WebGPU) | 1 | — | 用于 GPU 推理 |
| GGUF 格式模型文件 | 1 | — | 如 TinyLlama, Llama-3.2 等 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| 终端/命令行 | 运行 Shimmy 服务器和发送 API 请求 | ✅ 是 |
| curl 或类似工具 | 测试 OpenAI API 端点 | ▢ 推荐 |
| jq | 格式化 JSON 输出 | ▢ 推荐 |
能力画像
记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
1/5
动手与操作
1/5
狂热与坚持
1/5
创造与创新
1/5
项目图库
所需技能
🔧 **动手能力**:能够下载并运行预编译的二进制文件,配置环境变量。
💻 **编程能力**:了解基本的命令行操作和 API 调用(如 curl)。
⚡ **电子电路**:不适用。
适用场景
**本地 AI 推理**:在个人电脑上运行 LLM,无需联网,保护数据隐私。
**开发与测试**:作为 OpenAI API 的本地替代品,用于开发和测试 AI 应用。
**低配硬件推理**:利用 TurboShimmy 技术,在 4GB 或更低显存的 GPU 上运行 3B 甚至 7B 参数的模型。
**集成到现有工具链**:无缝替换任何使用 OpenAI API 的客户端、框架或工具(如 LangChain, AutoGPT)。