Parlor - iMakething

项目简介

On-device, real-time multimodal AI. Have natural voice and vision conversations with an AI that runs entirely on your ma

Parlor 是一个完全运行在本地设备上的实时多模态AI助手，让你能够与AI进行自然的语音和视觉对话，所有处理都在你的机器上完成，无需依赖云端服务器。它利用Google DeepMind的Gemma 4 E2B模型来理解语音和视觉输入，结合Kokoro文本转语音引擎实现语音回复。你只需对着麦克风说话、展示摄像头画面，AI就能实时回应，整个过程完全离线运行。

项目特点

**完全本地运行**：所有 AI 模型和数据处理都在用户设备上执行，无需联网，保护隐私且零服务器成本。

**实时多模态交互**：支持语音和视觉输入，用户可以通过麦克风和摄像头与 AI 进行自然对话。

**免提语音激活**：使用 Silero VAD 在浏览器中进行语音活动检测，无需按键即可开始对话。

**打断功能**：用户可以在 AI 说话时随时打断并开始新的对话。

**流式 TTS**：采用句子级别的文本转语音流式传输，在完整响应生成前即可开始播放音频。

**跨平台支持**：支持 macOS (Apple Silicon) 和 Linux (支持 GPU) 系统。

技术规格

核心模型	Gemma 4 E2B (用于语音和视觉理解)
TTS 模型	Kokoro-82M (文本转语音)
语音检测	Silero VAD (浏览器端)
后端框架	FastAPI (WebSocket 服务器)
运行环境	Python 3.12+
硬件要求	macOS (Apple Silicon) 或 Linux (支持 GPU)
内存需求	约 3 GB 空闲 RAM
模型大小	Gemma 4 E2B 约 2.6 GB (自动下载)
端到端延迟	约 2.5-3.0 秒 (Apple M3 Pro)
解码速度	约 83 tokens/秒 (Apple M3 Pro GPU)

项目资源

GitHub 仓库 Gemma 4 模型 LiteRT-LM Kokoro TTS Silero VAD 项目作者博客

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
Python 3.12+	1	—	运行环境
uv 包管理器	1	—	依赖管理
带麦克风的电脑	1	—	用于语音输入
摄像头	1	—	用于视觉输入
扬声器或耳机	1	—	用于音频输出
Gemma 4 E2B	1	—	自动下载 (~2.6 GB)
Kokoro-82M	1	—	自动下载

能力画像

⚪ 记忆与知识检索: 1/5

🔵 逻辑推演: 1/5

⚪ 表达与交流: 1/5

⚪ 感知与观察: 1/5

🔵 数理与计算: 2/5

🔵 动手与操作: 2/5

⚪ 狂热与坚持: 1/5

⚪ 创造与创新: 1/5

项目图库

所需技能

🔧 **动手能力**：基本的命令行操作，能够克隆仓库、安装依赖和运行脚本。 💻 **编程能力**：了解 Python 和 WebSocket 概念，能够阅读和修改服务器代码。 ⚡ **电子电路**：无需硬件电路知识。

适用场景

**语言学习**：用户可以通过与 AI 进行自然对话来练习外语口语，AI 能理解并回应。

**本地 AI 助手**：作为完全离线的个人 AI 助手，处理日常问答、信息查询等任务。

**视觉辅助**：通过摄像头识别物体，并与之进行语音讨论，适合教育或辅助场景。

**隐私敏感应用**：需要 AI 能力但不愿将数据上传到云端的场景。

Parlor `parlor`

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

Parlor parlor

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

Parlor `parlor`