Parlor parlor

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
fikrikarim 884 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

On-device, real-time multimodal AI. Have natural voice and vision conversations with an AI that runs entirely on your ma


Parlor 是一个完全运行在本地设备上的实时多模态AI助手,让你能够与AI进行自然的语音和视觉对话,所有处理都在你的机器上完成,无需依赖云端服务器。它利用Google DeepMind的Gemma 4 E2B模型来理解语音和视觉输入,结合Kokoro文本转语音引擎实现语音回复。你只需对着麦克风说话、展示摄像头画面,AI就能实时回应,整个过程完全离线运行。

标签

项目特点

**完全本地运行**:所有 AI 模型和数据处理都在用户设备上执行,无需联网,保护隐私且零服务器成本。
**实时多模态交互**:支持语音和视觉输入,用户可以通过麦克风和摄像头与 AI 进行自然对话。
**免提语音激活**:使用 Silero VAD 在浏览器中进行语音活动检测,无需按键即可开始对话。
**打断功能**:用户可以在 AI 说话时随时打断并开始新的对话。
**流式 TTS**:采用句子级别的文本转语音流式传输,在完整响应生成前即可开始播放音频。
**跨平台支持**:支持 macOS (Apple Silicon) 和 Linux (支持 GPU) 系统。

技术规格

核心模型
TTS 模型
语音检测
后端框架
运行环境
硬件要求
内存需求
模型大小
端到端延迟
解码速度

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
Python 3.12+ 1 运行环境
uv 包管理器 1 依赖管理
带麦克风的电脑 1 用于语音输入
摄像头 1 用于视觉输入
扬声器或耳机 1 用于音频输出
Gemma 4 E2B 1 自动下载 (~2.6 GB)
Kokoro-82M 1 自动下载

所需工具

工具用途是否必需
现代浏览器 运行前端 UI (支持 WebSocket) ✅ 是
Python 3.12+ 运行后端服务器 ✅ 是
uv 包管理器 安装 Python 依赖 ✅ 是
Git 克隆项目仓库 ✅ 是
麦克风 语音输入 ✅ 是
摄像头 视觉输入 ▢ 推荐
扬声器/耳机 音频输出 ✅ 是

能力画像

记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
2/5
动手与操作
2/5
狂热与坚持
1/5
创造与创新
1/5

所需技能

🔧 **动手能力**:基本的命令行操作,能够克隆仓库、安装依赖和运行脚本。 💻 **编程能力**:了解 Python 和 WebSocket 概念,能够阅读和修改服务器代码。 ⚡ **电子电路**:无需硬件电路知识。

适用场景

**语言学习**:用户可以通过与 AI 进行自然对话来练习外语口语,AI 能理解并回应。
**本地 AI 助手**:作为完全离线的个人 AI 助手,处理日常问答、信息查询等任务。
**视觉辅助**:通过摄像头识别物体,并与之进行语音讨论,适合教育或辅助场景。
**隐私敏感应用**:需要 AI 能力但不愿将数据上传到云端的场景。