Parlor
parlor
⭐⭐⭐☆☆ (3/5)
🧩 软硬件结合
已发布
项目简介
On-device, real-time multimodal AI. Have natural voice and vision conversations with an AI that runs entirely on your ma
Parlor 是一个完全运行在本地设备上的实时多模态AI助手,让你能够与AI进行自然的语音和视觉对话,所有处理都在你的机器上完成,无需依赖云端服务器。它利用Google DeepMind的Gemma 4 E2B模型来理解语音和视觉输入,结合Kokoro文本转语音引擎实现语音回复。你只需对着麦克风说话、展示摄像头画面,AI就能实时回应,整个过程完全离线运行。
标签
项目特点
**完全本地运行**:所有 AI 模型和数据处理都在用户设备上执行,无需联网,保护隐私且零服务器成本。
**实时多模态交互**:支持语音和视觉输入,用户可以通过麦克风和摄像头与 AI 进行自然对话。
**免提语音激活**:使用 Silero VAD 在浏览器中进行语音活动检测,无需按键即可开始对话。
**打断功能**:用户可以在 AI 说话时随时打断并开始新的对话。
**流式 TTS**:采用句子级别的文本转语音流式传输,在完整响应生成前即可开始播放音频。
**跨平台支持**:支持 macOS (Apple Silicon) 和 Linux (支持 GPU) 系统。
技术规格
| 核心模型 | |
|---|---|
| TTS 模型 | |
| 语音检测 | |
| 后端框架 | |
| 运行环境 | |
| 硬件要求 | |
| 内存需求 | |
| 模型大小 | |
| 端到端延迟 | |
| 解码速度 |
项目资源
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Python 3.12+ | 1 | — | 运行环境 |
| uv 包管理器 | 1 | — | 依赖管理 |
| 带麦克风的电脑 | 1 | — | 用于语音输入 |
| 摄像头 | 1 | — | 用于视觉输入 |
| 扬声器或耳机 | 1 | — | 用于音频输出 |
| Gemma 4 E2B | 1 | — | 自动下载 (~2.6 GB) |
| Kokoro-82M | 1 | — | 自动下载 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| 现代浏览器 | 运行前端 UI (支持 WebSocket) | ✅ 是 |
| Python 3.12+ | 运行后端服务器 | ✅ 是 |
| uv 包管理器 | 安装 Python 依赖 | ✅ 是 |
| Git | 克隆项目仓库 | ✅ 是 |
| 麦克风 | 语音输入 | ✅ 是 |
| 摄像头 | 视觉输入 | ▢ 推荐 |
| 扬声器/耳机 | 音频输出 | ✅ 是 |
能力画像
记忆与知识检索
1/5
逻辑推演
1/5
表达与交流
1/5
感知与观察
1/5
数理与计算
2/5
动手与操作
2/5
狂热与坚持
1/5
创造与创新
1/5
项目图库
所需技能
🔧 **动手能力**:基本的命令行操作,能够克隆仓库、安装依赖和运行脚本。
💻 **编程能力**:了解 Python 和 WebSocket 概念,能够阅读和修改服务器代码。
⚡ **电子电路**:无需硬件电路知识。
适用场景
**语言学习**:用户可以通过与 AI 进行自然对话来练习外语口语,AI 能理解并回应。
**本地 AI 助手**:作为完全离线的个人 AI 助手,处理日常问答、信息查询等任务。
**视觉辅助**:通过摄像头识别物体,并与之进行语音讨论,适合教育或辅助场景。
**隐私敏感应用**:需要 AI 能力但不愿将数据上传到云端的场景。