百聆
bailing
⭐⭐⭐☆☆ (3/5)
🧩 软硬件结合
已发布
项目简介
百聆 是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,集成DeepSeek R1等优秀大模型,接入openClaw,真正的个人语音助手,时延低至800ms,Mac等低配置也可运行,支持打断
百聆 是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,集成DeepSeek R1等优秀大模型,接入openClaw,真正的个人语音助手,时延低至800ms,Mac等低配置也可运
标签
项目特点
🚀 **流畅对话体验**:低延迟、不卡顿,几乎像真人对话一样自然,百聆使用了多个开源模型,确保高效、可靠的语音对话体验。
🖥 **轻量级部署**:无需高端硬件,甚至不需要 GPU,通过优化,可本地部署,仍能提供类GPT-4的性能表现。
🔧 **模块化设计**:ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级。
🧠 **智能记忆功能**:具备持续学习能力,能够记忆用户的偏好与历史对话,提供个性化的互动体验。
🛠 **工具调用能力**:灵活集成外部工具,用户可通过语音直接请求信息或执行操作,提升助手的实用性。
📅 **任务管理**:高效管理用户任务,能够跟踪进度、设置提醒,并提供动态更新,确保用户不错过任何重要事项。
🌐 **可扩展生态**:除 OpenClaw 外,也支持逐步接入更多外部工具与 Agent 能力。
技术规格
| 核心架构 | |
|---|---|
| 语音识别 (ASR) | |
| 语音活动检测 (VAD) | |
| 大语言模型 (LLM) | |
| 语音合成 (TTS) | |
| 工具/Agent引擎 | |
| 端到端时延 | |
| 运行环境 | |
| 通信协议 |
项目资源
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Python 3.12+ | 1 | — | 运行环境 |
| FunASR | 1 | — | ASR组件 |
| silero-vad | 1 | — | VAD组件 |
| DeepSeek API | 1 | — | LLM服务(需API Key) |
| edge-tts / Kokoro-82M / ChatTTS | 1 | — | TTS组件(可选其一) |
| SenseVoiceSmall | 1 | — | ASR模型文件 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| 文本编辑器/IDE | 编辑代码和配置文件 | ✅ 是 |
| Python 3.12+ | 运行项目 | ✅ 是 |
| pip | 安装Python依赖 | ✅ 是 |
| Git | 克隆和管理代码 | ✅ 是 |
| OpenSSL | 生成自签名证书(服务器运行模式) | ▢ 推荐 |
能力画像
记忆与知识检索
3/5
逻辑推演
3/5
表达与交流
4/5
感知与观察
3/5
数理与计算
2/5
动手与操作
2/5
狂热与坚持
2/5
创造与创新
3/5
项目图库
所需技能
🔧 **动手能力**:能够配置Python环境和安装依赖,理解基本的命令行操作。
💻 **编程能力**:具备Python基础,能够修改配置文件(YAML/TOML),理解模块化设计思想。
⚡ **电子电路**:无需电子电路知识。
适用场景
**个人语音助手**:在个人电脑上部署,通过语音进行信息查询、任务管理和日常对话。
**低资源环境下的AI应用**:在无GPU的Mac或边缘设备上运行,体验类GPT-4o的语音对话能力。
**学习和研究**:作为学习ASR、LLM、TTS技术集成和语音交互系统设计的优秀开源项目。
**智能家居控制**:通过集成OpenClaw,未来可扩展为智能家居的语音控制中心。