百聆 bailing

⭐⭐⭐☆☆ (3/5) 🧩 软硬件结合 已发布
wwbin2017 1196 Stars 未知 BOM 完整度: /5 教程完整度: /5

项目简介

百聆 是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,集成DeepSeek R1等优秀大模型,接入openClaw,真正的个人语音助手,时延低至800ms,Mac等低配置也可运行,支持打断


百聆 是一个类似GPT-4o的语音对话机器人,通过ASR+LLM+TTS实现,集成DeepSeek R1等优秀大模型,接入openClaw,真正的个人语音助手,时延低至800ms,Mac等低配置也可运

标签

项目特点

🚀 **流畅对话体验**:低延迟、不卡顿,几乎像真人对话一样自然,百聆使用了多个开源模型,确保高效、可靠的语音对话体验。
🖥 **轻量级部署**:无需高端硬件,甚至不需要 GPU,通过优化,可本地部署,仍能提供类GPT-4的性能表现。
🔧 **模块化设计**:ASR、VAD、LLM和TTS模块相互独立,可以根据需求进行替换和升级。
🧠 **智能记忆功能**:具备持续学习能力,能够记忆用户的偏好与历史对话,提供个性化的互动体验。
🛠 **工具调用能力**:灵活集成外部工具,用户可通过语音直接请求信息或执行操作,提升助手的实用性。
📅 **任务管理**:高效管理用户任务,能够跟踪进度、设置提醒,并提供动态更新,确保用户不错过任何重要事项。
🌐 **可扩展生态**:除 OpenClaw 外,也支持逐步接入更多外部工具与 Agent 能力。

技术规格

核心架构
语音识别 (ASR)
语音活动检测 (VAD)
大语言模型 (LLM)
语音合成 (TTS)
工具/Agent引擎
端到端时延
运行环境
通信协议

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
Python 3.12+ 1 运行环境
FunASR 1 ASR组件
silero-vad 1 VAD组件
DeepSeek API 1 LLM服务(需API Key)
edge-tts / Kokoro-82M / ChatTTS 1 TTS组件(可选其一)
SenseVoiceSmall 1 ASR模型文件

所需工具

工具用途是否必需
文本编辑器/IDE 编辑代码和配置文件 ✅ 是
Python 3.12+ 运行项目 ✅ 是
pip 安装Python依赖 ✅ 是
Git 克隆和管理代码 ✅ 是
OpenSSL 生成自签名证书(服务器运行模式) ▢ 推荐

能力画像

记忆与知识检索
3/5
逻辑推演
3/5
表达与交流
4/5
感知与观察
3/5
数理与计算
2/5
动手与操作
2/5
狂热与坚持
2/5
创造与创新
3/5

所需技能

🔧 **动手能力**:能够配置Python环境和安装依赖,理解基本的命令行操作。 💻 **编程能力**:具备Python基础,能够修改配置文件(YAML/TOML),理解模块化设计思想。 ⚡ **电子电路**:无需电子电路知识。

适用场景

**个人语音助手**:在个人电脑上部署,通过语音进行信息查询、任务管理和日常对话。
**低资源环境下的AI应用**:在无GPU的Mac或边缘设备上运行,体验类GPT-4o的语音对话能力。
**学习和研究**:作为学习ASR、LLM、TTS技术集成和语音交互系统设计的优秀开源项目。
**智能家居控制**:通过集成OpenClaw,未来可扩展为智能家居的语音控制中心。