小智ESP32后端服务(Go语言版) xiaozhi-esp32-server-golang

ESP32 ⭐⭐☆☆☆ (2/5) 已发布
hackers365 332 Stars MIT BOM 完整度: /5 教程完整度: /5

项目简介

golang版小智后端,支持WebSocket、MQTT+UDP,及声纹识别、声音克隆、知识库、MCP远程调用、主动音频下发、OpenClaw。


xiaozhi-esp32-server-golang 是一款专为物联网与智能语音场景设计的高性能 AI 后端服务,基于 Go 语言开发,为 ESP32 等智能终端提供端到端的全流式语音交互能力。项目集成了 ASR(自动语音识别)、LLM(大语言模型)、TTS(语音合成)三大核心模块,并实现了从语音输入到语音输出的全流程流式处理,显著降低了交互延迟,带来更自然的对话体验。

标签

项目特点

⚡ **端到端全流式 AI 语音链路**:ASR → LLM → TTS 全流程流式处理,低延迟实时交互
🎙️ **声纹识别与动态TTS切换**:根据说话人身份自动切换TTS音色,个性化语音体验
🔌 **Transport 接口层抽象**:WebSocket / MQTT UDP 统一抽象,灵活注入主逻辑,便于协议扩展
📬 **消息队列化处理**:LLM 与 TTS 采用消息队列异步处理,支持业务逻辑灵活注入
🌐 **多协议高并发接入**:支持大规模设备并发接入与消息推送
♻️ **高效资源池与连接复用**:外部资源连接池机制,降低响应耗时,提升系统吞吐
🤖 **多引擎AI能力集成**:基于 Eino 框架,支持 FunASR、OpenAI 兼容、Ollama、Doubao、EdgeTTS、CosyVoice 等多种引擎
🧩 **模块化可扩展架构**:VAD/ASR/LLM/TTS/MCP/视觉等核心模块独立可插拔
🎵 **MCP Audio Server**:音频资源分页获取与流式处理,音乐播放与音量控制
🦞 **OpenClaw 智能体接入**:按智能体生成专属 OpenClaw Endpoint,支持连接状态查看、会话测试、进入/退出关键词路由
🖥️ **全功能Web管理控制台**:可视化配置向导、VAD/ASR/LLM/TTS全链路可用性测试、设备管理与消息注入、实时延迟监控与OTA验证
🧠 **高级业务功能**:MCP 市场聚合与导入、声音复刻、知识库(Dify/RAGFlow/WeKnora)、设备/智能体维度 MCP 远程调用调试
📦 **易用的一键部署方案**:预编译 aio 包开箱即用、Docker 一键部署、支持 Linux/Windows/macOS 本地编译

技术规格

开发语言
核心架构
支持协议
VAD 引擎
ASR 引擎
LLM 引擎
TTS 引擎
声纹识别
声音复刻
知识库 (RAG)
视觉处理
部署方式
支持平台
许可证

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
Go 1.20+ 1 开发语言
Opus 编解码库 (libopus0, libopusfile-dev) 1 音频编解码依赖
ONNX Runtime (1.21.0) 1 机器学习推理引擎
ten_vad 运行时依赖 (libc++1, libc++abi1) 1 VAD 模块依赖
ESP32 设备 1 目标终端设备

所需工具

工具用途是否必需
Go 编译器 编译 Go 源码 ▢ 推荐
Docker 容器化部署 ▢ 推荐
Git 版本控制与代码下载 ✅ 是
Web 浏览器 访问管理控制台 ✅ 是

能力画像

记忆与知识检索
3/5
逻辑推演
4/5
表达与交流
2/5
感知与观察
2/5
数理与计算
3/5
动手与操作
3/5
狂热与坚持
4/5
创造与创新
4/5

所需技能

🔧 **动手能力**:能够部署和配置后端服务,管理 Docker 容器,连接 ESP32 设备。 💻 **编程能力**:熟悉 Go 语言,能够阅读和修改源码,理解并发编程和网络编程。 ⚡ **电子电路**:了解 ESP32 设备的基本连接和配置,能够进行固件烧录和调试。

适用场景

为 ESP32 等物联网设备构建智能语音助手后端。
开发需要低延迟、高并发的 AI 语音交互系统。
集成声纹识别、声音克隆、知识库等高级功能的智能硬件项目。
作为学习和研究全流式 AI 语音架构的参考实现。