小智ESP32后端服务(Go语言版)
xiaozhi-esp32-server-golang
ESP32
⭐⭐☆☆☆ (2/5)
已发布
项目简介
golang版小智后端,支持WebSocket、MQTT+UDP,及声纹识别、声音克隆、知识库、MCP远程调用、主动音频下发、OpenClaw。
xiaozhi-esp32-server-golang 是一款专为物联网与智能语音场景设计的高性能 AI 后端服务,基于 Go 语言开发,为 ESP32 等智能终端提供端到端的全流式语音交互能力。项目集成了 ASR(自动语音识别)、LLM(大语言模型)、TTS(语音合成)三大核心模块,并实现了从语音输入到语音输出的全流程流式处理,显著降低了交互延迟,带来更自然的对话体验。
标签
项目特点
⚡ **端到端全流式 AI 语音链路**:ASR → LLM → TTS 全流程流式处理,低延迟实时交互
🎙️ **声纹识别与动态TTS切换**:根据说话人身份自动切换TTS音色,个性化语音体验
🔌 **Transport 接口层抽象**:WebSocket / MQTT UDP 统一抽象,灵活注入主逻辑,便于协议扩展
📬 **消息队列化处理**:LLM 与 TTS 采用消息队列异步处理,支持业务逻辑灵活注入
🌐 **多协议高并发接入**:支持大规模设备并发接入与消息推送
♻️ **高效资源池与连接复用**:外部资源连接池机制,降低响应耗时,提升系统吞吐
🤖 **多引擎AI能力集成**:基于 Eino 框架,支持 FunASR、OpenAI 兼容、Ollama、Doubao、EdgeTTS、CosyVoice 等多种引擎
🧩 **模块化可扩展架构**:VAD/ASR/LLM/TTS/MCP/视觉等核心模块独立可插拔
🎵 **MCP Audio Server**:音频资源分页获取与流式处理,音乐播放与音量控制
🦞 **OpenClaw 智能体接入**:按智能体生成专属 OpenClaw Endpoint,支持连接状态查看、会话测试、进入/退出关键词路由
🖥️ **全功能Web管理控制台**:可视化配置向导、VAD/ASR/LLM/TTS全链路可用性测试、设备管理与消息注入、实时延迟监控与OTA验证
🧠 **高级业务功能**:MCP 市场聚合与导入、声音复刻、知识库(Dify/RAGFlow/WeKnora)、设备/智能体维度 MCP 远程调用调试
📦 **易用的一键部署方案**:预编译 aio 包开箱即用、Docker 一键部署、支持 Linux/Windows/macOS 本地编译
技术规格
| 开发语言 | |
|---|---|
| 核心架构 | |
| 支持协议 | |
| VAD 引擎 | |
| ASR 引擎 | |
| LLM 引擎 | |
| TTS 引擎 | |
| 声纹识别 | |
| 声音复刻 | |
| 知识库 (RAG) | |
| 视觉处理 | |
| 部署方式 | |
| 支持平台 | |
| 许可证 |
项目资源
hackers365/xiaozhi-esp32-server-golang
hackers365/xiaozhi-esp32-server-golang
hackers365/xiaozhi-esp32-server-golang
doc/quickstart_bundle_tutorial.md
doc/docker_compose.md
doc/docker.md
doc/compile_deploy.md
doc/config.md
doc/manager_console_guide.md
doc/websocket_server.md
doc/mqtt_udp.md
doc/mqtt_udp_protocol.md
doc/vision.md
doc/speaker_identification.md
doc/mcp.md
doc/mcp_resource.md
doc/mcp_market.md
doc/openclaw_integration.md
doc/voice_clone.md
doc/knowledge_base.md
doc/mcp_remote_call_agent_device.md
doc/esp32_xiaozhi_backend_guide.md
doc/ota_mqtt_auth.md
doc/delay_test.md
搜索资源
物料清单 (BOM)
| 物料名称 | 数量 | 参考价格 | 备注 |
|---|---|---|---|
| Go 1.20+ | 1 | — | 开发语言 |
| Opus 编解码库 (libopus0, libopusfile-dev) | 1 | — | 音频编解码依赖 |
| ONNX Runtime (1.21.0) | 1 | — | 机器学习推理引擎 |
| ten_vad 运行时依赖 (libc++1, libc++abi1) | 1 | — | VAD 模块依赖 |
| ESP32 设备 | 1 | — | 目标终端设备 |
所需工具
| 工具 | 用途 | 是否必需 |
|---|---|---|
| Go 编译器 | 编译 Go 源码 | ▢ 推荐 |
| Docker | 容器化部署 | ▢ 推荐 |
| Git | 版本控制与代码下载 | ✅ 是 |
| Web 浏览器 | 访问管理控制台 | ✅ 是 |
能力画像
记忆与知识检索
3/5
逻辑推演
4/5
表达与交流
2/5
感知与观察
2/5
数理与计算
3/5
动手与操作
3/5
狂热与坚持
4/5
创造与创新
4/5
项目图库
所需技能
🔧 **动手能力**:能够部署和配置后端服务,管理 Docker 容器,连接 ESP32 设备。
💻 **编程能力**:熟悉 Go 语言,能够阅读和修改源码,理解并发编程和网络编程。
⚡ **电子电路**:了解 ESP32 设备的基本连接和配置,能够进行固件烧录和调试。
适用场景
为 ESP32 等物联网设备构建智能语音助手后端。
开发需要低延迟、高并发的 AI 语音交互系统。
集成声纹识别、声音克隆、知识库等高级功能的智能硬件项目。
作为学习和研究全流式 AI 语音架构的参考实现。