小智ESP32后端服务（Go语言版）

项目简介

golang版小智后端，支持WebSocket、MQTT+UDP，及声纹识别、声音克隆、知识库、MCP远程调用、主动音频下发、OpenClaw。

xiaozhi-esp32-server-golang 是一款专为物联网与智能语音场景设计的高性能 AI 后端服务，基于 Go 语言开发，为 ESP32 等智能终端提供端到端的全流式语音交互能力。项目集成了 ASR（自动语音识别）、LLM（大语言模型）、TTS（语音合成）三大核心模块，并实现了从语音输入到语音输出的全流程流式处理，显著降低了交互延迟，带来更自然的对话体验。

项目特点

⚡ **端到端全流式 AI 语音链路**：ASR → LLM → TTS 全流程流式处理，低延迟实时交互

🎙️ **声纹识别与动态TTS切换**：根据说话人身份自动切换TTS音色，个性化语音体验

🔌 **Transport 接口层抽象**：WebSocket / MQTT UDP 统一抽象，灵活注入主逻辑，便于协议扩展

📬 **消息队列化处理**：LLM 与 TTS 采用消息队列异步处理，支持业务逻辑灵活注入

🌐 **多协议高并发接入**：支持大规模设备并发接入与消息推送

♻️ **高效资源池与连接复用**：外部资源连接池机制，降低响应耗时，提升系统吞吐

🤖 **多引擎AI能力集成**：基于 Eino 框架，支持 FunASR、OpenAI 兼容、Ollama、Doubao、EdgeTTS、CosyVoice 等多种引擎

🧩 **模块化可扩展架构**：VAD/ASR/LLM/TTS/MCP/视觉等核心模块独立可插拔

🎵 **MCP Audio Server**：音频资源分页获取与流式处理，音乐播放与音量控制

🦞 **OpenClaw 智能体接入**：按智能体生成专属 OpenClaw Endpoint，支持连接状态查看、会话测试、进入/退出关键词路由

🖥️ **全功能Web管理控制台**：可视化配置向导、VAD/ASR/LLM/TTS全链路可用性测试、设备管理与消息注入、实时延迟监控与OTA验证

🧠 **高级业务功能**：MCP 市场聚合与导入、声音复刻、知识库（Dify/RAGFlow/WeKnora）、设备/智能体维度 MCP 远程调用调试

📦 **易用的一键部署方案**：预编译 aio 包开箱即用、Docker 一键部署、支持 Linux/Windows/macOS 本地编译

技术规格

开发语言	Go 1.20+
核心架构	全流式 AI 语音链路 (ASR → LLM → TTS)
支持协议	WebSocket, MQTT + UDP
VAD 引擎	Silero VAD / WebRTC VAD / ten_vad
ASR 引擎	FunASR / Doubao ASR
LLM 引擎	Eino 框架兼容、OpenAI、Ollama 等https://raw.githubusercontent.com/hackers365/xiaozhi-esp32-server-golang/main/doc/quickstart_bundle_tutorial.md)
声纹识别	shehttps://raw.githubusercontent.com/hackers365/xiaozhi-esp32-server-golang/main/doc/docker_compose.md)yVoice / 千问
视觉处理	Doubao / 阿里https://raw.githubusercontent.com/hackers365/xiaozhi-esp32-server-golang/main/doc/compile_deploy.md)译

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
Go 1.20+	1	—	开发语言
Opus 编解码库 (libopus0, libopusfile-dev)	1	—	音频编解码依赖
ONNX Runtime (1.21.0)	1	—	机器学习推理引擎
ten_vad 运行时依赖 (libc++1, libc++abi1)	1	—	VAD 模块依赖
ESP32 设备	1	—	目标终端设备

能力画像

⚪ 记忆与知识检索: 3/5

🔵 逻辑推演: 4/5

⚪ 表达与交流: 2/5

⚪ 感知与观察: 2/5

⚪ 数理与计算: 3/5

⚪ 动手与操作: 3/5

⚪ 狂热与坚持: 4/5

⚪ 创造与创新: 4/5

项目图库

所需技能

🔧 **动手能力**：能够部署和配置后端服务，管理 Docker 容器，连接 ESP32 设备。 💻 **编程能力**：熟悉 Go 语言，能够阅读和修改源码，理解并发编程和网络编程。 ⚡ **电子电路**：了解 ESP32 设备的基本连接和配置，能够进行固件烧录和调试。

适用场景

为 ESP32 等物联网设备构建智能语音助手后端。

开发需要低延迟、高并发的 AI 语音交互系统。

集成声纹识别、声音克隆、知识库等高级功能的智能硬件项目。

作为学习和研究全流式 AI 语音架构的参考实现。

小智ESP32后端服务（Go语言版） `xiaozhi-esp32-server-golang`

项目简介

标签

项目特点

技术规格

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

小智ESP32后端服务（Go语言版） xiaozhi-esp32-server-golang

项目简介

标签

项目特点

技术规格

搜索资源

物料清单 (BOM)

能力画像

项目图库

所需技能

适用场景

小智ESP32后端服务（Go语言版） `xiaozhi-esp32-server-golang`