XiaoClaw AI语音助手

项目简介

Local AI Agent firmware running on ESP32-S3, integrating offline voice wake-up with cloud TTS, supporting local LLM infe

XiaoClaw 是一个运行在 ESP32-S3 芯片上的 AI 语音助手固件，它将语音交互与本地 AI Agent 大脑融为一体，在单个低功耗设备上实现了从“听到”到“思考”再到“行动”的完整闭环。项目核心由两层构成：语音 I/O 层（xiaozhi）负责离线唤醒词检测、流式语音识别与合成、OLED/LCD 显示以及 Wi-Fi 通信；Agent 大脑层（mimiclaw）则集成了 LLM 推理、工具调用、记忆管理和自主任务执行引擎。XiaoClaw 最突出的特点是具备自学习能力——多步骤任务会被自动结晶为可复用的技能，并按照 L0 到 L4 的层级进行记忆管理。它还内置了 Cron 定时调度器，支持自主执行周期性任务，并通过 MCP 客户端动态接入远程工具。技术栈方面，项目基于 ESP-IDF 框架开发，语音部分使用了 ESP-SR 离线唤醒和 OPUS 音频编解码，Agent 层支持 Anthropic Claude 和 OpenAI GPT 等主流大模型，记忆系统基于 SPIFFS 文件系统实现长期存储。XiaoClaw 解决了传统智能音箱依赖云端、响应延迟高、隐私风险大等问题，特别适合需要本地化、低延迟、高隐私保护的智能家居控制、个人助理和边缘计算场景。硬件上要求 ESP32-S3 开发板搭配 32MB Flash 和 8MB PSRAM，兼容 70 多种主流开发板，如 ESP32-S3-BOX3、M5Stack CoreS3 等，开发者可通过 menuconfig 快速配置 Wi-Fi 和 API 密钥，上手门槛低。

项目特点

**离线唤醒词检测**：基于 ESP-SR 实现本地唤醒，无需云端依赖

**流式语音交互**：支持流式 ASR 语音识别和 TTS 语音合成

**本地 LLM Agent**：集成 Anthropic Claude / OpenAI GPT 等大模型，支持 ReAct 推理循环

**自学习技能系统**：多步任务自动结晶为可复用的技能，支持 L0-L4 内存层级

**工具调用框架**：内置 Web 搜索、文件操作、Lua 脚本执行、MCP 远程工具等多种工具

**自主任务调度**：Cron 定时器支持自主执行预设任务

**MCP 客户端**：支持动态发现和调用远程 MCP 服务器工具

**会话管理**：基于游标的会话历史追踪与自动压缩

**断点恢复**：Checkpoint 系统支持崩溃恢复

**多语言支持**：中文、英文、日文等多语言语音交互

技术规格

主控芯片	ESP32-S3
最低Flash	16MB（推荐32MB）
最低PSRAM	8MB（推荐Octal PSRAM）
音频编解码	OPUS
唤醒词引擎	ESP-SR
LLM API	Anthropic Claude / OpenAI GPT / 兼容API
搜索API	Tavily / Brave Search
通信协议	WebSocket / MQTT
显示支持	OLED / LCD（emoji支持）
电源管理	电池管理与功耗优化
开发框架	ESP-IDF v5.5+
构建工具	CMake 3.16+ / Python 3.10+

项目资源

🌐 官方网站 GitHub 仓库 ESP-SR 唤醒词引擎 xiaozhi-esp32

搜索资源

百度必应搜狗 Google DuckDuckGo GitHub Gitee B站 YouTube 知乎小红书微信 CSDN Hackster Hackaday Printables Instructables OSHWHub

物料清单 (BOM)

物料名称	数量	参考价格	备注
ESP32-S3 开发板（如ESP32-S3-BOX3）	1	—	需32MB Flash + 8MB PSRAM
音频编解码器+麦克风+扬声器模块	1	—	支持OPUS编解码
OLED/LCD 显示屏	1	—	可选，支持emoji显示
锂电池+电源管理模块	1	—	可选，支持电池管理
USB数据线	1	—	用于烧录和调试

能力画像

⚪ 记忆与知识检索: 4/5

🔵 逻辑推演: 4/5

⚪ 表达与交流: 4/5

⚪ 感知与观察: 3/5

⚪ 数理与计算: 3/5

⚪ 动手与操作: 3/5

⚪ 狂热与坚持: 4/5

⚪ 创造与创新: 4/5

所需技能

🔧 **动手能力**：需要具备ESP32开发板焊接、接线和硬件调试能力，了解音频模块和显示模块的硬件连接 💻 **编程能力**：需要掌握C/C++（ESP-IDF开发）、Python（MCP服务器）、Lua（脚本执行），了解嵌入式系统开发和LLM API调用 ⚡ **电子电路**：需要了解ESP32-S3的引脚定义、电源管理、音频编解码器电路和I2C/SPI通信协议

适用场景

**智能家居语音助手**：作为本地AI语音控制中心，通过语音指令控制智能家居设备

**个人AI助理**：支持日程管理、信息查询、任务自动化等个人助理功能

**嵌入式AI研究平台**：用于研究边缘AI Agent、语音交互和自主任务执行

**物联网原型开发**：作为IoT设备的语音交互和AI决策原型平台

**教育与实验**：用于嵌入式AI、语音识别和Agent系统的教学与实验

XiaoClaw AI语音助手 `xiaoclaw`

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

所需技能

适用场景

XiaoClaw AI语音助手 xiaoclaw

项目简介

标签

项目特点

技术规格

项目资源

搜索资源

物料清单 (BOM)

能力画像

所需技能

适用场景

XiaoClaw AI语音助手 `xiaoclaw`