XiaoClaw AI语音助手 xiaoclaw

ESP32 ⭐⭐☆☆☆ (2/5) 已发布
beancookie 30 Stars MIT BOM 完整度: /5 教程完整度: /5

项目简介

Local AI Agent firmware running on ESP32-S3, integrating offline voice wake-up with cloud TTS, supporting local LLM infe


XiaoClaw 是一个运行在 ESP32-S3 芯片上的 AI 语音助手固件,它将语音交互与本地 AI Agent 大脑融为一体,在单个低功耗设备上实现了从“听到”到“思考”再到“行动”的完整闭环。项目核心由两层构成:语音 I/O 层(xiaozhi)负责离线唤醒词检测、流式语音识别与合成、OLED/LCD 显示以及 Wi-Fi 通信;Agent 大脑层(mimiclaw)则集成了 LLM 推理、工具调用、记忆管理和自主任务执行引擎。XiaoClaw 最突出的特点是具备自学习能力——多步骤任务会被自动结晶为可复用的技能,并按照 L0 到 L4 的层级进行记忆管理。它还内置了 Cron 定时调度器,支持自主执行周期性任务,并通过 MCP 客户端动态接入远程工具。技术栈方面,项目基于 ESP-IDF 框架开发,语音部分使用了 ESP-SR 离线唤醒和 OPUS 音频编解码,Agent 层支持 Anthropic Claude 和 OpenAI GPT 等主流大模型,记忆系统基于 SPIFFS 文件系统实现长期存储。XiaoClaw 解决了传统智能音箱依赖云端、响应延迟高、隐私风险大等问题,特别适合需要本地化、低延迟、高隐私保护的智能家居控制、个人助理和边缘计算场景。硬件上要求 ESP32-S3 开发板搭配 32MB Flash 和 8MB PSRAM,兼容 70 多种主流开发板,如 ESP32-S3-BOX3、M5Stack CoreS3 等,开发者可通过 menuconfig 快速配置 Wi-Fi 和 API 密钥,上手门槛低。

标签

项目特点

**离线唤醒词检测**:基于 ESP-SR 实现本地唤醒,无需云端依赖
**流式语音交互**:支持流式 ASR 语音识别和 TTS 语音合成
**本地 LLM Agent**:集成 Anthropic Claude / OpenAI GPT 等大模型,支持 ReAct 推理循环
**自学习技能系统**:多步任务自动结晶为可复用的技能,支持 L0-L4 内存层级
**工具调用框架**:内置 Web 搜索、文件操作、Lua 脚本执行、MCP 远程工具等多种工具
**自主任务调度**:Cron 定时器支持自主执行预设任务
**MCP 客户端**:支持动态发现和调用远程 MCP 服务器工具
**会话管理**:基于游标的会话历史追踪与自动压缩
**断点恢复**:Checkpoint 系统支持崩溃恢复
**多语言支持**:中文、英文、日文等多语言语音交互

技术规格

主控芯片
最低Flash
最低PSRAM
音频编解码
唤醒词引擎
LLM API
搜索API
通信协议
显示支持
电源管理
开发框架
构建工具

项目资源

物料清单 (BOM)

物料名称 数量 参考价格 备注
ESP32-S3 开发板(如ESP32-S3-BOX3) 1 需32MB Flash + 8MB PSRAM
音频编解码器+麦克风+扬声器模块 1 支持OPUS编解码
OLED/LCD 显示屏 1 可选,支持emoji显示
锂电池+电源管理模块 1 可选,支持电池管理
USB数据线 1 用于烧录和调试

所需工具

工具用途是否必需
ESP-IDF v5.5+ 固件开发与编译环境 ✅ 是
Python 3.10+ 构建脚本与MCP服务器 ✅ 是
CMake 3.16+ 构建系统 ✅ 是
串口调试工具 烧录与监控 ✅ 是
3D打印机 打印外壳(可选) ▢ 推荐
焊台 焊接电子元件(可选) ▢ 推荐

能力画像

记忆与知识检索
4/5
逻辑推演
4/5
表达与交流
4/5
感知与观察
3/5
数理与计算
3/5
动手与操作
3/5
狂热与坚持
4/5
创造与创新
4/5

所需技能

🔧 **动手能力**:需要具备ESP32开发板焊接、接线和硬件调试能力,了解音频模块和显示模块的硬件连接 💻 **编程能力**:需要掌握C/C++(ESP-IDF开发)、Python(MCP服务器)、Lua(脚本执行),了解嵌入式系统开发和LLM API调用 ⚡ **电子电路**:需要了解ESP32-S3的引脚定义、电源管理、音频编解码器电路和I2C/SPI通信协议

适用场景

**智能家居语音助手**:作为本地AI语音控制中心,通过语音指令控制智能家居设备
**个人AI助理**:支持日程管理、信息查询、任务自动化等个人助理功能
**嵌入式AI研究平台**:用于研究边缘AI Agent、语音交互和自主任务执行
**物联网原型开发**:作为IoT设备的语音交互和AI决策原型平台
**教育与实验**:用于嵌入式AI、语音识别和Agent系统的教学与实验